Diário de Bordo #1

https://miro.medium.com/max/1200/0*amEN3QXWKs1VB3Qr

Original Source Here

Photo by Glenn Carstens-Peters on Unsplash

Bem vindo ao primeiro artigo da série “Diário de Bordo”!

O objetivo desta sequência de artigos é partilhar as coisas mais interessantes e úteis que explorei durante a semana, com especial foco nas áreas de tecnologia, programação e ciência de dados.

Isto pode incluir conceitos e ferramentas que descobri, assim como, podcasts, vídeos, livros ou artigos que abordam ideias que achei relevantes.

A lista desta semana inclui:

  • Uma conta de twitter
  • A palestra de Andrew Ng: “From Big Data to Good Data”
  • Os conceitos de Federated, Transfer e Active Learning.

Espero que gostes!

1. Twitter @svpino

Perfil de twitter @svpino de Santiago Valdarrama

Se tens interesse pela área de machine learning então fixa bem este nome: Santiago Valdarrama ou @svpino no twitter.

Santiago Valdarrama começou a sua carreira como engenheiro de software, tendo apenas mais tarde transitado para a área de machine learning.

Devido a este seu percurso, partilha diversas dicas para orientar quem está interessado em entrar nesta área e não sabe por onde começar. Desde as competências que tens de dominar até aos recursos ideais para adquirires este conhecimento.

Exemplo de um tweet sobre Machine Learning

O conteúdo é bastante prática e conciso! Recomendo!

2. Andrew Ng “From Big Data to Good Data”

Definição de “Good Data” — Conferência Scale Transform

Recentemente, Andrew NG deu uma palestra na conferência “Scale Transform” onde discutiu a importância de pensar nos sistema de machine learning como algo que tem de ser iterado e encarado como um processo de melhoria continua, destacando o papel do MLOps em garantir uma produtização mais metódica destes sistemas.

Nesta palestra, Andrew Ng apela à comunidade de machine learning que se torne mais “Data-Centric” em vez de “Model-Centric”, isto é, mude o seu foco do modelo para os dados.

Segundo a experiência de Ng, na maior parte dos projetos comerciais, iterar sobre os dados permite melhorias de perfomance superiores a iterar sobre o modelo.

3. Federated, Transfer e Active Learning

Para concluir a lista vou partilha três conceitos que explorei durante a semana.

Federated Learning

As abordagens habituais de machine learning envolvem centralizar os dados numa máquina local ou servidor para treinar um modelo.

A centralização da informação levanta alguns riscos de privacidade, especialmente quando pretendemos aceder a informação de natureza privada, como é boa parte dos dados que estão guardados nos nossos dispositivos móveis.

A aprendizagem federada pretende dar resposta a este desafio adotando uma abordagem inovadora: levar o código aos dados, em vez de levar os dados ao código.

Diagrama de funcionamento — Aprendizagem federada em dispositivos móveis. Fonte: Google AI Blog

Na prática permite treinar os modelos de forma descentralizada, isto é, ao nivel do dispositovo de cada utilizador. A aprendizagem destes diferentes modelos é depois combinada e vai permitir alimentar um único modelo central.

Esta abordagem permite tirar partido da valiosa informação que está disponivel nos nossos dispositivos móveis e respeitar a privacidade dos utilizadores.

A Google compilou aqui uma série de recursos sobre federated learning onde podes ficar a saber mais sobre esta técnica.

Transfer Learning

Esta estratégia de aprendizagem consiste em adaptar um modelo de machine learning para ser aplicado a uma tarefa diferente daquela para a qual foi inicialmente treinado.

Um contexto típico de aplicação é a classificação de imagens.

Ferramenta Online baseada em transfer learning “Teachable Machine”

Por exemplo, imagina o cenário em que temos de criar um modelo capaz de identificar animais domésticos num conjunto de imagens.

Em vez de treinarmos um modelo de raiz que responda a este desafio, podemos adaptar um modelo já existente que tenha sido treinado para identificar, por exemplo, animais selvagens.

É prática comum fazer uso de modelos pré-treinados que resultem de publicações científicas e que tenham sido criados para resolver um problema similar ao que pretendemos dar resposta.

A grande vantagem desta abordagem é que adaptar um modelo pré-treinado a um novo contexto, exige um menor volume de dados de treino e menos recursos computacionais.

Se tiveres curiosidade de treinar o teu próprio modelo usando técnicas de transfer learning então experimenta esta ferramenta online desenvolvida pela google: Teachable Machine.

Para compreenderes em maior detalhe como funciona esta aprendizagem podes sempre consultar o capítulo 8 do livro “The Hundred-Page Machine Learning Book” de Andriy Burkov.

Active Learning

Active Learning é uma abordagem utilizada no contexto de aprendizagem supervisionada, quando obter observações etiquetadas tem um elevado custo, como por exemplo, na indústria médica ou financeira onde é necessário um especialista para fazer esta anotação.

Photo by Michael Longmire on Unsplash

De forma a contornar esta limitação começasse por treinar um modelo com base num conjunto reduzido de exemplos etiquetados e posteriormente, são selecionadas observações adicionais para etiquetar, mas apenas as que contribuem mais para a qualidade do modelo.

Uma das estratégias de seleção tem por base a densidade e incerteza associada a cada observação. A densidade tem em consideração o número de observações que estão na vizinhança de uma dada observação e a incerteza consiste na confiança associada à previsão do modelo para essa obervação. As observações com maior densidade e incerteza serão as selecionadas para serem etiquetadas.

A intuição é que incluir as observações de maior incerteza no treino do modelo vai permitir clarificar a localização da fronteira de decisão. A esta métrica é adicionada uma medida de densidade de forma a evitar a seleção de outliers que, apesar de terem elevada incerteza, não incluem informação relevante para o modelo aprender.

As novas observações etiquetadas são adicionadas ao dataset inicial e um novo modelo é treinado. O processo é repetido até se satisfazer um dado critério, como por exemplo, um determinado nível de performance.

No capítulo 7 do livro “The Hundred Page Machine Learning Book”, Andriy Burkov faz um excelente resumo desta técnica.

AI/ML

Trending AI/ML Article Identified & Digested via Granola by Ramsey Elbasheer; a Machine-Driven RSS Bot

%d bloggers like this: