Aprendizagem ativa para inteligência artificial [Guia abrangente]

Publicados: 2020-12-01

Visão geral do aprendizado ativo para inteligência artificial

Neste artigo, abordaremos os fundamentos da aprendizagem ativa e sua relevância no mundo da Inteligência Artificial.

Índice

Introdução

No aprendizado de máquina, existem dois tipos de métodos de aprendizado – aprendizado supervisionado e não supervisionado. No aprendizado supervisionado, fornecemos ao modelo rótulos para cada amostra de treinamento. O modelo aprende os recursos das amostras de dados de treinamento e os mapeia para seus rótulos correspondentes.

A saída é uma probabilidade de uma amostra de teste pertencente a uma determinada classe. O aprendizado não supervisionado, no entanto, não requer rótulos e o modelo classifica a amostra de teste com base em algum padrão ou tendência que aprendeu durante o processo de treinamento.

Agora, no aprendizado supervisionado, há a necessidade de imagens (assumir como entrada) e suas anotações. O modelo pode aprender com as imagens otimizando o suficiente para ajustar as imagens e suas anotações.

Mas, praticamente para que o modelo tenha um desempenho extremamente bom em amostras de teste, é necessária uma infinidade de imagens e suas anotações. Para resolver este problema, a aprendizagem ativa foi empregada por muitos pesquisadores.

Motivação

Em muitos casos, normalmente haverá milhões de dados disponíveis, mas anotar todos eles seria inviável e demorado. Alguns exemplos incluem:

  1. Um vídeo gravado por um drone durante seu voo
  2. Uma imagem médica contendo milhões de células
  3. Uma gravação CCTV de um sinal de semáforo

Para lidar com dados tão pesados, é empregado o aprendizado ativo que nos informa de todos os dados disponíveis para anotação, anotando quais amostras fazem sentido.

Processo Básico

O engenheiro de ML/especialista da Oracle tem acesso a um grande conjunto de dados não rotulados. Digamos, a tarefa é construir um classificador de cães e gatos. Agora, de todo esse conjunto de dados, o engenheiro escolhe treinar o modelo em apenas 20% dos dados (rotula-os primeiro) e usa os 80% restantes para fins de teste.

Este é um método baseado em rodadas. A cada iteração, uma imagem de teste é fornecida ao modelo para classificação. Se o modelo tiver um desempenho ruim ou se a probabilidade atribuída pelo modelo for menor, digamos 0,6, o modelo precisará ser treinado nessa amostra para melhorar o desempenho geral. A imagem para a qual o modelo é incerto ou não confiável contém mais informações para o modelo aprender.

Essa amostra é então rotulada e selecionada como uma amostra de treinamento. Essa iteração é repetida até a última amostra de teste. Dessa forma, montamos um novo conjunto de treinamento que vale a pena anotar. O modelo é treinado nos dados de treinamento seletivo recém-coletados, reduzindo assim o tempo geral de treinamento. Isso é repetido até que o conjunto de anotações termine.

Como selecionar a imagem para anotação?

A abordagem acima mencionada é apenas uma maneira simples de escolher uma amostra para anotação. Na prática real, os dois métodos a seguir são usados, às vezes uma combinação dos dois.

  1. Amostragem baseada na incerteza : Imagens sobre as quais o modelo não tem certeza ou imagens que foram atribuídas com baixa probabilidade pelo modelo.
  2. Amostragem baseada na diversidade : Imagens que representam a diversidade, ou seja, variação na representação espacial, representação espectral, representação de classe e assim por diante. Mais diversidade, mais informação disponível para o modelo aprender.

Uma função que recebe uma amostra de dados (imagem) como entrada e retorna uma pontuação de prioridade/classificação é denominada função de aquisição.

Leia: Desafios na IA

Funções comuns de aquisição

1. Melhor versus Segundo Melhor (BvSB)

Este método é usado principalmente para algumas classes (3 a 5). A fórmula utilizada considera os valores de probabilidade da classe mais alta e da segunda mais alta. y1 e y2 indicam o maior e o segundo maior valor de probabilidade previsto pelo modelo p? para uma dada amostra x.

A ideia fundamental é minimizar a equação abaixo. Quanto menor a diferença, maior é a informação contida na amostra de dados x.

Para uma compreensão simples, suponha um exemplo em que as classes envolvidas na amostra de dados sejam cachorro, gato, cavalo e leão. Considere o primeiro cenário onde a entrada para o modelo é uma imagem de cachorro e a probabilidade de saída da classe do cachorro (mais provável) é 0,6 e da classe do gato (2ª mais provável) é 0,35.

O restante 0,5 é distribuído entre as outras duas classes. No segundo cenário, para a mesma entrada, as probabilidades de saída para as duas primeiras classes são 0,7 e 0,2. Agora, a partir dos dois cenários, podemos inferir que no segundo cenário, o modelo tem mais certeza sobre sua previsão (0,7–0,2=0,5).

No primeiro cenário, o modelo é mais incerto quanto à previsão (0,6–0,35=0,25). Minimizando assim a equação acima, podemos coletar uma amostra de dados que vale a pena anotar.

2. Entropia

BvSB é adequado para menos classes. No entanto, com um grande número de classes, a entropia é usada como função de aquisição. Por isso, a fórmula abaixo considera as informações das demais classes. A entropia é uma medida de impureza ou desequilíbrio. Em termos de aprendizado de máquina, ele pode ser definido como uma medida de incerteza de um modelo. Um alto valor de entropia é uma indicação de alta incerteza na associação de classe.

Equação de entropia, imagem do autor

Portanto, maximizar a equação acima nos renderá uma amostra de imagem para a qual o modelo é altamente incerto ou menos confiável na tarefa de classificação.

3. Consulta pelo comitê QBC

Assim como a floresta aleatória faz uso do aprendizado conjunto - fazendo uso de várias árvores de decisão. Da mesma forma, a incerteza sobre uma amostra de dados x é medida em um conjunto de modelos diferentes (com diferentes hiperparâmetros ou sementes).

Com isso, se para uma determinada imagem, a saída varia muito para diferentes modelos, significa que os modelos não se sentem confortáveis ​​em classificar essa imagem. Normalmente, a pontuação mais provável de cada modelo é empilhada em um vetor. A entropia deste vetor é calculada. Novamente, se a entropia for alta, a imagem é ainda rotulada e anotada.

Um passo à frente

Até agora, usamos amostras de dados para as quais o modelo não tem certeza suficiente. Mas e as amostras para as quais o modelo é extremamente seguro ou atribui uma pontuação de alta probabilidade? Agora, se pudermos usar tais amostras, o modelo melhorará seu aprendizado sobre os recursos que já aprendeu.

Dessa forma, melhora seu desempenho polindo seu aprendizado. Em suma, o engenheiro pode coletar amostras de dados com pontuação de probabilidade de 0,9 ou superior e atribuir um rótulo a elas. Isso pode ser anotado e alimentado como uma amostra de treinamento.

O motivo de tal método é melhorar o aprendizado existente do modelo sobre os recursos. Dessa forma, o modelo de ML e o engenheiro de ML cooperam entre si para criar efetivamente amostras de dados que devem ser anotadas. Tal técnica é chamada de aprendizagem cooperativa.

Leia também: Escopo futuro da IA

Conclusão

Verificou-se que, usando técnicas de aprendizado ativo, os profissionais economizam cerca de 80% do tempo gasto em anotação e rotulagem. A vantagem do aprendizado ativo não se limita apenas à diminuição do tempo de treinamento do modelo e à anotação de dados eficiente.

Também reduz o overfitting que ocorre devido à presença de um grande número de amostras de um único tipo tornando o modelo tendencioso.

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

Lidere a revolução tecnológica orientada por IA

DIPLOMA PG EM APRENDIZAGEM DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL
Saber mais