Principais projetos de PNL no Github que você deve colocar em prática [2022]

Publicados: 2021-01-01

A Inteligência Artificial tem vários ramos, dos quais o processamento de linguagem natural (PNL) surgiu como uma poderosa ferramenta da nova era. A PNL remonta à década de 1950 quando Alan Turing lançou um artigo – “ Computing Machinery and Intelligence ” – que propunha um teste (agora conhecido como teste de Turing ) envolvendo interpretação automatizada e geração de linguagens humanas naturais. Mesmo assim, a PNL só recentemente ganhou reconhecimento e popularidade global.

Índice

O que é Processamento de Linguagem Natural?
Principais projetos de PNL do GitHub
- 1. Identificação da paráfrase
- 2. Semelhança de Documentos
- 3. Previsão de Texto
- 4. A Ciência do Gênio
- 5. Extraia o sentimento das ações das manchetes das notícias
- 6. Bot inteligente
- 7. CitesCyVerse
- 8. Data Science Capstone – Scripts de processamento de dados
- 9. Gerador de scripts
- 10. Previsão de ações do Reddit
- 11. Eu_Bot
- 12. Analisador de emoções de fala
Conclusão
Quais são os principais desafios do processamento de linguagem natural?
Qual modelo de PNL oferece a melhor precisão?
O que é tokenização em PNL?

O que é Processamento de Linguagem Natural?

O Processamento de Linguagem Natural tem tudo a ver com facilitar as comunicações homem-máquina. O objetivo é treinar computadores para entender, interpretar e manipular linguagens humanas naturais. A PNL se inspira em várias disciplinas, como Inteligência Artificial, Ciência da Computação e Linguística Computacional.

Os humanos se comunicam em seus idiomas nativos, como inglês, japonês, espanhol, etc., enquanto os computadores falam em seu idioma nativo, que é o idioma binário. Enquanto os computadores não podem entender nossas linguagens humanas naturais, a linguagem de máquina é incompreensível para a maioria das pessoas.

É aqui que a PNL entra para preencher a lacuna entre a comunicação humana e a compreensão do computador. O processamento de linguagem natural capacita e treina computadores para se comunicarem com humanos em seu idioma nativo, ajudando-os a ler textos, ouvir fala, interpretar mensagens de áudio/texto, medir sentimentos e muito mais.

Com a explosão de dados provocada pelas interações e transações cotidianas no mundo digital, o processamento de linguagem natural tornou-se mais crucial para as empresas. Graças à PNL, as empresas podem aproveitar grandes volumes de dados brutos de negócios, conversas de mídia social, etc., para entender os dados e tomar decisões orientadas a dados.

Neste artigo, listaremos 12 projetos de PNL no GitHub para inspirar você! Trabalhar nesses projetos ajudará a enriquecer seu conhecimento de domínio e aprimorar suas habilidades no mundo real.

Principais projetos de PNL do GitHub

1. Identificação da paráfrase

A detecção de paráfrase é um aplicativo de PNL que detecta se duas frases diferentes têm ou não o mesmo significado. É amplamente utilizado em tradução automática, resposta a perguntas, extração/recuperação de informações, resumo de texto e geração de linguagem natural.

Este é um projeto amigável para iniciantes em que você construirá um sistema de identificação de paráfrases que pode identificar com precisão as semelhanças e diferenças entre duas entidades textuais (por exemplo, frases) aplicando análises sintáticas e semânticas sobre elas.

2. Semelhança de Documentos

Este é outro projeto amigável para iniciantes que visa quantificar as semelhanças entre dois documentos usando o método de similaridade Cosine. Ao encontrar as semelhanças entre os dois artigos, este projeto irá destacar os tópicos comuns de discussão.

A similaridade de cosseno converte dois documentos em vetores para calcular a similaridade entre esses vetores. Ele calcula as semelhanças do documento tomando o espaço do produto interno que mede o ângulo cosseno entre eles.

3. Previsão de Texto

Neste projeto, você construirá um aplicativo que pode prever a próxima palavra à medida que você digita palavras. As ferramentas usadas para criar este projeto de previsão de texto incluem Processamento de Linguagem Natural, Mineração de Texto e o conjunto de ferramentas do R.

O projeto usa um estimador de máxima verossimilhança com Kneser Ney Smoothing como modelo de previsão. A previsão é projetada na coleção de palavras armazenadas no banco de dados usado para treinar o modelo. Você pode encontrar o conjunto completo de recursos para este projeto no GitHub.

4. A Ciência do Gênio

Este projeto faz parte do projeto Ciência do Sucesso . O objetivo aqui é determinar se fatores lexicais específicos podem indicar a atenção que um artigo recebeu, conforme medido por índices de citação normalizados, usando uma série de ferramentas analíticas de ciência de dados e PNL.

Nas fases iniciais, este projeto se concentra no estudo da variação temporal e disciplinar na extensão e nas características sintáticas dos títulos dos artigos na Web of Science – um conjunto de dados contendo mais de 50 milhões de artigos publicados desde 1900. O quadro geral é criar um modelo quantitativo que podem estimar com precisão o impacto de um artigo científico na comunidade.

5. Extraia o sentimento das ações das manchetes das notícias

Como o título sugere, você usará a análise de sentimentos em manchetes de notícias financeiras da Finviz para produzir insights de investimento neste projeto. A técnica de análise de sentimento ajudará você a entender e interpretar a emoção por trás das manchetes e prever se a situação atual do mercado é favorável a uma determinada ação ou não.

6. Bot inteligente

Este projeto envolve a construção de um bot inteligente que pode analisar e combinar resultados de um repositório específico para responder a perguntas. O bot usa WordNet para esta operação. Ele pesa o contexto de uma pergunta sobre as tags em documentos estruturados (como cabeçalhos, títulos em negrito, etc.). Como ele mantém o contexto, você pode fazer perguntas relacionadas ao mesmo tópico.

Por exemplo, se você deseja consultar um artigo da Wikipedia, pode usar o modelo “Fale-me sobre XYZ” e continuar a fazer perguntas semelhantes assim que o contexto for estabelecido. Novamente, você pode consultar uma página da Web mencionando o URL da página como a fonte, como “ https://www.microsoft.com/en-us/software-download/faq .” Isso funciona excepcionalmente bem com páginas de perguntas e respostas e perguntas e respostas.

7. CitesCyVerse

O projeto CitesCyVerse foi desenvolvido no The Science Citation Knowledge Extractor . O CitesCyVerse é uma ferramenta de código aberto que aproveita o Machine Learning e a PNL para ajudar os pesquisadores biomédicos a entender como os outros usam seu trabalho, analisando o conteúdo dos artigos que os citam. Usando ML e NLP, o CitesCyVerse extrai os temas e conceitos proeminentes discutidos nos documentos de citação. Isso permite que os pesquisadores entendam melhor como seu trabalho influencia outros na comunidade científica.

CitesCyVerse inclui WordClouds que gera novas nuvens a partir de palavras semelhantes mencionadas em artigos de citação. Além disso, possui Tópicos que permitem explorar tópicos populares para artigos e publicações que citam o CyVerse.

8. Data Science Capstone – Scripts de processamento de dados

Neste projeto de conclusão de ciência de dados, você usará scripts de processamento de dados para demonstrar a engenharia de dados em vez de criar um modelo n-gram. Esses scripts podem processar todo o corpus para produzir os n-gramas e suas contagens. Você pode usar esses dados para desenvolver algoritmos de texto preditivo.

Para construir este projeto, você precisará de um sistema dual-core (já que a maioria dos scripts são de thread único) com pelo menos 16 GB de RAM. Quanto aos requisitos de software, você precisa – Linux (melhor se testado no Ubuntu 14.04), Python (versão 2.7), NLTK (versão 3.0) e NumPy.

Leia: Ideias e tópicos de projetos de processamento de linguagem natural

9. Gerador de scripts

Este é um projeto empolgante no qual você criará RNNs para gerar scripts de TV para o popular programa Os Simpsons com base em um conjunto de dados de script de todas as 27 temporadas do programa. As RNNs irão gerar um novo roteiro para uma cena específica filmada na Taverna do Moe.

O projeto do gerador de scripts faz parte do Deep Learning Nanodegree da Udacity. A implementação do projeto está contida em: dlnd_tv_script_generation.ipynb

10. Previsão de ações do Reddit

Este projeto busca entender como as postagens nas redes sociais impactam os preços futuros de ações individuais. Aqui, estudaremos o impacto das postagens de mídia social no Reddit, particularmente subreddits/fóruns focados em investimentos, usando métodos de análise de texto.

Você pode usar os arquivos do repositório do GitHub para limpar e aplicar a análise de sentimentos a postagens/comentários do Reddit e usar esses dados para criar modelos de regressão. O repositório também inclui o código que você pode usar para o aplicativo da Web interativo utilizado para visualizar o sentimento em tempo real para cotações de ações específicas e fazer previsões relevantes.

11. Eu_Bot

Este é um projeto divertido de PNL onde você desenvolverá um bot chamado Me_Bot que aproveitará suas conversas do WhatsApp, aprenderá com elas e conversará com você da mesma forma que faria com outra pessoa. Essencialmente, a ideia é criar um bot que fale como você.

Você precisa exportar seus bate-papos do WhatsApp do seu telefone e treinar o bot com esses dados. Para isso, você deve acessar o WhatsApp do seu telefone, escolher qualquer conversa e exportá-la das configurações do app. Então você pode deslocar o arquivo “.txt” gerado para a pasta Me_Bot.

12. Analisador de emoções de fala

Este projeto gira em torno da criação de um modelo de ML que possa detectar emoções das conversas que temos comumente em nosso dia a dia. O modelo de ML pode detectar até cinco emoções diferentes e oferecer recomendações personalizadas com base no seu humor atual.

Esse mecanismo de recomendação baseado em emoções é de imenso valor para muitos setores, pois eles podem usá-lo para vender para um público altamente segmentado e personas de compradores. Por exemplo, plataformas de streaming de conteúdo online podem usar essa ferramenta para oferecer sugestões de conteúdo personalizadas para indivíduos lendo seu humor e preferências atuais.

Leia também: Deep Learning vs PNL

Conclusão

Com isso, chegamos ao fim da nossa lista. Esses 12 projetos de PNL no GitHub são excelentes para aprimorar suas habilidades de codificação e desenvolvimento de projetos. Mais importante ainda, a construção do projeto o ajudará a dominar as nuances do Processamento de Linguagem Natural, fortalecendo assim seu conhecimento de domínio.

Se você deseja melhorar suas habilidades em PNL, você precisa colocar as mãos nesses projetos de PNL. Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

Quais são os principais desafios do processamento de linguagem natural?

O processamento de linguagem natural tem muitos desafios. O grande problema é a falta de disponibilidade de poder computacional. Os algoritmos atuais são criados para rodar em sistemas off-line que necessitam de grande poder computacional e podem levar mais tempo para completar o processamento. O outro problema são os recursos disponíveis. Criar um algoritmo que possa trabalhar com uma pequena quantidade de dados não é fácil e consome mais tempo. Outro desafio é a disponibilidade de grandes quantidades de dados que precisamos processar.

Qual modelo de PNL oferece a melhor precisão?

A melhor precisão para os modelos de PNL é alcançada passando o texto por uma série de filtros cada vez mais sofisticados. A primeira camada é remover palavras de parada, pontuação e números. Depois disso, todo o texto deve ser lematizado usando um lematizador de Porter, então todas as palavras devem ser substituídas por suas formas lematizadas. Então, o passo final é remover quaisquer palavras que não existam em um vocabulário de 200.000 palavras.

O que é tokenização em PNL?

Tokenização é um processo de quebrar uma frase em suas partes constituintes, chamadas tokens. Depois de aplicar o processo, podemos extrair facilmente o significado ou a intenção de uma frase. A tokenização é feita após a divisão de sentenças. Na PNL, os tokens são usados para processamento posterior, classificação e representação da sentença. Algumas das tarefas de NLP que envolvem tokenização são detecção de idioma, marcação de POS e análise.