Proyek NLP Teratas di Github yang Harus Anda Lakukan [2022]

Diterbitkan: 2021-01-01

Kecerdasan Buatan memiliki banyak cabang, di mana pemrosesan bahasa alami (NLP) telah muncul sebagai alat zaman baru yang kuat. NLP kembali ke tahun 1950-an ketika Alan Turing merilis sebuah artikel - " Mesin Komputasi dan Kecerdasan " - yang mengusulkan tes (sekarang dikenal sebagai tes Turing ) yang melibatkan interpretasi otomatis dan generasi bahasa manusia alami. Meski begitu, NLP baru saja mendapatkan pengakuan dan popularitas global.

Daftar isi

Apa itu Pemrosesan Bahasa Alami?

Pemrosesan Bahasa Alami adalah tentang memfasilitasi komunikasi manusia-ke-mesin. Ini bertujuan untuk melatih komputer untuk memahami, menafsirkan, dan memanipulasi bahasa alami manusia. NLP menarik inspirasi dari berbagai disiplin ilmu seperti Kecerdasan Buatan, Ilmu Komputer, dan Linguistik Komputasi.

Manusia berkomunikasi dalam bahasa ibu mereka seperti Inggris, Jepang, Spanyol, dll, sedangkan komputer berbicara dalam bahasa ibu mereka, yaitu bahasa biner. Sementara komputer tidak dapat memahami bahasa alami manusia, bahasa mesin sebagian besar tidak dapat dipahami oleh kebanyakan orang.

Di sinilah NLP masuk untuk menjembatani kesenjangan antara komunikasi manusia dan pemahaman komputer. Pemrosesan bahasa alami memberdayakan dan melatih komputer untuk berkomunikasi dengan manusia dalam bahasa ibu mereka dengan membantu mereka membaca teks, mendengar ucapan, menafsirkan pesan audio/teks, mengukur sentimen, dan banyak lagi.

Dengan ledakan data yang dibawa oleh interaksi dan transaksi sehari-hari di dunia digital, pemrosesan bahasa alami menjadi lebih penting bagi bisnis. Berkat NLP, perusahaan dapat memanfaatkan volume besar data bisnis mentah, obrolan media sosial, dll., untuk memahami data dan mengambil keputusan yang berorientasi pada data.

Pada artikel ini, kami akan membuat daftar 12 proyek NLP di GitHub untuk menginspirasi Anda! Mengerjakan proyek ini akan membantu memperkaya pengetahuan domain Anda dan mempertajam keterampilan dunia nyata Anda.

Proyek NLP GitHub Teratas

1. Identifikasi Parafrase

Deteksi parafrase adalah aplikasi NLP yang mendeteksi apakah dua kalimat yang berbeda memiliki arti yang sama atau tidak. Ini banyak digunakan dalam terjemahan mesin, penjawab pertanyaan, ekstraksi/pengambilan informasi, peringkasan teks, dan pembuatan bahasa alami.

Ini adalah proyek ramah pemula di mana Anda akan membangun sistem identifikasi parafrase yang dapat secara akurat mengidentifikasi persamaan dan perbedaan antara dua entitas tekstual (misalnya, kalimat) dengan menerapkan analisis sintaksis dan semantik pada mereka.

2. Kesamaan Dokumen

Ini adalah proyek ramah pemula lainnya yang bertujuan untuk mengukur kesamaan antara dua dokumen dengan menggunakan metode kesamaan Cosinus. Dengan menemukan kesamaan antara kedua makalah, proyek ini akan menyoroti topik umum diskusi.

Kesamaan kosinus mengubah dua dokumen menjadi vektor untuk menghitung kesamaan antara vektor-vektor tersebut. Ini menghitung kesamaan dokumen dengan mengambil ruang produk dalam yang mengukur sudut kosinus di antara mereka.

3. Prediksi Teks

Dalam proyek ini, Anda akan membangun aplikasi yang dapat memprediksi kata berikutnya saat Anda mengetik kata. Alat yang digunakan untuk membuat proyek prediksi teks ini termasuk Pemrosesan Bahasa Alami, Penambangan Teks, dan rangkaian alat R.

Proyek ini menggunakan estimator Maximum Likelihood dengan Kneser Ney Smoothing sebagai model prediksi. Prediksi dirancang pada kumpulan kata yang disimpan dalam database yang digunakan untuk melatih model. Anda dapat menemukan set lengkap sumber daya untuk proyek ini di GitHub.

4. Ilmu Kejeniusan

Proyek ini merupakan bagian dari proyek Science of Success . Tujuannya di sini adalah untuk menentukan apakah faktor leksikal tertentu dapat menunjukkan perhatian yang diterima sebuah artikel, yang diukur dengan indeks kutipan yang dinormalisasi, menggunakan sejumlah ilmu data dan alat analisis NLP.

Pada fase awal, proyek ini berfokus pada mempelajari varian temporal dan disiplin dalam panjang dan fitur sintaksis dari judul artikel di Web of Science – kumpulan data yang berisi lebih dari 50 juta artikel yang diterbitkan sejak 1900. Gambaran yang lebih besar adalah membuat model kuantitatif yang dapat secara akurat memperkirakan dampak karya ilmiah terhadap masyarakat.

5. Ekstrak sentimen saham dari headline berita

Seperti judulnya, Anda akan menggunakan analisis sentimen pada berita utama keuangan dari Finviz untuk menghasilkan wawasan investasi dalam proyek ini. Teknik analisis sentimen akan membantu Anda memahami dan menafsirkan emosi di balik berita utama dan memprediksi apakah situasi pasar saat ini mendukung saham tertentu atau tidak.

6. Bot cerdas

Proyek ini melibatkan pembuatan bot pintar yang dapat mengurai dan mencocokkan hasil dari repositori tertentu untuk menjawab pertanyaan. Bot menggunakan WordNet untuk operasi ini. Ini menimbang konteks pertanyaan tentang tag dalam dokumen terstruktur (seperti header, judul tebal, dll.). Karena mempertahankan konteksnya, Anda dapat mengajukan pertanyaan terkait seputar topik yang sama.

Misalnya, jika Anda ingin menanyakan artikel Wikipedia, Anda dapat menggunakan templat "Ceritakan tentang XYZ" dan terus ajukan pertanyaan serupa setelah konteksnya ditetapkan. Sekali lagi, Anda dapat menanyakan halaman web dengan menyebutkan URL halaman sebagai sumber seperti “ https://www.microsoft.com/en-us/software-download/faq .” Ini bekerja sangat baik dengan halaman FAQ dan Q&A.

7. CitesCyVerse

Proyek CitesCyVerse dirancang di The Science Citation Knowledge Extractor . CitesCyVerse adalah alat sumber terbuka yang memanfaatkan Pembelajaran Mesin dan NLP untuk membantu peneliti biomedis memahami bagaimana orang lain menggunakan pekerjaan mereka dengan menganalisis konten dalam artikel yang mengutipnya. Dengan menggunakan ML dan NLP, CitesCyVerse mengekstrak tema dan konsep utama yang dibahas dalam dokumen kutipan. Hal ini memungkinkan peneliti untuk lebih memahami bagaimana pekerjaan mereka mempengaruhi orang lain dalam komunitas ilmiah.

CitesCyVerse termasuk WordClouds yang menghasilkan awan baru dari kata-kata serupa yang disebutkan dalam mengutip makalah. Juga, ia memiliki Topik yang memungkinkan Anda menjelajahi topik populer untuk artikel dan publikasi yang mengutip CyVerse.

8. Data Science Capstone – Skrip pemrosesan data

Dalam proyek batu penjuru Ilmu Data ini, Anda akan menggunakan skrip pemrosesan data untuk mendemonstrasikan rekayasa data alih-alih membuat model n-gram. Script ini dapat memproses seluruh corpus untuk menghasilkan n-gram dan hitungannya. Anda dapat menggunakan data ini untuk mengembangkan algoritme teks prediktif.

Untuk membangun proyek ini, Anda memerlukan sistem dual-core (karena sebagian besar skrip adalah single-threaded) dengan setidaknya 16GB RAM. Adapun persyaratan perangkat lunak, Anda memerlukan – Linux (paling baik jika diuji pada Ubuntu 14.04), Python (versi 2.7), NLTK (versi 3.0), dan NumPy.

Baca: Ide & Topik Proyek Pemrosesan Bahasa Alami

9. Pembuat skrip

Ini adalah proyek menarik di mana Anda akan membangun RNN untuk menghasilkan skrip TV untuk acara populer The Simpsons berdasarkan kumpulan data skrip dari semua 27 musim acara. RNN akan menghasilkan skrip baru untuk pengambilan gambar adegan tertentu di Moe's Tavern.

Proyek pembuat skrip adalah bagian dari Udacity's Deep Learning Nanodegree. Implementasi proyek terdapat di: dlnd_tv_script_generation.ipynb

10. Prediksi saham Reddit

Proyek ini berusaha untuk memahami bagaimana posting media sosial berdampak pada harga saham individu di masa depan. Di sini, kita akan mempelajari dampak postingan media sosial di Reddit, khususnya subreddit/forum yang berfokus pada investasi, menggunakan metode analisis teks.

Anda dapat menggunakan file repositori GitHub untuk membersihkan dan menerapkan analisis sentimen ke postingan/komentar Reddit dan menggunakan data ini untuk membuat model regresi. Repositori juga menyertakan kode yang dapat Anda gunakan untuk aplikasi web interaktif yang digunakan untuk memvisualisasikan sentimen waktu nyata untuk ticker saham tertentu dan membuat prediksi yang relevan.

11. Me_Bot

Ini adalah proyek NLP yang menyenangkan di mana Anda akan mengembangkan bot bernama Me_Bot yang akan memanfaatkan percakapan WhatsApp Anda, belajar darinya, dan berkomunikasi dengan Anda seperti yang Anda lakukan dengan orang lain. Intinya, idenya adalah membuat bot yang berbicara seperti Anda.

Anda perlu mengekspor obrolan WhatsApp dari ponsel Anda dan melatih bot pada data ini. Untuk melakukannya, Anda harus membuka WhatsApp di ponsel Anda, memilih percakapan apa pun, dan mengekspornya dari pengaturan aplikasi. Kemudian Anda dapat menggeser file “.txt” yang dihasilkan ke folder Me_Bot.

12. Penganalisis emosi ucapan

Proyek ini berkisar pada pembuatan model ML yang dapat mendeteksi emosi dari percakapan yang biasa kita lakukan dalam kehidupan sehari-hari. Model ML dapat mendeteksi hingga lima emosi yang berbeda dan menawarkan rekomendasi yang dipersonalisasi berdasarkan suasana hati Anda saat ini.

Mesin rekomendasi berbasis emosi ini memiliki nilai yang sangat besar bagi banyak industri karena mereka dapat menggunakannya untuk menjual kepada audiens yang sangat bertarget dan persona pembeli. Misalnya, platform streaming konten online dapat menggunakan alat ini untuk menawarkan saran konten yang disesuaikan kepada individu dengan membaca suasana hati dan preferensi mereka saat ini.

Baca Juga: Deep Learning vs NLP

Kesimpulan

Dengan itu, kami telah mencapai akhir daftar kami. 12 proyek NLP di GitHub ini sangat baik untuk mengasah keterampilan pengkodean dan pengembangan proyek Anda. Yang terpenting, pembangunan proyek akan membantu Anda menguasai nuansa Natural Language Processing, sehingga memperkuat pengetahuan domain Anda.

Jika Anda ingin meningkatkan keterampilan NLP Anda, Anda perlu mendapatkan proyek NLP ini. Jika Anda tertarik untuk mempelajari lebih lanjut tentang pembelajaran mesin, lihat PG Diploma IIIT-B & upGrad dalam Pembelajaran Mesin & AI yang dirancang untuk para profesional yang bekerja dan menawarkan 450+ jam pelatihan ketat, 30+ studi kasus & tugas, IIIT- B Status alumni, 5+ proyek batu penjuru praktis & bantuan pekerjaan dengan perusahaan-perusahaan top.

Apa tantangan utama pemrosesan bahasa alami?

Pemrosesan bahasa alami memiliki banyak tantangan. Masalah utama adalah kurangnya ketersediaan daya komputasi. Algoritme saat ini dibuat untuk berjalan dalam sistem off-line yang membutuhkan daya komputasi yang besar dan mungkin membutuhkan lebih banyak waktu untuk menyelesaikan pemrosesan. Masalah lainnya adalah sumber daya yang tersedia. Membuat algoritme yang dapat bekerja dengan sejumlah kecil data tidak mudah dan lebih memakan waktu. Tantangan lainnya adalah ketersediaan data dalam jumlah besar yang perlu kami proses.

Model NLP mana yang memberikan akurasi terbaik?

Akurasi terbaik untuk model NLP dicapai dengan melewatkan teks melalui serangkaian filter yang semakin canggih. Lapisan pertama adalah menghapus stopword, tanda baca, dan angka. Setelah itu, seluruh teks harus di-stem dengan menggunakan Porter stemmer, kemudian semua kata harus diganti dengan bentuk lemmatized-nya. Kemudian, langkah terakhir adalah menghapus kata-kata yang tidak ada dalam kosakata 200.000 kata.

Apa itu tokenisasi di NLP?

Tokenisasi adalah proses memecah kalimat menjadi bagian-bagian penyusunnya, yang disebut token. Setelah menerapkan proses, kita dapat dengan mudah mengekstrak makna atau maksud dari sebuah kalimat. Tokenisasi dilakukan setelah melakukan pemecahan kalimat. Dalam NLP, token digunakan untuk pemrosesan lebih lanjut, klasifikasi, dan representasi kalimat. Beberapa tugas NLP yang melibatkan tokenisasi adalah deteksi bahasa, penandaan POS, dan penguraian.