Google Cloud Natural Language API ile NLP

Yayınlanan: 2022-03-11

Makine öğrenmesi ve dilbilimin birleşimi olan doğal dil işleme (NLP), yapay zeka alanında en çok araştırılan konulardan biri haline geldi. Son birkaç yılda, birçok yeni kilometre taşına ulaşıldı, en yenisi OpenAI'nin kısa bir girdiden herhangi bir konu hakkında gerçekçi ve tutarlı makaleler üretebilen GPT-2 modeli.

Bu ilgi, son yıllarda piyasaya sürülen birçok ticari uygulamadan kaynaklanmaktadır. Ses verilerini kopyalamak ve sorularımızı ve komutlarımızı anlamak için NLP kullanan ev asistanlarımızla konuşuyoruz. Giderek daha fazla şirket, müşteri iletişim çabalarının büyük bir bölümünü otomatik sohbet robotlarına kaydırıyor. Çevrimiçi pazar yerleri bunu sahte incelemeleri belirlemek için kullanır, medya şirketleri haber makaleleri yazmak için NLP'ye güvenir, işe alım şirketleri özgeçmişleri pozisyonlarla eşleştirir, sosyal medya devleri nefret içeren içeriği otomatik olarak filtreler ve hukuk firmaları sözleşmeleri analiz etmek için NLP'yi kullanır.

Bu gibi görevler için makine öğrenimi modellerini eğitmek ve dağıtmak, geçmişte bir uzman ekibi ve pahalı bir altyapı gerektiren karmaşık bir süreçti. Ancak bu tür uygulamalara yönelik yüksek talep, büyük sağlayıcıları iş yükünü ve altyapı maliyetlerini büyük ölçüde azaltan NLP ile ilgili hizmetler geliştirmeye yöneltmiştir. Bulut hizmetlerinin ortalama maliyeti yıllardır düşüyor ve bu eğilimin devam etmesi bekleniyor.

Bu yazıda tanıtacağım ürünler Google Bulut Hizmetlerinin bir parçasıdır ve “Google Natural Language API” ve “Google AutoML Natural Language” olarak adlandırılmaktadır.

Google Doğal Dil API'sı

Google Natural Language API, çeşitli görevleri gerçekleştirmek için Google tarafından önceden eğitilmiş bir dizi güçlü NLP modeline yönelik kullanımı kolay bir arayüzdür. Bu modeller çok büyük belge toplulukları üzerinde eğitildiğinden, performansları genellikle çok özel bir dil kullanmayan veri kümelerinde kullanıldıkları sürece oldukça iyidir.

Bu önceden eğitilmiş modelleri API aracılığıyla kullanmanın en büyük avantajı, eğitim veri kümesine gerek olmamasıdır. API, kullanıcının hemen tahminler yapmaya başlamasına olanak tanır; bu, çok az etiketli verinin mevcut olduğu durumlarda çok değerli olabilir.

Natural Language API, beş farklı hizmetten oluşur:

Sözdizimi Analizi
Duygu Analizi
Varlık Analizi
Varlık Duyarlılık Analizi
Metin Sınıflandırma

Sözdizimi Analizi

Belirli bir metin için, Google'ın sözdizimi analizi, her bir simge için zengin bir dilbilimsel bilgi seti ile tüm kelimelerin bir dökümünü verecektir. Bilgi iki kısma ayrılabilir:

Konuşma bölümü: Bu bölüm, her bir simgenin morfolojisi hakkında bilgi içerir. Her kelime için, türünü (isim, fiil vb.), cinsiyetini, gramer durumunu, zamanını, gramer havasını, gramer sesini ve çok daha fazlasını içeren ayrıntılı bir analiz döndürülür.

Örneğin, "Bir bilgisayar bir zamanlar beni satrançta yendi, ancak kickboksta benim için eşleşmedi" giriş cümlesi için. (Emo Philips) konuşmanın bir kısmı analizi:

A	etiket: DET
'bilgisayar'	etiket: İSİM numarası: TEKLİ
'bir Zamanlar'	etiket: ADV
'vurmak'	etiket: Fiil ruh hali: GÖSTERGEÇİ zaman: GEÇMİŞ
'Bende'	etiket: PRON vakası: AKUSATİF numara: TEK kişi: BİRİNCİ
de	etiket: ADP
'Satranç'	etiket: İSİM numarası: TEKLİ
','	etiket: NOKTA
'fakat'	etiket: CONJ
'o'	etiket: PRON vakası: NOMİNATİF cinsiyet: NEUTER numarası: TEK kişi: ÜÇÜNCÜ
'oldu'	etiket: Fiil ruh hali: GÖSTERGE numarası: TEKLİ kişi: ÜÇÜNCÜ zaman: GEÇMİŞ
'HAYIR'	etiket: DET
'kibrit'	etiket: İSİM numarası: TEKLİ
'için'	etiket: ADP
'tekme atmak'	etiket: İSİM numarası: TEKLİ
'boks'	etiket: İSİM numarası: TEKLİ
'.'	etiket: NOKTA

Bağımlılık ağaçları: Geri dönüşün ikinci kısmına, her bir cümlenin sözdizimsel yapısını tanımlayan bir bağımlılık ağacı denir. Ünlü bir Kennedy alıntısının aşağıdaki diyagramı böyle bir bağımlılık ağacını göstermektedir. Her kelime için oklar, hangi kelimelerin değiştirildiğini gösterir.

Yaygın olarak kullanılan Python kitaplıkları nltk ve spaCy benzer işlevler içerir. Analizin kalitesi, her üç seçenekte de sürekli olarak yüksektir, ancak Google Natural Language API'nin kullanımı daha kolaydır. Yukarıdaki analiz, çok az kod satırı ile elde edilebilir (aşağıdaki örneğe bakın). Bununla birlikte, spaCy ve nltk açık kaynaklı ve dolayısıyla ücretsiz olsa da, Google Natural Language API'nin kullanımı belirli sayıda ücretsiz istekten sonra ücretlidir (maliyet bölümüne bakın).

İngilizce dışında, sözdizimsel analiz on ek dili destekler: Çince (Basitleştirilmiş), Çince (Geleneksel), Fransızca, Almanca, İtalyanca, Japonca, Korece, Portekizce, Rusça ve İspanyolca .

Duygu Analizi

Sözdizimi analizi hizmeti, daha sonra makine öğrenimi modellerine beslenen özellikler oluşturmak için çoğunlukla işlem hattının başlarında kullanılır. Aksine, duygu analizi hizmeti kutudan çıktığı anda kullanılabilir.

Google'ın duygu analizi, sağlanan bir metin içinde geçerli olan duygusal görüşü sağlayacaktır. API iki değer döndürür: "Puan", 0 nötr olmak üzere, metnin -1 (negatif) ile +1 (pozitif) arasındaki duygusal eğilimini tanımlar.

“Büyüklük”, duygunun gücünü ölçer.

Bazı örneklere bakalım:

Girilen Cümle	Duygu Sonuçları	Tercüme
Londra'ya giden tren saat dörtte kalkıyor	Puan: 0.0 Büyüklük: 0.0	Hiçbir duygu içermeyen tamamen tarafsız bir ifade.
Bu blog yazısı iyi.	Puan: 0.7 Büyüklük: 0.7	Olumlu bir duygu, ancak çok güçlü bir şekilde ifade edilmedi.
Bu blog yazısı iyi. Çok yardımcı oldu. Yazar inanılmaz.	Puan: 0.7 Büyüklük: 2.3	Aynı duygu, ancak çok daha güçlü ifade edildi.
Bu blog yazısı çok iyi. Bu yazar genellikle korkunç bir yazardır, ama burada şansı yaver gitti.	Puan: 0.0 Büyüklük: 1.6	Büyüklük bize bu metinde ifade edilen duyguların olduğunu gösteriyor, ancak duygu, bunların karışık olduğunu ve açıkça olumlu ya da olumsuz olmadığını gösteriyor.

Google'ın duygu analizi modeli, çok büyük bir veri kümesi üzerinde eğitilmiştir. Ne yazık ki, detaylı yapısı hakkında hiçbir bilgi mevcut değildir. Gerçek dünyadaki performansını merak ettiğim için 2011'de Stanford Üniversitesi'nden bilim adamları tarafından oluşturulan Büyük Film İnceleme Veri Kümesi'nin bir bölümünde test ettim.

Test setinden rastgele 500 olumlu ve 500 olumsuz film incelemesi seçtim ve tahmin edilen duyarlılığı gerçek inceleme etiketiyle karşılaştırdım. Karışıklık matrisi şöyle görünüyordu:

	Olumlu Duygu	olumsuz duygu
İyi İnceleme	470	30
Kötü İnceleme	29	471

Tablonun gösterdiği gibi, model iyi ve kötü film incelemeleri için zamanın yaklaşık %94'ünde haklıdır. Bu, verilen soruna herhangi bir ince ayar yapılmadan kullanıma hazır bir çözüm için kötü bir performans değildir.

Not: Duyarlılık analizi, Rusça dışında sözdizimi analiziyle aynı diller için kullanılabilir.

Varlık Analizi

Varlık Analizi, belirli bir metinden tanınmış kişiler veya yer işaretleri gibi bilinen varlıkları tespit etme sürecidir. Varlık algılama, her türlü sınıflandırma ve konu modelleme görevi için çok yararlıdır.

Google Natural Language API, algılanan her varlık hakkında bazı temel bilgiler sağlar ve hatta varsa ilgili Wikipedia makalesine bir bağlantı sağlar. Ayrıca, bir belirginlik puanı hesaplanır. Bir varlık için bu puan, o varlığın tüm belge metni için önemi veya merkeziliği hakkında bilgi sağlar. 0'a yakın puanlar daha az belirginken, 1.0'a yakın puanlar oldukça belirgindir.

API'ye şu örnek cümleyle bir istek gönderdiğimizde: "Robert DeNiro, Aralık 2011'de Noel arifesinde Hollywood'da Martin Scorsese ile konuştu." Aşağıdaki sonucu alıyoruz:

Algılanan Varlık	Ek Bilgiler
Robert De Niro	tür : KİŞİ belirginliği : 0.5869118 wikipedia_url : https://en.wikipedia.org/wiki/Robert_De_Niro
Hollywood	tür : KONUM belirginliği : 0.17918482 wikipedia_url : https://en.wikipedia.org/wiki/Hollywood
Martin Scorsese	tür : KONUM belirginliği : 0.17712952 wikipedia_url : https://en.wikipedia.org/wiki/Martin_Scorsese
Noel arifesi	tür : KİŞİSEL belirginlik : 0.056773853 wikipedia_url : https://en.wikipedia.org/wiki/Christmas
Aralık 2011	tür : TARİH Yıl: 2011 Ay: 12 belirginlik : 0.0 wikipedia_url : -
2011	tür : SAYI belirginlik : 0.0 wikipedia_url : -

Gördüğünüz gibi, 2011'in iki kez görünmesi dışında, tüm varlıklar doğru bir şekilde tanımlandı ve sınıflandırıldı. Örnek çıktıdaki alana ek olarak, varlık analizi API'si ayrıca kuruluşları, sanat eserlerini, tüketim mallarını, telefon numaralarını, adresleri ve fiyatları da algılayacaktır.

Varlık Duyarlılık Analizi

Varlık tespiti ve duygu analizi için modeller varsa, bir adım daha ileri gitmek ve bunları bir metindeki farklı varlıklara yönelik hakim duyguları tespit etmek için birleştirmek doğaldır.

Duyarlılık Analizi API'si belgedeki tüm duygu görüntülerini bulup bunları toplarken, Varlık Duyarlılık Analizi belgenin farklı bölümleri ile tanımlanan varlıklar arasındaki bağımlılıkları bulmaya çalışır ve ardından bu metin bölümlerindeki duyguları ilgili varlıklara atfeder.

Örneğin, inatçı metin: “Yazar korkunç bir yazar. Öte yandan okuyucu çok zekidir.” sonuçlara yol açar:

varlık	Duygusallık
yazar	Belirginlik: 0.8773350715637207 Duyarlılık: büyüklük: 1.899999976158142 puan: -0.8999999761581421
okuyucu	Belirginlik: 0.08653714507818222 Duygu: büyüklük: 0.8999999761581421 puan: 0.8999999761581421

Varlık duyarlılığı analizi şu ana kadar yalnızca İngilizce, Japonca ve İspanyolca için çalışır.

Metin Sınıflandırma

Son olarak, Google Natural dil API'si tak ve çalıştır metin sınıflandırma modeliyle birlikte gelir.

Model, girdi belgelerini geniş bir kategoriler kümesine sınıflandırmak için eğitilmiştir. Kategoriler hiyerarşik olarak yapılandırılmıştır, örneğin “Hobiler ve Boş Zaman” Kategorisinin birkaç alt kategorisi vardır, bunlardan biri “Hobiler ve Boş Zaman/Dış Mekanlar” ve kendisinin de “Hobiler ve Boş Zaman/Açık Hava/Balık Tutma” gibi alt kategorileri vardır.

Bu, bir Nikon kamera reklamından örnek bir metindir:

“D3500'ün büyük 24,2 MP DX biçimli sensörü, düşük ışıkta çekim yaptığınızda bile zengin ayrıntılara sahip fotoğraflar ve Full HD filmler çeker. NIKKOR lensinizin işleme gücüyle birleştiğinde, pürüzsüz arka plan bulanıklığına sahip sanatsal portreler oluşturmaya başlayabilirsiniz. Kolaylıkla."

Google API, sonucu döndürür:

Kategori	Kendinden emin
Sanat ve Eğlence/Görsel Sanatlar ve Tasarım/Fotoğraf ve Dijital Sanatlar	0.95
Hobiler ve Boş Zaman	0.94
Bilgisayarlar ve Elektronik Ürünler/Tüketici Elektroniği/Kamera ve Fotoğraf Gereçleri	0.85

Bu kategorilerin üçü de, sezgisel olarak üçüncü girişi ikinciden daha yüksek sıraya koyacak olsak da anlamlıdır. Ancak, bu girdi segmentinin tam kamera reklam belgesinin yalnızca kısa bir parçası olduğu ve sınıflandırma modelinin performansının metin uzunluğuyla birlikte arttığı göz önünde bulundurulmalıdır.

Birçok belgeyle denedikten sonra, çoğu durumda sınıflandırma modelinin sonuçlarını anlamlı buldum. Yine de, Google Natural Language API'deki diğer tüm modeller gibi, sınıflandırıcı, API kullanıcısı tarafından değiştirilemeyen ve hatta ince ayar yapılamayan bir kara kutu çözümü olarak gelir. Özellikle metin sınıflandırması söz konusu olduğunda, şirketlerin büyük çoğunluğunun Google modelinin kategorilerinden farklı kendi metin kategorileri olacaktır ve bu nedenle Natural Language API metin sınıflandırma hizmeti, kullanıcıların çoğunluğu için geçerli olmayabilir.

Sınıflandırma modelinin bir diğer sınırlaması, yalnızca İngilizce metinler için çalışmasıdır.

Natural Language API Nasıl Kullanılır?

Google Natural Language API'nin en büyük avantajı kullanım kolaylığıdır. Hiçbir makine öğrenimi becerisi gerekmez ve neredeyse hiç kodlama becerisi yoktur. Google Cloud web sitesinde, birçok dil için API'yi çağırmak için kod parçacıkları bulabilirsiniz.

Örneğin, duygu analizi API'sini çağırmak için Python kodu şu kadar kısadır:

 from google.cloud import language_v1 from google.cloud.language_v1 import enums import six def sample_analyze_sentiment(content): client = language_v1.LanguageServiceClient() if isinstance(content, six.binary_type): content = content.decode('utf-8') type_ = enums.Document.Type.PLAIN_TEXT document = {'type': type_, 'content': content} response = client.analyze_sentiment(document) sentiment = response.document_sentiment print('Score: {}'.format(sentiment.score)) print('Magnitude: {}'.format(sentiment.magnitude))

Diğer API işlevleri, sadece client.analyze_sentiment uygun işleve değiştirilerek benzer şekilde çağrılır.

Google Natural Language API'nin Genel Maliyeti

Google, Natural Language API'nin tüm hizmetleri için kullanıcılarından istek başına ücret alır. Bunun avantajı, herhangi bir dağıtım sunucusu için sabit maliyet olmamasıdır. Dezavantajı, çok büyük veri kümeleri için pahalı hale gelebilmesidir.

Bu tablo, aylık istek sayısına bağlı olarak fiyatları (1.000 istek başına) gösterir:

Google Natural Language API'nin maliyetini gösteren tablo

Bir belgede 1.000'den fazla karakter varsa, birden çok istek olarak sayılır. Örneğin, her biri 1.500 karakterden oluşan 10.000 belgenin duyarlılığını analiz etmek isterseniz, sizden 20.000 istek ücreti alınır. İlk 5.000 ücretsiz olduğundan, toplam maliyet 15 ABD Doları tutarında olacaktır. Aynı boyutta bir milyon belgeyi analiz etmenin maliyeti 1.995 ABD dolarıdır.

Kullanışlı, ancak Esnek Değil

Google Natural Language API, hızlı, kullanıma hazır çözümler için çok uygun bir seçenektir. Çok az teknik bilgi ve altta yatan makine öğrenimi modellerinin anlaşılması gerekmez.

Ana dezavantaj, esnek olmaması ve modellere erişim eksikliğidir. Modeller belirli bir göreve veya veri kümesine ayarlanamaz.

Gerçek dünya ortamında, çoğu görev muhtemelen standartlaştırılmış Natural Language API işlevlerinin sağlayabileceğinden daha özel bir çözüm gerektirecektir.

Bu senaryo için Google AutoML Natural Language daha uygundur.

Google AutoML Doğal Dili

Natural Language API, iş amaçlarınız için yeterince esnek değilse, AutoML Natural Language doğru hizmet olabilir. AutoML, kullanıcının özelleştirilmiş makine öğrenimi modelleri oluşturmasını sağlayan yeni bir Google Bulut Hizmetidir (hala beta sürümündedir). Natural Language API'nin aksine, AutoML modelleri kullanıcının verileri üzerinde eğitilecek ve bu nedenle belirli bir göreve uyacaktır.

İçeriği sınıflandırmak için özel makine öğrenimi modelleri, Natural Language API'den sağlanan önceden tanımlanmış kategoriler çok genel olduğunda veya özel kullanım durumunuz veya bilgi alanınız için geçerli olmadığında kullanışlıdır.

AutoML hizmeti, temel olarak modeli eğitmek için bir veri kümesi sağlamanız gerektiğinden, kullanıcı için biraz daha fazla çaba gerektirir. Ancak, modellerin tamamen otomatik olarak eğitilmesi ve değerlendirilmesi ve herhangi bir makine öğrenmesi bilgisi gerekli değildir. Tüm süreç, Google Cloud konsolu kullanılarak herhangi bir kod yazmadan yapılabilir. Tabii ki, bu adımları otomatikleştirmek istiyorsanız, tüm yaygın programlama dilleri için destek var.

Google AutoML Natural Language İle Neler Yapılabilir?

AutoML hizmeti üç kullanım durumunu kapsar. Tüm bu kullanım örnekleri şimdilik yalnızca İngilizceyi desteklemektedir.

1. AutoML Metin Sınıflandırması

Natural Language API'nin metin sınıflandırıcısı önceden eğitilmiş ve bu nedenle sabit bir metin kategorisi kümesine sahip olsa da, AutoML metin sınıflandırması, eğitim veri kümenizde sağladığınız kategorilerle özelleştirilmiş makine öğrenimi modelleri oluşturur.

2. AutoML Duygu Analizi

Gördüğümüz gibi, Natural Language API'nin duygu analizi, film incelemeleri gibi genel kullanım durumlarında harika çalışıyor. Duyarlılık modeli çok genel bir yapı üzerinde eğitildiğinden, etki alanına özgü çok fazla dil kullanan belgeler için performans düşebilir. Bu durumlarda, AutoML Duyarlılık Analizi, etki alanınıza göre özelleştirilmiş bir yaklaşım modeli eğitmenize olanak tanır.

3. AutoML Varlık Çıkarma

Birçok iş bağlamında, Natural Language API'nin tanımlayamayacağı alana özgü varlıklar (yasal sözleşmeler, tıbbi belgeler) vardır. Varlıkların işaretlendiği bir veri kümeniz varsa, AutoML ile özelleştirilmiş bir model varlık çıkarıcı eğitebilirsiniz. Veri kümesi yeterince büyükse, eğitilmiş varlık çıkarma modeli daha önce görülmeyen varlıkları da algılayabilecektir.

AutoML Natural Language Nasıl Kullanılır

Üç AutoML'yi kullanmak dört adımlı bir süreçtir ve üç metodolojinin tümü için çok benzer:

Veri Seti Hazırlama
Veri kümesinin belirli bir biçimde (CSV veya JSON) olması ve bir depolama paketinde saklanması gerekir. Sınıflandırma ve duyarlılık modelleri için veri kümeleri, metin ve etiket olmak üzere yalnızca iki sütun içerir. Varlık çıkarma modeli için, veri kümesinin metne ve metindeki tüm varlıkların konumlarına ihtiyacı vardır.
Model Eğitimi
Model eğitimi tamamen otomatiktir. Aksi takdirde talimat verilmezse, AutoML eğitim setini otomatik olarak tren, test ve doğrulama setlerine böler. Bu bölünmeye kullanıcı tarafından da karar verilebilir, ancak model eğitimini etkilemenin tek yolu budur. Eğitimin geri kalanı kara kutu tarzında tamamen otomatiktir.
Değerlendirme
Eğitim bittiğinde, AutoML bir karışıklık matrisinin yanı sıra kesinlik ve hatırlama puanlarını da görüntüler. Ne yazık ki, modelin kendisi hakkında kesinlikle hiçbir bilgi yok, bu da kötü performans gösteren modellerin nedenlerini belirlemeyi zorlaştırıyor.
Tahmin
Modelin performansından memnun kaldığınızda, model birkaç tıklamayla rahatlıkla devreye alınabilir. Dağıtım işlemi yalnızca birkaç dakika sürer.

AutoML Model Performansı

Eğitim süreci oldukça yavaştır, çünkü muhtemelen altta yatan modeller çok büyüktür. 15.000 örnek ve 10 kategoriden oluşan küçük bir test sınıflandırma görevi eğittim ve eğitim birkaç saat sürdü. Çok daha büyük bir veri kümesine sahip gerçek dünyadan bir örnek birkaç günümü aldı.

Google, kullanılan modellerle ilgili herhangi bir detay yayınlamamış olsa da tahminimce Google'ın BERT modeli her görev için küçük uyarlamalarla kullanılıyor. BERT gibi büyük modellerde ince ayar yapmak, özellikle çok fazla çapraz doğrulama yapıldığında, hesaplama açısından pahalı bir işlemdir.

AutoML sınıflandırma modelini gerçek dünyadan bir örnekte kendim geliştirdiğim ve BERT'ye dayalı bir modelle test ettim. Şaşırtıcı bir şekilde, AutoML modeli aynı veriler üzerinde eğitildiğinde kendi modelimden önemli ölçüde daha kötü performans gösterdi. AutoML, %84'lük bir doğruluk elde ederken, benim modelim %89'a ulaştı.

Bu, AutoML'i kullanmak çok uygun olsa da, performans açısından kritik görevler için zaman ayırmanın ve modeli kendiniz geliştirmenin mantıklı olduğu anlamına gelir.

AutoML Fiyatlandırması

1.000 metin kaydı başına 5 ABD doları olan tahminler için AutoML fiyatlandırması, Natural Language API'den önemli ölçüde daha pahalıdır. Ayrıca, model eğitimi için AutoML saat başına 3 ABD doları ücret alır. Bu, başlangıçta ihmal edilebilir olsa da, sık yeniden eğitim gerektiren kullanım durumları için, özellikle eğitim oldukça yavaş göründüğü için bu, önemli bir miktara kadar çıkabilir.

Natural Language API ile aynı örneği kullanalım:

Her biri 1.500 karakterden oluşan 10.000 belgenin duyarlılığını analiz etmek istiyorsunuz, bu nedenle 20.000 istek için ücretlendirilirsiniz. Diyelim ki modeli eğitmek 20 saat sürüyor ve bu da 48 dolara mal oluyor. İlk 30.000 istek ücretsiz olduğu için tahmin size hiçbir şeye mal olmaz. Bunun gibi küçük veri kümeleri için AutoML çok ekonomiktir.

Bununla birlikte, veri kümeniz daha büyükse ve aynı boyutta bir milyonun duyarlılığını tahmin etmeniz gerekiyorsa, bu oldukça pahalı olan 9.850 dolara mal olur. Bunun gibi büyük veri kümeleri için, kendi modelinizi geliştirmek, AutoML kullanmadan kendiniz dağıtmak mantıklıdır.

Google Natural Language API ve AutoML Natural Language

Google AutoML Natural Language, Natural Language API'den çok daha güçlüdür, çünkü kullanıcının belirli veri kümeleri ve etki alanları için özelleştirilmiş modelleri eğitmesine olanak tanır.

Kullanımı kolaydır ve makine öğrenimi bilgisi gerektirmez. İki dezavantaj, daha yüksek maliyetler ve iyi performans gösteren modelleri eğitmek için gereken yüksek kaliteli bir veri kümesi sağlama gerekliliğidir.

AutoML beta, şimdilik yalnızca üç NLP görevini (sınıflandırma, duygu analizi, varlık ayıklama) destekler ve yalnızca İngilizce belgelerini destekler. Bu hizmet tam olarak yayınlandığında zamanla başka dillerin ve NLP görevlerinin eklenmesini bekliyorum.

Doğal Dil İşlemcilerinin Karşılaştırılması

Doğal dil işlemcilerinin karşılaştırma tablosu.

İlgili: Önceden eğitilmiş Modellerden En İyi Şekilde Yararlanma