Önceden eğitilmiş Modellerden En İyi Şekilde Yararlanma

Yayınlanan: 2022-03-11

Özellikle NLP'de piyasaya sürülen yeni derin öğrenme modellerinin çoğu çok ama çok büyük: Yüz milyonlarca ile on milyarlarca arasında değişen parametrelere sahipler.

Yeterince iyi bir mimari verildiğinde, model ne kadar büyükse, o kadar fazla öğrenme kapasitesi vardır. Bu nedenle, bu yeni modeller çok büyük bir öğrenme kapasitesine sahip ve çok, çok büyük veri kümeleri üzerinde eğitiliyor.

Bu nedenle, eğitildikleri veri kümelerinin tüm dağılımını öğrenirler. Bu veri kümelerinin sıkıştırılmış bilgilerini kodladıklarını söyleyebiliriz. Bu, bu modellerin çok ilginç uygulamalar için kullanılmasına izin verir - en yaygın olanı transfer öğrenimidir. Aktarım öğrenimi, çok daha az veri gerektiren özel veri kümeleri/görevleri üzerinde önceden eğitilmiş modellerde ince ayar yapmaktır ve modeller sıfırdan eğitime kıyasla çok hızlı bir şekilde yakınsar.

Önceden Eğitimli Modeller Geleceğin Algoritmaları Nasıldır?

Bilgisayarla görmede önceden eğitilmiş modeller de kullanılsa da, bu makale doğal dil işleme (NLP) alanındaki en son kullanımlarına odaklanacaktır. Transformatör mimarisi, bu modellerde kullanılan en yaygın ve en güçlü mimaridir.

Google'ın 2017 tarihli "İhtiyacınız Olan Tek Şey Dikkat" başlıklı makalesinde sunulduğu şekliyle Transformer mimarisi.

BERT, NLP transfer öğrenme devrimini başlatmış olsa da, GPT-2 ve T5 modellerini keşfedeceğiz. Bu modeller önceden eğitilmiştir; belirli uygulamalarda ince ayar yapmak çok daha iyi değerlendirme metrikleri ile sonuçlanacaktır, ancak bunları kullanıma hazır, yani ince ayar yapmadan kullanacağız.

Önceden eğitilmiş NLP Modelleri: OpenAI'nin GPT-2'si

GPT-2, 2019'da piyasaya sürüldüğünde oldukça tartışma yarattı. Metin oluşturmada çok iyi olduğu için medyanın oldukça ilgisini çekti ve AI'nın geleceği ile ilgili birçok soruyu gündeme getirdi.

40 GB metin verisi üzerinde eğitilen GPT-2, internetin bir kesitinden çok miktarda sıkıştırılmış bilgi içeren çok büyük bir modeldir.

GPT-2'nin birçok potansiyel kullanım durumu vardır. Bir cümlenin olasılığını tahmin etmek için kullanılabilir. Bu da, metin otomatik düzeltme için kullanılabilir. Daha sonra, kelime tahmini, genel metin yazmanın yanı sıra kod yazmak için bir IDE (Visual Studio Code veya PyCharm gibi) için bir otomatik tamamlama bileşeni oluşturmak için doğrudan kullanılabilir. Otomatik metin üretimi için kullanacağız ve doğal dil analizi için büyük bir metin külliyatı kullanılabilir.

GPT-2 metinsel girdiye dayalı öneriler üretir. Soldaki girdi, "İşlerin çoğunu yapay zeka üstlendi" şeklindedir. Sağda önerilen üç çıktı, "Aslında, şirketin Mayıs ayındaki ilk işe alımı", "Alınmayan tek iş," ve ""Gençken, olmak gibiydi" kapanış teklifi olmadan. işaret.

Metin Oluşturma

GPT-2 gibi önceden eğitilmiş bir modelin tutarlı metin oluşturma yeteneği çok etkileyici. Ona bir önek metni verebilir ve bir sonraki kelimeyi, deyimi veya cümleyi oluşturmasını isteyebiliriz.

Örnek bir kullanım örneği, olumsuz incelemelere karşı olumlu incelemelerde genellikle hangi tür kelimelerin kullanıldığını görmek için bir ürün incelemeleri veri kümesi oluşturmaktır.

Olumlu ön ekle başlarsak elde edeceklerimizle başlayarak bazı örneklere bakalım, “Bu filmi gerçekten beğendim!”

Örnek 1

Karakterin sürekli tehlikede olma duygularını ve bu olaylar tarafından içsel korkularının yavaş yavaş üstesinden gelinmesini sevdim. Ayrıca hayatta kalmaya bu kadar odaklanmış olmasını da sevdim; Hatta bir süreliğine Batman v Superman'den bir şeyler çıkıyormuş gibi hissettim çünkü düşmanınızın nasıl olsa eninde sonunda ortaya çıkacağını biliyordunuz :)

Örnek 2

Tam olarak yapmak istediğim şeyi yaptı, sadece çok eğlenceli. Oyuncu kadrosu harikaydı ve hikaye zaten IMDB'de olan her şeyi gördükten sonra mantıklı geliyor. “Güçleri” (ya da yoklukları) nedeniyle çok eski zamanlardan bir yeraltı şehrinde bulunmanın ipuçları var ama aslında o kadar da anlatmıyorlar… Bence bu daha çok büyük bir gizemden sonra başka yönlerin benimle bir araya gelmesi gibi. gerçi….Olması gereken…

Gördüğünüz gibi, inceleme kelimesi önekte herhangi bir yerde yoktu, ancak incelemelerin çoğu, incelemenin gövdesi tarafından takip edilen başlıklar olduğundan, bu, modeli bu dağılıma uyum sağlamaya zorladı. Ayrıca Batman v Superman referansına da dikkat edin.

Başka bir örnek görelim. Bir film incelemesi yerine, “Çöp bir ürün! Satın alma."

Örnek 1

Ve lütfen bunu bahçeleriniz veya çimleriniz için gübre olarak KULLANMAYIN - balıklar ve kuşlar tarafından yutulursa ciddi su hasarına neden olur. Petsmart, PetSmart & Safeway gibi çok "iyi" isimler gibi organik marketlerde çevrimiçi olarak bulunan evcil hayvan mamalarında pestisit bulunma olasılığı nedeniyle dikkatli kullanın. Yiyecek atıkları ne kadar zehirlidir? Atık ürünler önemli miktarda katkıda bulunabilir - öyle ki çok bile…

Örnek 2

Bir daha kimse sana o çöpün bir parçasını vermeyecek. Sadece kendinize ve işinize bir iyilik yapın ve gelecekte biraz para veya kolaylık sağlamak için satın almadan önce temizleyin.1/2 oz Şişe Plastik Gıda Saklama Paketi + 1 paket #1636370105702615 (P, 3ml) 7 $ Şimdi Satın Al Bu şişeleri herhangi bir perakende mağazadan satın alabilirsiniz, ancak işte nasıl edineceğiniz…

Yine, önek bir ürün incelemesinin başlığı olarak çıkarılabilir, bu nedenle model bu kalıbı izleyerek metin oluşturmaya başlar. GPT-2, bunun gibi herhangi bir metin türü oluşturabilir.

Bir Google Colab not defteri ve "Write With Transformer" canlı demosu deneyler için kullanılmaya hazırdır.

Soru Cevaplama

Evet, GPT-2 web üzerinde eğitildiğinden, 2019'a kadar çevrimiçi olarak yayınlanan pek çok insan bilgisini "biliyor". Bağlamsal sorular için de işe yarayabilir, ancak açık biçimi izlememiz gerekecek " Soru: X, Cevap: ”otomatik tamamlamayı denemesine izin vermeden önce. Ancak modeli sorumuzu yanıtlamaya zorlarsak, oldukça belirsiz bir yanıt verebilir. Bilgisini test etmek için onu açık uçlu soruları yanıtlamaya zorlamaya çalışırken olan şey:

Örnek 1	Soru: Evrim teorisini kim icat etti? Cevap: Evrim teorisi ilk olarak 1859 yılında Charles Darwin tarafından ortaya atılmıştır.
Örnek 2	Soru: İnsanların kaç dişi vardır? Cevap: İnsanların 21 dişi vardır.

Görüldüğü gibi önceden eğitilmiş model ilk soruya oldukça detaylı bir cevap vermiş. İkincisi, elinden gelenin en iyisini yaptı, ancak Google Arama ile karşılaştırılamıyor.

GPT-2'nin büyük bir potansiyele sahip olduğu açık. İnce ayar yaparak, yukarıda belirtilen örnekler için çok daha yüksek doğrulukla kullanılabilir. Ancak değerlendirdiğimiz önceden eğitilmiş GPT-2 bile o kadar da kötü değil.

Önceden eğitilmiş NLP Modelleri: Google'ın T5'i

Google'ın T5'i, bugüne kadarki en gelişmiş doğal dil modellerinden biridir. Genel olarak Transformer modellerinde önceki çalışmaların üzerine inşa edilmiştir. Yalnızca kodlayıcı blokları olan BERT ve yalnızca kod çözücü blokları olan GPT-2'nin aksine, T5 her ikisini de kullanır.

T5 girişleri ve çıkışları. 1) "İngilizce'yi Almanca'ya çevir: Bu iyi", "Das ist gut" olur. 2) "Kola cümlesi: Kurs iyi atlıyor", "kabul edilemez" hale geliyor. 3) "stsb cümle1: Gergedan çimenlerde otladı. cümle2: Bir gergedan tarlada otluyor", "3.8" olur. 4) "Özetleyin: eyalet yetkilileri, salı günü, Mississippi'deki şiddetli hava saldırısının ardından hasarı araştırmak için acil durum ekipleri gönderdi..." "Attala ilçesindeki bir fırtınadan sonra altı kişi hastaneye kaldırıldı." — Google'ın 2019 tarihli "Birleştirilmiş Metin-Metne Dönüştürücü ile Aktarım Öğreniminin Sınırlarını Keşfetmek" başlıklı T5 modelinden girdi ve karşılık gelen çıktı örnekleri.

GPT-2'nin 40 GB metin verisi üzerinde eğitilmesi zaten etkileyiciydi, ancak T5 7 TB veri kümesi üzerinde eğitildi . Çok, çok sayıda yineleme için eğitilmiş olmasına rağmen, metnin tamamını geçemedi. T5, GPT-2 gibi metin oluşturma işlemini yapabilse de, onu daha ilginç iş kullanım durumları için kullanacağız.

Özetleme

Basit bir görevle başlayalım: metin özetleme. Bir haber makalesini özetleyen bir uygulama geliştirmek isteyen AI geliştirme şirketleri için T5, görev için mükemmel bir şekilde uygundur. Örneğin, bu makaleyi T5'e vererek, işte ürettiği üç farklı özet:

V1	Kader 2'nin gelecek sezonu, 10 Mart'tan itibaren kılıçları yeniden işleyecek. hem ağır saldırılara hem de savunmaya güç sağlamak için kullanılan şarj enerjisine sahip olacaklar. sevgililer günü etkinliği olan kıpkırmızı günler de bu ay oluyor.
V2	bungie, kader 2'nin gelecek sezonunun kılıçları çarpıcı biçimde yeniden işleyeceğini açıkladı. Stüdyo, sezonun neler getireceği konusunda çoğunlukla çekingen davrandı. yeniden düşünmek, kılıçların AI düşmanlarının kalkanlarını kısmen geçmesine izin verecek.
V3	kader 2'nin gelecek sezonu kılıçları yeniden işleyecek ve düşmanların kalkanlarını pas geçmelerine izin verecek. Sezon 10 Mart'ta başlıyor. Bir sevgililer günü etkinliği olan kıpkırmızı günlerde kader 2 oynayabilirsiniz.

Gördüğümüz gibi, makaleyi özetlemek için oldukça şık bir iş çıkardı. Ayrıca her özet diğerlerinden farklıdır.

Önceden eğitilmiş modelleri kullanarak özetlemenin çok büyük potansiyel uygulamaları vardır. İlginç bir kullanım örneği, her makalenin bir özetini otomatik olarak oluşturmak ve bunu sadece özet isteyen okuyucular için başlangıca koymak olabilir. Her kullanıcı için özet kişiselleştirilerek daha da ileriye götürülebilir. Örneğin, bazı kullanıcılara daha küçük kelime dağarcığı varsa, onlara daha az karmaşık kelime seçenekleriyle bir özet sunulabilir. Bu çok basit bir örnek ama yine de bu modelin gücünü gösteriyor.

Bir başka ilginç kullanım durumu, bir web sitesinin SEO'sunda bu tür özetleri kullanmak olabilir. T5, otomatik olarak çok yüksek kaliteli SEO oluşturmak için eğitilebilse de, bir özet kullanmak, modeli yeniden eğitmeden kutunun dışında yardımcı olabilir.

Okuduğunu anlama

Ö5 ayrıca okuduğunu anlamak için de kullanılabilir, örneğin belirli bir bağlamdan soruları yanıtlamak. Bu uygulamanın daha sonra göreceğimiz çok ilginç kullanım durumları var. Ama birkaç örnekle başlayalım:

Soru	Evrim teorisini kim icat etti?
Bağlam (Britannica Ansiklopedisi)	Arjantin'deki soyu tükenmiş memelilere ait fosil kemiklerinin keşfi ve Galapagos Adaları'ndaki çok sayıda ispinoz türünün gözlemlenmesi, Darwin'in türlerin nasıl ortaya çıktığı konusundaki ilgisini uyandıran olaylar arasındaydı. 1859'da, evrim teorisini ve en önemlisi doğal seçilimin onun gidişatını belirlemedeki rolünü ortaya koyan bir inceleme olan Doğal Seleksiyon Yoluyla Türlerin Kökeni Üzerine'yi yayınladı.
Yanıt vermek	darwin

Darwin'in teoriyi icat ettiğinden açıkça bahsedilmiyor, ancak model doğru sonuca ulaşmak için mevcut bilgisini bazı bağlamlarla birlikte kullandı.

Çok küçük bir bağlama ne dersiniz?

Soru	Nereye gittik?
Bağlam	Doğum günümde Pakistan'ın kuzey bölgelerini ziyaret etmeye karar verdik. Gerçekten eğlenceliydi.
Yanıt vermek	Pakistan'ın kuzey bölgeleri

Tamam, bu oldukça kolaydı. Felsefi bir soruya ne dersiniz?

Soru	hayatın anlamı nedir?
Bağlam (Vikipedi)	Algıladığımız şekliyle hayatın anlamı, varoluş, sosyal bağlar, bilinç ve mutluluk hakkında felsefi ve dini düşüncelerden ve bilimsel araştırmalardan türetilmiştir. Sembolik anlam, ontoloji, değer, amaç, etik, iyi ve kötü, özgür irade, bir veya birden fazla tanrının varlığı, Tanrı, ruh ve öbür dünya kavramları gibi birçok başka konu da söz konusudur. Bilimsel katkılar öncelikle evrenle ilgili ampirik gerçekleri tanımlamaya, hayatın “nasıl”ına ilişkin bağlamı ve parametreleri keşfetmeye odaklanır.
Yanıt vermek	varoluş, sosyal bağlar, bilinç ve mutluluk hakkında felsefi ve dini tefekkür ve bilimsel araştırmalar

Bu sorunun cevabının çok karmaşık olduğunu bilsek de Ö5 çok yakın ama mantıklı bir cevap bulmaya çalıştı. Tebrikler!

Daha ileri götürelim. Bağlam olarak daha önce bahsedilen Engadget makalesini kullanarak birkaç soru soralım.

Soru	Bu ne hakkında?
Yanıt vermek	kader 2 önemli ölçüde yeniden işleyecek

Soru	Bu güncellemeyi ne zaman bekleyebiliriz?
Yanıt vermek	10 Mart

Gördüğünüz gibi, T5'in bağlamsal soru cevaplaması çok iyi. İş amaçlı kullanım örneklerinden biri, geçerli sayfayla ilgili sorguları yanıtlayan web siteleri için bağlamsal bir sohbet robotu oluşturmak olabilir.

Başka bir kullanım örneği, belgelerden bazı bilgileri aramak olabilir, örneğin, "Şirket dizüstü bilgisayarını kişisel bir proje için kullanmak sözleşmenin ihlali midir?" gibi sorular sormak olabilir. yasal bir belgeyi bağlam olarak kullanmak. T5'in sınırları olmasına rağmen, bu tür görevler için oldukça uygundur.

Okuyucular merak edebilir, Neden her görev için özel modeller kullanmıyorsunuz? Bu iyi bir nokta: T5'in önceden eğitilmiş NLP modelinden doğruluk çok daha yüksek olacak ve özel modellerin dağıtım maliyeti çok daha düşük olacaktır. Ancak T5'in güzelliği kesinlikle "hepsine hükmedecek tek bir model" olmasıdır, yani hemen hemen her NLP görevi için önceden eğitilmiş bir model kullanabilirsiniz. Ayrıca, bu modelleri yeniden eğitim veya ince ayar yapmadan kutudan çıkar çıkmaz kullanmak istiyoruz. Dolayısıyla, farklı makaleleri özetleyen bir uygulamanın yanı sıra bağlamsal soru yanıtlayan bir uygulama oluşturan geliştiriciler için aynı T5 modeli her ikisini de yapabilir.

Önceden Eğitimli Modeller: Yakında Her Yerde Olacak Derin Öğrenme Modelleri

Bu makalede, önceden eğitilmiş modelleri ve bunların farklı iş kullanım durumları için kutudan çıkar çıkmaz nasıl kullanılacağını araştırdık. Sıralama problemlerinde neredeyse her yerde klasik bir sıralama algoritması kullanıldığı gibi, bu önceden eğitilmiş modeller de standart algoritmalar olarak kullanılacaktır. Araştırdığımız şeyin NLP uygulamalarının yüzeyini kazımak olduğu oldukça açık ve bu modeller tarafından yapılabilecek daha pek çok şey var.

StyleGAN-2 ve DeepLabv3 gibi önceden eğitilmiş derin öğrenme modelleri, benzer bir şekilde bilgisayarla görme uygulamalarına güç sağlayabilir. Umarım bu makaleyi beğenmişsinizdir ve aşağıdaki yorumlarınızı duymayı dört gözle bekliyorum.