ใช้ประโยชน์สูงสุดจากรุ่นก่อนการฝึกอบรม
เผยแพร่แล้ว: 2022-03-11โมเดลการเรียนรู้เชิงลึกใหม่ส่วนใหญ่ที่เปิดตัว โดยเฉพาะอย่างยิ่งใน NLP นั้นมีขนาดใหญ่มาก: พวกมันมีพารามิเตอร์ตั้งแต่หลายร้อยล้านจนถึงหลายหมื่นล้าน
ด้วยสถาปัตยกรรมที่ดีพอ ยิ่งโมเดลมีขนาดใหญ่เท่าใดก็ยิ่งมีความสามารถในการเรียนรู้มากขึ้นเท่านั้น ดังนั้น โมเดลใหม่เหล่านี้จึงมีความสามารถในการเรียนรู้ที่มาก และได้รับการฝึกบนชุดข้อมูลที่มีขนาดใหญ่มาก
ด้วยเหตุนี้ พวกเขาจึงเรียนรู้การกระจายทั้งหมดของชุดข้อมูลที่พวกเขาได้รับการฝึกอบรม อาจกล่าวได้ว่าเข้ารหัสความรู้ที่บีบอัดของชุดข้อมูลเหล่านี้ ซึ่งช่วยให้สามารถใช้โมเดลเหล่านี้กับแอปพลิเคชันที่น่าสนใจมากได้ ซึ่งโดยทั่วไปแล้วจะเป็นการโอนย้ายการเรียนรู้ การโอนย้ายการเรียนรู้คือการปรับโมเดลที่ได้รับการฝึกล่วงหน้าอย่างละเอียดในชุดข้อมูล/งานที่กำหนดเอง ซึ่งต้องการข้อมูลน้อยกว่ามาก และโมเดลจะบรรจบกันเร็วมากเมื่อเทียบกับการฝึกตั้งแต่เริ่มต้น
วิธีการที่แบบจำลองล่วงหน้าเป็นอัลกอริทึมแห่งอนาคต
แม้ว่าโมเดลที่ผ่านการฝึกอบรมล่วงหน้าจะถูกนำมาใช้ในการมองเห็นด้วยคอมพิวเตอร์ด้วยเช่นกัน แต่บทความนี้จะเน้นที่การใช้งานที่ทันสมัยในโดเมนการประมวลผลภาษาธรรมชาติ (NLP) สถาปัตยกรรม Transformer เป็นสถาปัตยกรรมทั่วไปและมีประสิทธิภาพมากที่สุดในโมเดลเหล่านี้
แม้ว่า BERT จะเริ่มการปฏิวัติการเรียนรู้การถ่ายโอน NLP เราจะสำรวจโมเดล GPT-2 และ T5 โมเดลเหล่านี้ได้รับการฝึกอบรมมาล่วงหน้าแล้ว การปรับแต่งแบบละเอียดในแอปพลิเคชันเฉพาะจะส่งผลให้มีการวัดผลการประเมินที่ดีขึ้นมาก แต่เราจะใช้งานโมเดลเหล่านี้ตั้งแต่เริ่มต้น กล่าวคือ โดยไม่มีการปรับแต่งแบบละเอียด
โมเดล NLP ที่ผ่านการฝึกอบรมล่วงหน้า: GPT-2 . ของ OpenAI
GPT-2 สร้างความถกเถียงอย่างมากเมื่อเปิดตัวในปี 2019 เนื่องจากสร้างข้อความได้ดีมาก จึงดึงดูดความสนใจของสื่อและทำให้เกิดคำถามมากมายเกี่ยวกับอนาคตของ AI
GPT-2 ได้รับการฝึกฝนบนข้อมูลข้อความขนาด 40 GB เป็นโมเดลขนาดใหญ่มาก ซึ่งมี ความรู้ที่ถูกบีบอัดจำนวนมหาศาล จากภาคตัดขวางของอินเทอร์เน็ต
GPT-2 มีกรณีการใช้งานที่เป็นไปได้มากมาย สามารถใช้ทำนายความน่าจะเป็นของประโยคได้ ในทางกลับกัน สามารถใช้สำหรับการแก้ไขข้อความอัตโนมัติได้ ขั้นต่อไป สามารถใช้การคาดคะเนคำโดยตรงเพื่อสร้างส่วนประกอบเติมข้อความอัตโนมัติสำหรับ IDE (เช่น Visual Studio Code หรือ PyCharm) สำหรับการเขียนโค้ดและการเขียนข้อความทั่วไป เราจะใช้สำหรับการสร้างข้อความอัตโนมัติ และสามารถใช้คลังข้อความขนาดใหญ่สำหรับการวิเคราะห์ภาษาธรรมชาติได้
การสร้างข้อความ
ความสามารถของแบบจำลองล่วงหน้าเช่น GPT-2 ในการสร้างข้อความที่สอดคล้องกันนั้นน่าประทับใจมาก เราสามารถให้ข้อความนำหน้าและขอให้สร้างคำ วลี หรือประโยคถัดไป
ตัวอย่างกรณีการใช้งานคือการสร้างชุดข้อมูลรีวิวผลิตภัณฑ์เพื่อดูว่าคำประเภทใดที่ใช้โดยทั่วไปในรีวิวเชิงบวกกับรีวิวเชิงลบ
มาดูตัวอย่างกัน เริ่มจากสิ่งที่เราได้รับหากเราเริ่มต้นด้วยคำนำหน้าเชิงบวก “ชอบหนังเรื่องนี้มาก!”
ตัวอย่าง 1 | ชอบอารมณ์ของตัวละครที่อยู่ในอันตรายตลอดเวลา และความกลัวภายในของเขาถูกเอาชนะอย่างช้าๆ ด้วยเหตุการณ์เหล่านี้ ชอบที่เขาจดจ่อกับการเอาตัวรอด แม้แต่ชั่วขณะหนึ่งมันรู้สึกเหมือนมีบางอย่างใน Batman v Superman ปรากฏขึ้นอีกครั้งเพราะคุณรู้อยู่เสมอว่าศัตรูของคุณจะปรากฏตัวในที่สุด :) ธีมตอนจบก็ติดอยู่กับฉันเช่นกัน… ฉันหมายความว่าใช่พวกเขาต้อง… |
ตัวอย่าง2 | มันทำในสิ่งที่ฉันต้องการจริงๆ สนุกมาก นักแสดงนั้นยอดเยี่ยมและเรื่องราวก็สมเหตุสมผลหลังจากได้เห็นทุกอย่างใน IMDB แล้ว มีคำใบ้เกี่ยวกับการอยู่ในเมืองใต้ดินจากกาลเวลาอันเนื่องมาจาก "พลัง" ของพวกเขา (หรือขาดมัน) แต่พวกเขาไม่ได้บอกอะไรมากขนาดนั้น ... ฉันคิดว่ามันเหมือนกับความลึกลับที่ยิ่งใหญ่แล้วเรื่องอื่น ๆ ที่มาพร้อมกับฉันในตอนนี้ แม้ว่า….มันควรจะ… |
อย่างที่คุณเห็น คำว่า รีวิว ไม่ได้อยู่ตรงไหนในคำนำหน้า แต่เนื่องจากบทวิจารณ์ส่วนใหญ่เป็นชื่อที่ตามด้วยเนื้อหาของบทวิจารณ์ สิ่งนี้จึงบังคับให้โมเดลปรับให้เข้ากับการเผยแพร่นั้น โปรดสังเกตการอ้างอิงถึง Batman v Superman
มาดูตัวอย่างอื่นกัน แทนที่จะรีวิวภาพยนตร์ เราจะพยายามสร้างบทวิจารณ์ผลิตภัณฑ์โดยใช้คำนำหน้าเชิงลบ "ผลิตภัณฑ์ขยะ! อย่าซื้อ."
ตัวอย่าง 1 | และได้โปรด อย่าพยายามใช้เป็นปุ๋ยสำหรับสวนหรือสนามหญ้าของคุณ เพราะจะทำให้เกิดความเสียหายร้ายแรงจากน้ำหากกินโดยปลาและนก ใช้ด้วยความระมัดระวังเพราะอาจเป็นไปได้ว่ายาฆ่าแมลงอาจมีอยู่ในอาหารสัตว์เลี้ยงที่มีจำหน่ายออนไลน์ที่ร้านขายของชำออร์แกนิกเช่นชื่อ "ดี" เช่น Petsmart, PetSmart & Safeway ขยะอาหารเป็นพิษแค่ไหน? ของเสียสามารถมีส่วนได้มาก - เพียงพอที่แม้มาก... |
ตัวอย่าง2 | จะไม่มีใครให้ขยะชิ้นนั้นแก่คุณอีกเลย เพียงทำประโยชน์ให้ตัวเองและธุรกิจของคุณและทำความสะอาดก่อนที่จะซื้อเพื่อประหยัดเงินหรือความสะดวกในอนาคต 1/2 ออนซ์ บรรจุภัณฑ์ขวดพลาสติกเก็บอาหาร + 1 แพ็ค #1636370105702615 (P, 3ml) $7 ซื้อเลย คุณสามารถซื้อขวดเหล่านี้ได้ที่ร้านค้าปลีกทุกแห่ง แต่นี่คือวิธีการซื้อ... |
อีกครั้ง คำนำหน้าสามารถอนุมานได้ว่าเป็นชื่อเรื่องของบทวิจารณ์ผลิตภัณฑ์ ดังนั้นแบบจำลองจึงเริ่มสร้างข้อความตามรูปแบบนั้น GPT-2 สามารถสร้างข้อความประเภทใดก็ได้เช่นนี้
โน้ตบุ๊ก Google Colab พร้อมที่จะใช้สำหรับการทดลอง เช่นเดียวกับการสาธิตสด "เขียนด้วย Transformer"
ตอบคำถาม
ใช่ เนื่องจาก GPT-2 ได้รับการฝึกฝนบนเว็บ มัน “รู้” ความรู้ของมนุษย์มากมายที่เผยแพร่ทางออนไลน์จนถึงปี 2019 มันสามารถใช้ได้กับคำถามเชิงบริบทเช่นกัน แต่เราจะต้องปฏิบัติตามรูปแบบที่ชัดเจนของ “ คำถาม: X คำตอบ:” ก่อนที่จะปล่อยให้พยายามเติมข้อความอัตโนมัติ แต่ถ้าเราบังคับโมเดลให้ตอบคำถามของเรา มันอาจให้คำตอบที่คลุมเครือ นี่คือสิ่งที่เกิดขึ้นโดยพยายามบังคับให้ตอบคำถามปลายเปิดเพื่อทดสอบความรู้:
ตัวอย่าง 1 | คำถาม: ใครเป็นผู้คิดค้นทฤษฎีวิวัฒนาการ? คำตอบ: ทฤษฎีวิวัฒนาการถูกเสนอครั้งแรกโดย Charles Darwin ในปี 1859 |
ตัวอย่าง2 | คำถาม มนุษย์มีฟันกี่ซี่? คำตอบ: มนุษย์มีฟัน 21 ซี่ |
อย่างที่เราเห็น โมเดลที่ฝึกไว้ล่วงหน้าให้คำตอบสำหรับคำถามแรกที่มีรายละเอียดค่อนข้างมาก ประการที่สอง พยายามอย่างดีที่สุดแต่ไม่สามารถเปรียบเทียบกับ Google Search
เป็นที่ชัดเจนว่า GPT-2 มีศักยภาพมหาศาล การปรับจูนแบบละเอียดสามารถใช้กับตัวอย่างที่กล่าวไว้ข้างต้นได้ซึ่งมีความแม่นยำสูงกว่ามาก แต่ถึงกระนั้น GPT-2 ที่ผ่านการฝึกอบรมล่วงหน้าที่เรากำลังประเมินอยู่นั้นก็ยังไม่ได้แย่ขนาดนั้น
โมเดล NLP ที่ผ่านการฝึกอบรมล่วงหน้า: T5 . ของ Google
T5 ของ Google เป็นหนึ่งในโมเดลภาษาธรรมชาติที่ล้ำหน้าที่สุดในปัจจุบัน มันต่อยอดจากงานก่อนหน้าในรุ่น Transformer โดยทั่วไป ต่างจาก BERT ซึ่งมีเฉพาะบล็อกตัวเข้ารหัสและ GPT-2 ซึ่งมีเฉพาะบล็อกตัวถอดรหัส T5 ใช้ ทั้งสอง ไฟล์ .

GPT-2 ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลข้อความขนาด 40 GB นั้นน่าประทับใจอยู่แล้ว แต่ T5 ได้รับการฝึกบนชุดข้อมูลขนาด 7 TB แม้ว่าจะได้รับการฝึกฝนมาเป็นจำนวนมากมาก แต่ก็ไม่สามารถอ่านข้อความทั้งหมดได้ แม้ว่า T5 สามารถสร้างข้อความเช่น GPT-2 ได้ แต่เราจะใช้สำหรับกรณีการใช้งานทางธุรกิจที่น่าสนใจยิ่งขึ้น

สรุป
เริ่มจากงานง่าย ๆ กัน: การสรุปข้อความ สำหรับบริษัทพัฒนา AI ที่ต้องการสร้างแอปที่สรุปบทความข่าว T5 นั้นเหมาะสมอย่างยิ่งกับงานนี้ ตัวอย่างเช่น การให้บทความนี้แก่ T5 ต่อไปนี้เป็นบทสรุปที่แตกต่างกันสามฉบับ:
V1 | destiny 2 ในฤดูกาลหน้า เริ่มวันที่ 10 มีนาคม จะทำการปรับดาบใหม่ พวกมันจะมีพลังงานชาร์จที่ใช้สำหรับโจมตีหนักและคุ้มกัน กิจกรรมวันวาเลนไทน์ วันแดงเดือด ก็เกิดขึ้นในเดือนนี้เช่นกัน |
V2 | bungie ได้เปิดเผยว่าซีซันหน้าของ Destiny 2 จะทำการปรับดาบใหม่อย่างมาก สตูดิโอส่วนใหญ่มักจะอายเกี่ยวกับสิ่งที่ฤดูกาลจะนำมาซึ่ง การคิดใหม่จะทำให้ดาบสามารถทะลุเกราะของศัตรูได้บางส่วน |
V3 | ฤดูกาลหน้าของ Destiny 2 จะทำการปรับดาบใหม่และปล่อยให้พวกมันผ่านเกราะของศัตรู ai ฤดูกาลเริ่มวันที่ 10 มีนาคม คุณสามารถเล่น Destiny 2 ได้ในช่วงวันสีแดงเข้ม กิจกรรมวันวาเลนไทน์ |
ดังที่เราเห็น ได้สรุปบทความได้ค่อนข้างดี นอกจากนี้ ข้อมูลสรุปแต่ละรายการยังแตกต่างจากสรุปอื่นๆ
การสรุปโดยใช้แบบจำลองที่ฝึกไว้ล่วงหน้านั้นมีศักยภาพในการใช้งานสูง กรณีการใช้งานที่น่าสนใจประการหนึ่งอาจเป็นการสร้างสรุปของทุกบทความโดยอัตโนมัติ และวางไว้ในตอนเริ่มต้นสำหรับผู้อ่านที่ต้องการแค่เรื่องย่อ สามารถดำเนินการเพิ่มเติมโดย ปรับแต่งสรุปสำหรับผู้ใช้แต่ละราย ตัวอย่างเช่น หากผู้ใช้บางคนมีคำศัพท์ที่เล็กกว่า พวกเขาอาจได้รับบทสรุปโดยมีตัวเลือกคำที่ซับซ้อนน้อยกว่า นี่เป็นตัวอย่างง่ายๆ แต่แสดงให้เห็นถึงพลังของโมเดลนี้
กรณีการใช้งานที่น่าสนใจอีกกรณีหนึ่งคือการใช้ข้อมูลสรุปดังกล่าวใน SEO ของเว็บไซต์ แม้ว่า T5 จะสามารถฝึกให้สร้าง SEO คุณภาพสูงได้โดยอัตโนมัติ แต่การใช้ข้อมูลสรุปอาจช่วยได้จริง โดยไม่ต้องฝึกแบบจำลองใหม่
อ่านวิเคราะห์
นอกจากนี้ยังสามารถใช้ T5 สำหรับการอ่านเพื่อความเข้าใจ เช่น การตอบคำถามจากบริบทที่กำหนด แอปพลิเคชั่นนี้มีกรณีการใช้งานที่น่าสนใจมากเราจะเห็นในภายหลัง แต่ขอเริ่มด้วยตัวอย่างบางส่วน:
คำถาม | ใครเป็นผู้คิดค้นทฤษฎีวิวัฒนาการ? |
บริบท (สารานุกรมบริแทนนิกา) | การค้นพบกระดูกฟอสซิลจากสัตว์เลี้ยงลูกด้วยนมขนาดใหญ่ที่สูญพันธุ์ในอาร์เจนตินาและการสังเกตนกฟินช์หลายสายพันธุ์ในหมู่เกาะกาลาปากอสเป็นหนึ่งในเหตุการณ์ที่กระตุ้นความสนใจของดาร์วินในการกำเนิดของสายพันธุ์ ในปีพ.ศ. 2402 เขาได้ตีพิมพ์เรื่อง On the Origin of Species by Means of Natural Selection ซึ่งเป็นบทความเกี่ยวกับทฤษฎีวิวัฒนาการ และที่สำคัญที่สุดคือบทบาทของการคัดเลือกโดยธรรมชาติในการกำหนดเส้นทางของมัน |
ตอบ | ดาร์วิน |
ไม่มีการกล่าวถึงอย่างชัดเจนว่าดาร์วินเป็นผู้คิดค้นทฤษฎีนี้ แต่แบบจำลองนี้ใช้ความรู้ที่มีอยู่พร้อมกับบริบทบางอย่างเพื่อให้ได้ข้อสรุปที่ถูกต้อง
แล้วบริบทที่เล็กมากล่ะ?
คำถาม | เราไปไหนมา? |
บริบท | ในวันเกิดของฉัน เราตัดสินใจไปเที่ยวพื้นที่ทางเหนือของปากีสถาน มันสนุกมากจริงๆ. |
ตอบ | พื้นที่ทางตอนเหนือของปากีสถาน |
โอเค มันง่ายมาก คำถามเชิงปรัชญาเป็นอย่างไร?
คำถาม | ความหมายของชีวิตคืออะไร? |
บริบท (วิกิพีเดีย) | ความหมายของชีวิตที่เรารับรู้นั้นมาจากการไตร่ตรองทางปรัชญาและศาสนา และการสอบถามทางวิทยาศาสตร์เกี่ยวกับการดำรงอยู่ ความสัมพันธ์ทางสังคม จิตสำนึก และความสุข ยังมีประเด็นอื่นๆ ที่เกี่ยวข้องอีกมาก เช่น ความหมายเชิงสัญลักษณ์ อภิปรัชญา คุณค่า จุดประสงค์ จริยธรรม ความดีและความชั่ว เจตจำนงเสรี การมีอยู่ของเทพเจ้าหนึ่งหรือหลายองค์ แนวความคิดของพระเจ้า จิตวิญญาณ และชีวิตหลังความตาย ผลงานทางวิทยาศาสตร์มุ่งเน้นไปที่การอธิบายข้อเท็จจริงเชิงประจักษ์ที่เกี่ยวข้องกับจักรวาลเป็นหลัก สำรวจบริบทและตัวแปรที่เกี่ยวข้องกับ "วิธีการ" ของชีวิต |
ตอบ | การไตร่ตรองทางปรัชญาและศาสนา และการสอบถามทางวิทยาศาสตร์เกี่ยวกับการดำรงอยู่ ความผูกพันทางสังคม จิตสำนึก และความสุข |
แม้ว่าเราจะรู้ว่าคำตอบของคำถามนี้ซับซ้อนมาก แต่ T5 พยายามหาคำตอบที่ใกล้เคียงแต่มีเหตุผล รุ่งโรจน์!
ให้เราดำเนินการต่อไป มาถามคำถามสองสามข้อโดยใช้บทความ Engadget ที่กล่าวถึงก่อนหน้านี้เป็นบริบท
คำถาม | เรื่องนี้เกี่ยวกับอะไร? |
ตอบ | โชคชะตา 2 จะทำใหม่อย่างมาก |
คำถาม | เราจะคาดหวังการอัปเดตนี้ได้เมื่อใด |
ตอบ | 10 มีนาคม |
อย่างที่คุณเห็น การตอบคำถามตามบริบทของ T5 นั้นดีมาก กรณีการใช้งานทางธุรกิจหนึ่งกรณีคือการสร้างแชทบ็อตตามบริบทสำหรับเว็บไซต์ที่ตอบคำถามที่เกี่ยวข้องกับหน้าปัจจุบัน
กรณีการใช้งานอีกกรณีหนึ่งคือการค้นหาข้อมูลจากเอกสาร เช่น ถามคำถามเช่น “การใช้แล็ปท็อปของบริษัทสำหรับโครงการส่วนตัวถือเป็นการละเมิดสัญญาหรือไม่” โดยใช้เอกสารทางกฎหมายเป็นบริบท แม้ว่า T5 จะมีข้อจำกัด แต่ก็ค่อนข้างเหมาะสำหรับงานประเภทนี้
ผู้อ่านอาจสงสัยว่า ทำไมไม่ใช้แบบจำลองเฉพาะสำหรับแต่ละงาน? เป็นจุดที่ดี: ความแม่นยำจะสูงขึ้นมากและค่าใช้จ่ายในการปรับใช้ของรุ่นพิเศษจะต่ำกว่ารุ่น NLP ที่ผ่านการฝึกอบรมล่วงหน้าของ T5 มาก แต่ความสวยงามของ T5 ก็คือ "รูปแบบเดียวที่จะปกครองพวกเขาทั้งหมด" กล่าวคือ คุณสามารถใช้โมเดลที่ผ่านการฝึกอบรมมาแล้วเพียงรูปแบบเดียวสำหรับงาน NLP เกือบทั้งหมด นอกจากนี้ เราต้องการใช้โมเดลเหล่านี้ตั้งแต่เริ่มต้น โดยไม่ต้องฝึกใหม่หรือปรับแต่ง ดังนั้น สำหรับนักพัฒนาที่สร้างแอปที่สรุปบทความต่างๆ รวมถึงแอปที่ตอบคำถามตามบริบท โมเดล T5 เดียวกันสามารถทำได้ทั้งสองอย่าง
โมเดลที่ผ่านการฝึกอบรมล่วงหน้า: โมเดลการเรียนรู้เชิงลึกที่จะแพร่หลายในไม่ช้า
ในบทความนี้ เราได้สำรวจโมเดลที่ได้รับการฝึกอบรมล่วงหน้าและวิธีใช้งานแบบสำเร็จรูปสำหรับกรณีการใช้งานทางธุรกิจต่างๆ เช่นเดียวกับอัลกอริธึมการเรียงลำดับแบบคลาสสิกที่ใช้กันเกือบทุกที่สำหรับปัญหาการเรียงลำดับ โมเดลที่ฝึกอบรมล่วงหน้าเหล่านี้จะใช้เป็นอัลกอริธึมมาตรฐาน ค่อนข้างชัดเจนว่าสิ่งที่เราสำรวจเป็นเพียงการขีดพื้นผิวของแอปพลิเคชัน NLP และยังมีอีกมากที่โมเดลเหล่านี้สามารถทำได้
โมเดลการเรียนรู้เชิงลึกที่ได้รับการฝึกอบรมล่วงหน้า เช่น StyleGAN-2 และ DeepLabv3 สามารถขับเคลื่อนแอปพลิเคชันการมองเห็นด้วยคอมพิวเตอร์ในลักษณะเดียวกันได้ ฉันหวังว่าคุณจะสนุกกับบทความนี้และหวังว่าจะได้ยินความคิดเห็นของคุณด้านล่าง