การวิเคราะห์ความเชื่อมั่น: สัญชาตญาณเบื้องหลังการวิเคราะห์ความเชื่อมั่นในปี 2022

เผยแพร่แล้ว: 2021-01-02

สารบัญ

บทนำ

ข้อความเป็นวิธีที่สำคัญที่สุดในการรับรู้ข้อมูลของมนุษย์ สติปัญญาส่วนใหญ่ที่มนุษย์ได้รับมาจากการเรียนรู้และทำความเข้าใจความหมายของข้อความและประโยคที่อยู่รอบตัวพวกเขา หลังจากผ่านไประยะหนึ่ง มนุษย์จะพัฒนาปฏิกิริยาตอบสนองภายในเพื่อทำความเข้าใจการอนุมานของคำ/ข้อความใดๆ โดยที่ไม่รู้ด้วยซ้ำ

สำหรับเครื่องจักร งานนี้แตกต่างอย่างสิ้นเชิง เพื่อซึมซับความหมายของข้อความและประโยค เครื่องจักรต้องอาศัยพื้นฐานของการประมวลผลภาษาธรรมชาติ (NLP) การเรียนรู้เชิงลึกสำหรับการประมวลผลภาษาธรรมชาติคือการรู้จำรูปแบบที่ใช้กับคำ ประโยค และย่อหน้า ในลักษณะเดียวกับที่คอมพิวเตอร์วิทัศน์คือการรู้จำรูปแบบที่ใช้กับพิกเซลของภาพ

ไม่มีโมเดลการเรียนรู้เชิงลึกเหล่านี้ที่เข้าใจข้อความในความรู้สึกของมนุษย์อย่างแท้จริง แต่โมเดลเหล่านี้สามารถแมปโครงสร้างทางสถิติของภาษาเขียนได้ ซึ่งก็เพียงพอแล้วที่จะแก้ไขงานที่เป็นข้อความง่ายๆ จำนวนมาก การวิเคราะห์ความคิดเห็นเป็นงานหนึ่ง เช่น การจำแนกความรู้สึกของสตริงหรือบทวิจารณ์ภาพยนตร์เป็นบวกหรือลบ

สิ่งเหล่านี้มีการใช้งานขนาดใหญ่ในอุตสาหกรรมเช่นกัน ตัวอย่างเช่น บริษัทสินค้าและบริการต้องการรวบรวมข้อมูลของจำนวนรีวิวเชิงบวกและเชิงลบที่ได้รับสำหรับผลิตภัณฑ์หนึ่งๆ เพื่อทำงานตามวงจรชีวิตของผลิตภัณฑ์ ปรับปรุงตัวเลขการขาย และรวบรวมคำติชมของลูกค้า

เรียน รู้หลักสูตรการเรียนรู้ด้วยเครื่องออนไลน์ จากมหาวิทยาลัยชั้นนำของโลก รับ Masters, Executive PGP หรือ Advanced Certificate Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

อ่าน: แนวคิดโครงการการเรียนรู้ของเครื่อง

การประมวลผลล่วงหน้า

งานของการวิเคราะห์ความรู้สึกสามารถแบ่งออกเป็น อัลกอริธึมการเรียนรู้ด้วยเครื่องอย่างง่ายซึ่งเรามักจะมีอินพุต X ซึ่ง เข้าสู่ฟังก์ชันตัวทำนายเพื่อ รับ จากนั้นเราเปรียบเทียบการคาดคะเนของเรากับค่าจริง Y ซึ่ง จะทำให้เรามีต้นทุนที่เราจะใช้เพื่ออัปเดตพารามิเตอร์ เพื่อจัดการกับงานการแยกความรู้สึกออกจากกระแสข้อความที่มองไม่เห็นก่อนหน้านี้ ขั้นตอนพื้นฐานคือการรวบรวมชุดข้อมูลที่ติดป้ายกำกับด้วยความรู้สึกเชิงบวกและเชิงลบแยกจากกัน ความรู้สึกเหล่านี้อาจเป็นได้: บทวิจารณ์ที่ดีหรือบทวิจารณ์ที่ไม่ดี คำพูดประชดประชันหรือคำพูดที่ไม่ประชดประชัน ฯลฯ

ขั้นตอนต่อไปคือการสร้างเวกเตอร์ของมิติ V โดยที่ เวกเตอร์คำศัพท์นี้จะประกอบด้วยทุกคำ (ไม่มีการซ้ำคำ) ที่มีอยู่ในชุดข้อมูลของเรา และจะทำหน้าที่เป็นพจนานุกรมสำหรับเครื่องของเราซึ่งสามารถอ้างถึงได้ ตอนนี้เราประมวลผลเวกเตอร์คำศัพท์ล่วงหน้าเพื่อลบความซ้ำซ้อน มีการดำเนินการตามขั้นตอนต่อไปนี้:

การกำจัด URL และข้อมูลที่ไม่น่าสนใจอื่นๆ (ซึ่งไม่ได้ช่วยกำหนดความหมายของประโยค)
การแปลงสตริงเป็นคำ: สมมติว่าเรามีสตริง "ฉันรักการเรียนรู้ของเครื่อง" ตอนนี้โดยการทำให้เป็นโทเค็นเราเพียงแค่แบ่งประโยคเป็นคำเดียวและเก็บไว้ในรายการเป็น [ฉัน, ความรัก, เครื่องจักร, การเรียนรู้]
การลบคำหยุด เช่น “และ”, “กำลัง”, “หรือ”, “ฉัน” เป็นต้น
ต้นกำเนิด: เราแปลงแต่ละคำให้เป็นรูปแบบต้นกำเนิด คำว่า "tune", "tuning" และ "tuned" มีความหมายเหมือนกัน ดังนั้นการลดคำเหล่านั้นให้อยู่ในรูปแบบต้นกำเนิดของคำว่า "tun" จะทำให้ขนาดคำศัพท์ลดลง
การแปลงคำทั้งหมดเป็นตัวพิมพ์เล็ก

เพื่อสรุปขั้นตอนก่อนการประมวลผล มาดูตัวอย่างกัน: สมมติว่าเรามีสตริงเชิงบวก “ฉันรักผลิตภัณฑ์ใหม่ที่ upGrad.com ” สตริงที่ประมวลผลล่วงหน้าขั้นสุดท้ายได้มาจากการนำ URL ออก แปลงประโยคให้เป็นรายการคำเดียว ลบคำหยุดเช่น "I, am, the, at" จากนั้นจึงตัดคำว่า "loving" เป็น "lov" และ "product" เป็น "produ" และสุดท้ายแปลงทั้งหมดเป็นตัวพิมพ์เล็กซึ่งส่งผลให้รายการ [lov, new, produ ]

การแยกคุณลักษณะ

หลังจากประมวลผลคลังข้อมูลแล้ว ขั้นตอนต่อไปคือการดึงคุณลักษณะออกจากรายการประโยค เช่นเดียวกับโครงข่ายประสาทเทียมอื่นๆ โมเดลการเรียนรู้เชิงลึกไม่ได้ใช้เป็นข้อความดิบที่ป้อนเข้า แต่จะใช้งานได้เฉพาะกับเมตริกซ์ที่เป็นตัวเลขเท่านั้น

รายการคำที่ประมวลผลล่วงหน้าจึงจำเป็นต้องแปลงเป็นค่าตัวเลข สามารถทำได้ด้วยวิธีต่อไปนี้ สมมติว่ามีการรวบรวมสตริงที่มีสตริงบวกและลบ เช่น (สมมติว่าเป็นชุดข้อมูล) :

สตริงบวก สตริงเชิงลบ
มีความสุขเพราะได้เรียน NLP
ผมมีความสุข
เสียใจ ไม่ได้เรียน NLP
ฉันกำลังเสียใจ
ในการแปลงสตริงเหล่านี้เป็นเวกเตอร์ตัวเลขของมิติ 3 เราจึงสร้างพจนานุกรมเพื่อจับคู่คำนั้น และคลาสที่ปรากฏใน (บวกหรือลบ) เป็นจำนวนครั้งที่คำนั้นปรากฏในคลาสที่สอดคล้องกัน
คำศัพท์ ความถี่บวก ความถี่เชิงลบ
ฉัน 3 3
เช้า 3 3
มีความสุข 2 0
เพราะ 1 0
การเรียนรู้ 1 1
NLP 1 1
เศร้า 0 2
ไม่ 0 1
หลังจากสร้างพจนานุกรมดังกล่าวแล้ว เราจะดูแต่ละสตริงแยกกัน จากนั้นจึงรวมตัวเลขความถี่บวกและลบของคำที่ปรากฏในสตริงโดยปล่อยให้คำที่ไม่ปรากฏในสตริง ลองใช้สตริง "ฉันเสียใจ ฉันไม่ได้เรียนรู้ NLP" และสร้างเวกเตอร์ของมิติที่ 3

“ฉันเสียใจ ฉันไม่ได้เรียน NLP”
คำศัพท์ ความถี่บวก ความถี่เชิงลบ
ฉัน 3 3
เช้า 3 3
มีความสุข 2 0
เพราะ 1 0
การเรียนรู้ 1 1
NLP 1 1
เศร้า 0 2
ไม่ 0 1
ผลรวม = 8 ผลรวม = 11
เราเห็นว่าสำหรับสตริง "ฉันเศร้าฉันไม่ได้เรียนรู้ NLP" เพียงสองคำ "มีความสุขเพราะ" ไม่มีอยู่ในคำศัพท์ตอนนี้เพื่อแยกคุณสมบัติและสร้างเวกเตอร์ดังกล่าวเรารวมความถี่บวกและลบ คอลัมน์แยกกันโดยทิ้งจำนวนความถี่ของคำที่ไม่มีอยู่ในสตริง ในกรณีนี้เราจะปล่อยให้ "มีความสุขเพราะ" เราได้รับผลรวมเป็น 8 สำหรับความถี่บวกและ 9 สำหรับความถี่เชิงลบ

ดังนั้นสตริง “ฉันเสียใจ ฉันไม่ได้เรียนรู้ NLP” สามารถแสดงเป็นเวกเตอร์ หมายเลข “1” ที่มีอยู่ในดัชนี 0 คือหน่วยอคติที่จะยังคงเป็น “1” สำหรับสตริงที่ออกมาทั้งหมด และตัวเลข “8”, “11” แทนผลรวมของความถี่บวกและลบตามลำดับ
ในทำนองเดียวกัน สตริงทั้งหมดในชุดข้อมูลสามารถแปลงเป็นเวกเตอร์ขนาด 3 ได้อย่างสะดวกสบาย

อ่านเพิ่มเติม: อธิบายแบบจำลองการเรียนรู้ของเครื่อง
การใช้การถดถอยโลจิสติก
การแยกคุณลักษณะทำให้ง่ายต่อการเข้าใจแก่นแท้ของประโยค แต่เครื่องยังคงต้องการวิธีที่คมชัดกว่านี้เพื่อตั้งค่าสถานะสตริงที่มองไม่เห็นเป็นค่าบวกหรือค่าลบ นี่คือการถดถอยโลจิสติกที่ใช้ฟังก์ชัน sigmoid ซึ่งแสดงความน่าจะเป็นระหว่าง 0 ถึง 1 สำหรับแต่ละสตริงเวกเตอร์
ความคิดสุดท้าย
นอกจากนี้ หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's Executive PG Program ใน Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมอย่างเข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ , สถานะศิษย์เก่า IIIT-B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ
เป็นผู้นำการปฏิวัติเทคโนโลยีที่ขับเคลื่อนด้วย AI
สมัครโปรแกรมประกาศนียบัตรขั้นสูงในการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกจาก IIITB