ความรู้เบื้องต้นเกี่ยวกับการประมวลผลภาษาธรรมชาติ
เผยแพร่แล้ว: 2018-08-28เราเป็นส่วนหนึ่งของโลกที่ถูกครอบงำทางดิจิทัลอย่างเป็นทางการซึ่งชีวิตของเราหมุนรอบเทคโนโลยีและนวัตกรรม ทุกๆ วินาที โลกสร้างข้อมูลจำนวนมหาศาลที่เข้าใจยาก ซึ่งส่วนใหญ่ไม่มีโครงสร้าง และนับตั้งแต่ Big Data และ Data Science เริ่มได้รับความสนใจทั้งในด้านไอทีและธุรกิจ สิ่งสำคัญคือต้องทำความเข้าใจกับข้อมูลดิบที่ไม่มีโครงสร้างจำนวนมากนี้เพื่อส่งเสริมการตัดสินใจและนวัตกรรมที่ขับเคลื่อนด้วยข้อมูล แต่เราจะให้ความสอดคล้องกันกับข้อมูลที่ไม่มีโครงสร้างได้อย่างไร?
คำตอบนั้นง่าย – ผ่าน การประมวลผลภาษาธรรมชาติ (NLP)
สารบัญ
การประมวลผลภาษาธรรมชาติ (NLP)
กล่าวอย่างง่าย ๆ NLP หมายถึงความสามารถของคอมพิวเตอร์ในการทำความเข้าใจคำพูดหรือข้อความของมนุษย์ในขณะที่พูดหรือเขียน ในวิธีที่ครอบคลุมมากขึ้น การประมวลผลภาษาธรรมชาติสามารถกำหนดเป็นสาขาหนึ่งของปัญญาประดิษฐ์ที่ช่วยให้คอมพิวเตอร์เข้าใจ เข้าใจ ตีความ และจัดการวิธีที่คอมพิวเตอร์โต้ตอบกับมนุษย์และภาษามนุษย์ได้ โดยได้แรงบันดาลใจมาจากทั้งภาษาศาสตร์เชิงคำนวณและวิทยาการคอมพิวเตอร์ เพื่อเชื่อมช่องว่างระหว่างภาษามนุษย์กับความเข้าใจของคอมพิวเตอร์
การเรียนรู้เชิงลึก: ดำดิ่งสู่โลกแห่งการเรียนรู้ของเครื่อง!
แนวคิดของการประมวลผลภาษาธรรมชาติไม่ใช่เรื่องใหม่ เกือบเจ็ดสิบปีก่อน โปรแกรมเมอร์คอมพิวเตอร์ใช้ 'บัตรเจาะรู' เพื่อสื่อสารกับคอมพิวเตอร์ อย่างไรก็ตาม ขณะนี้ เรามีผู้ช่วยส่วนตัวที่ชาญฉลาด เช่น Siri และ Alexa ซึ่งเราสามารถสื่อสารด้วยคำพูดของมนุษย์ได้อย่างง่ายดาย ตัวอย่างเช่น หากคุณถาม Siri ว่า “เฮ้ Siri เล่นเพลง Careless Whisper ให้ฉันฟังสิ” Siri จะตอบกลับคุณอย่างรวดเร็วด้วยคำ ว่า “ตกลง” หรือ “แน่นอน” และเล่นเพลงให้คุณ! มันเจ๋งแค่ไหน?
ไม่ มันไม่ใช่เวทมนตร์! เป็นไปได้เพียงเพราะ NLP ที่ขับเคลื่อนโดยเทคโนโลยี AI, ML และ Deep Learning มาทำลายมันกันเถอะ – ขณะที่คุณพูดในอุปกรณ์ของคุณ อุปกรณ์จะเปิดใช้งาน เมื่อเปิดใช้งาน มันจะดำเนินการเฉพาะเพื่อประมวลผลคำพูดของคุณและทำความเข้าใจ จากนั้น อย่างชาญฉลาด มันจะตอบสนองคุณด้วยการตอบกลับที่ชัดเจนด้วยเสียงเหมือนมนุษย์ และสิ่งที่น่าประทับใจที่สุดคือทั้งหมดนี้ทำได้ภายในเวลาไม่ถึงห้าวินาที!
โอกาสในการทำงานด้านการประมวลผลภาษาธรรมชาติ
ดังที่เราได้กล่าวไว้ข้างต้น การประมวลผลภาษาธรรมชาติทำให้คอมพิวเตอร์สามารถโต้ตอบกับมนุษย์ในภาษาของตนเองได้ ผ่าน NLP คอมพิวเตอร์สามารถได้ยินคำพูดและอ่านข้อความ และตีความและวัดความรู้สึกเบื้องหลังไปพร้อมกันเพื่อตอบสนองตามนั้น เนื่องจากบิ๊กดาต้ากำลังถูกใช้โดยบริษัทส่วนใหญ่ทั่วโลก องค์กรและสถาบันต่างๆ ในภาคส่วนต่างๆ ของอุตสาหกรรมจึงหันไปใช้เทคนิคและเครื่องมือ NLP เพื่อดึงข้อมูลที่มีความหมายจากชุดข้อมูลขนาดใหญ่ Natural Language Toolkit (NLTK), Stanford NLP, MALLET และ Apache OpenNLP เป็นไลบรารี NLP โอเพ่นซอร์สยอดนิยมบางส่วนที่ใช้ในกรณีและแอปพลิเคชันในโลกแห่งความเป็นจริง
ความสนใจที่เพิ่มขึ้นในด้านการประมวลผลภาษาธรรมชาติกำลังสร้างโอกาสทางอาชีพใหม่ๆ สำหรับมืออาชีพที่เชี่ยวชาญด้าน Data Science, Machine Learning และ Computational Linguistics องค์กรที่มีชื่อเสียง เช่น Facebook, Google, Sony Ericsson, British Airways, JP Morgan, Forte Group, Ernst & Young, American Express, Merrill Lynch, Shell, Celtic และ Sainsbury จ้างผู้เชี่ยวชาญด้านการประมวลผลภาษาธรรมชาติและนักวิเคราะห์
บทบาทของงาน ใน NLP ค่อนข้างหลากหลายและแตกแขนงออกไป เช่น วิศวกร NLP, นักวิทยาศาสตร์ NLP, สถาปนิก NLP, ศิลปิน Voice Over, นักวิทยาศาสตร์การวิจัยประยุกต์ NLP, นักวิทยาศาสตร์ข้อมูลความรู้ความเข้าใจ และอื่นๆ นอกเหนือจากบทบาทเหล่านี้ บทบาทงานที่โดดเด่นที่สุดประการหนึ่งในด้านการประมวลผลภาษาธรรมชาติคือหน้าที่ของโค้ช บริษัทจำนวนมากจ้างผู้เชี่ยวชาญ NLP เพื่อวัตถุประสงค์ในการฝึกสอนการปฏิบัติงานของผู้บริหารในสถาบันของตน
เงินเดือน ของผู้เชี่ยวชาญ NLP ค่อนข้างดี ตัวอย่างเช่น เงินเดือนเฉลี่ยของวิศวกร Machine Learning NLP ในสหรัฐอเมริกาอยู่ในช่วงระหว่าง $119,256 – $169,853 ต่อปี ในทางกลับกัน นักวิทยาศาสตร์การวิจัย NLP ทำเงินได้ประมาณ 72,040 ดอลลาร์ต่อปี
6 แนวคิดโครงงานแมชชีนเลิร์นนิงที่น่าสนใจสำหรับผู้เริ่มต้น
การประมวลผลภาษาธรรมชาติในโลกแห่งความเป็นจริง
ในปัจจุบัน การประมวลผลภาษาธรรมชาติส่วนใหญ่ใช้สำหรับการทำเหมืองข้อความ การแปลด้วยคอมพิวเตอร์ และการตอบคำถามอัตโนมัติ อันที่จริงแล้ว NLP พบแอปพลิเคชันของตนในกรณีการใช้งานจริงจำนวนมาก รวมถึงการสรุปข้อความอัตโนมัติ การแท็กส่วนของคำพูด การแยกหัวข้อ การวิเคราะห์ความคิดเห็น การรู้จำชื่อเอนทิตี การแยกความสัมพันธ์ การแยกส่วน และอื่นๆ อีกมากมาย
ต่อไปนี้คือวิธีที่บริษัทต่างๆ ใช้ประโยชน์จากการประมวลผลภาษาธรรมชาติในอุตสาหกรรมที่คล้ายคลึงกันมากมาย:
คุณลักษณะ "ตรวจการสะกด" ของ Microsoft Word เป็นหนึ่งในแอปพลิเคชันพื้นฐานที่สุดของ NLP อีกครั้ง เทคนิค NLP อยู่ในเครื่องมือค้นหายอดนิยมอย่าง Google และ Bing เครื่องมือค้นหาเหล่านี้ใช้ประโยชน์จากเทคนิค NLP เพื่อระบุและแยกคำหลักจากข้อความเพื่อแยกวิเคราะห์คำค้นหาและเติมดัชนีการค้นหาในเว็บไซต์ของตน
ธุรกิจต่างๆ กำลังใช้เทคนิค NLP การวิเคราะห์ความเชื่อมั่น เพื่อทำความเข้าใจและตีความว่าลูกค้ามีปฏิกิริยาอย่างไรต่อผลิตภัณฑ์และบริการของตน โดยการเปิดเผยมุมมองทางอารมณ์และการตอบสนองของลูกค้า การวิเคราะห์ความรู้สึกช่วยให้บริษัทต่างๆ สามารถปรับปรุงผลิตภัณฑ์และบริการของตนตามรสนิยมและความชอบของลูกค้าได้
Royal Bank of Scotland เป็นหนึ่งในผู้สนับสนุนการวิเคราะห์ข้อความที่ใหญ่ที่สุด เมื่อ ใช้การ วิเคราะห์ข้อความ ธนาคารสามารถคลี่คลายรูปแบบและแนวโน้มที่สำคัญได้โดยการลงลึกเข้าไปในข้อมูลคำติชมของลูกค้าจากอีเมล แบบสำรวจ รวมถึงการโทรร้องเรียน ด้วยการวิเคราะห์และตีความข้อมูลนี้ผ่านการวิเคราะห์ข้อความ ธนาคารสามารถเข้าใจถึงความคับข้องใจของลูกค้าและปรับปรุงแก้ไขได้
ในภาคการเงิน บริษัทต่างๆ ใช้เทคนิค NLP เพื่อดึงข้อมูลที่มีความหมายและเกี่ยวข้องจากข้อความธรรมดา และใช้ข้อมูลที่ได้รับ พวกเขาสามารถแยกแยะการตัดสินใจและกลยุทธ์การซื้อขายที่ขับเคลื่อนด้วยข้อมูลได้
แม้ว่าสิ่งเหล่านี้จะเป็นเทคนิคและแอปพลิเคชัน NLP แบบข้อความโดยพื้นฐานแล้ว การประมวลผลภาษาธรรมชาติยังขยายไปสู่การรู้จำเสียงและคำพูดอีกด้วย เช่นเดียวกับที่เรากล่าวถึงในตอนต้นของโพสต์นี้ NLP ถูกใช้ในผู้ช่วยส่วนตัวอัจฉริยะ เช่น Siri ของ Apple, Cortana ของ Microsoft และ Alexa ของ Amazon ผู้ช่วยเสมือนเหล่านี้สามารถทำงานทุกประเภท ตั้งแต่งานง่ายๆ เช่น การเปลี่ยนแสงในห้องของคุณ และการให้ข้อมูลอัปเดตสภาพอากาศไปจนถึงงานที่ซับซ้อนมากขึ้น เช่น การซื้อของออนไลน์สำหรับคุณ

ทักษะที่จำเป็นสำหรับการเป็น ML และ NLP Expert
เนื่องจากการประมวลผลภาษาธรรมชาติเป็นสะพานเชื่อมระหว่างสองโลกของภาษาศาสตร์และคอมพิวเตอร์ จึงต้องการความเชี่ยวชาญในระดับหนึ่งจากทั้งสองสาขา

ภาษาศาสตร์
คุณต้องสามารถเข้าใจแง่มุมพื้นฐานและแนวคิดของภาษาศาสตร์ เช่น การรู้จำคำพูด การดึงข้อมูล การกระจายตัวของประโยค ส่วนของคำพูด และอื่นๆ

การเขียนโปรแกรม
วิศวกร ML NLP หรือนักวิทยาศาสตร์การวิจัย NLP ต้องมีทักษะการเขียนโปรแกรมที่ดี คุณควรมีความรอบรู้ในภาษาการเขียนโปรแกรมอย่างน้อยหนึ่งภาษา ไม่ว่าจะเป็น Python หรือ Java หรือ Ruby หรือภาษาระดับสูงอื่นๆ สำหรับเรื่องนั้น นอกจากนี้ คุณควรมี ML พื้นฐาน (การจัดประเภท การถดถอย การประมาณความน่าจะเป็น การรวมข้อมูล ต้นไม้การตัดสินใจ ฯลฯ) และแนวคิด NLP (ไวยากรณ์ ความหมาย การรู้จำคำพูด ฯลฯ)
นอกเหนือจากทักษะเหล่านี้ คุณต้องมีความรู้พื้นฐานเกี่ยวกับความน่าจะเป็นและสถิติและเครือข่ายประสาทแบบเรียกซ้ำ (RNN) สิ่งเหล่านี้เป็นองค์ประกอบที่สำคัญของสาขาการวิจัยจำนวนมาก และ NLP ก็ไม่มีข้อยกเว้น
ปัญญาประดิษฐ์ 6 ครั้งทำให้โลกตกใจ
ในขณะที่เทคโนโลยี AI และ ML ก้าวหน้าไปเรื่อย ๆ ก็ทำให้เกิดโอกาสทางงานใหม่และน่าตื่นเต้นในขอบเขตการประมวลผลภาษาธรรมชาติ ในปี 2559 การประมวลผลภาษาธรรมชาติเป็น ทักษะที่ร้อนแรงที่สุดในตลาดงานทั่วโลก บน Upwork นี่แสดงให้เห็นว่าความต้องการผู้เชี่ยวชาญที่มีทักษะและผ่านการฝึกอบรมซึ่งสามารถเล่นปาหี่ได้ทั้งการเขียนโปรแกรมคอมพิวเตอร์และทักษะการประมวลผลภาษาธรรมชาตินั้นจะเพิ่มขึ้นอย่างมากในอนาคตอันใกล้นี้