โครงการและหัวข้อการประมวลผลคำพูด 6 อันดับแรกสำหรับผู้เริ่มต้นและผู้มีประสบการณ์ [2022]

เผยแพร่แล้ว: 2021-01-03

เราเคยได้ยินเกี่ยวกับการจัดประเภทข้อความ การจัดประเภทรูปภาพ แต่คุณเคยลองจัดประเภทเสียงแล้วหรือยัง ออกจากการจำแนกประเภท; มีสิ่งอื่นอีกมากมายที่เราสามารถทำได้ในระบบเสียงโดยใช้ปัญญาประดิษฐ์และการเรียนรู้เชิงลึก ในบทความนี้ เราจะพูดถึงโครงการประมวลผลคำพูดต่างๆ

คุณสามารถทำงานในโครงการเหล่านี้เพื่อทำความคุ้นเคยกับแอปพลิเคชันต่างๆ ของ AI ในการวิเคราะห์เสียงและเสียง ตั้งแต่การจัดประเภทเสียงไปจนถึงระบบแนะนำเพลง มีแนวคิดโครงการมากมายในรายการนี้ งั้นก็ดำดิ่งลงไปเลย

สารบัญ

โครงการและหัวข้อการประมวลผลคำพูด

1. จำแนกเสียง

การจัดประเภทเสียงเป็นหนึ่งในโครงการประมวลผลคำพูดที่เป็นที่ต้องการมากที่สุด เนื่องจากการเรียนรู้เชิงลึกมุ่งเน้นไปที่การสร้างเครือข่ายที่คล้ายกับจิตใจของมนุษย์ การจดจำเสียงจึงมีความสำคัญเช่นกัน แม้ว่าการจัดประเภทภาพจะก้าวหน้าและแพร่หลายมาก การจัดประเภทเสียงยังคงเป็นแนวคิดที่ค่อนข้างใหม่

ดังนั้น คุณสามารถทำงานในโครงการจำแนกประเภทเสียงและนำหน้าเพื่อนร่วมงานของคุณได้อย่างง่ายดาย คุณอาจสงสัยว่าคุณจะเริ่มทำงานในโครงการจัดประเภทเสียงได้อย่างไร แต่อย่ากังวลเพราะ Google ได้ช่วยเหลือคุณผ่าน AudioSet AudioSet คือคอลเล็กชันเสียงที่มีป้ายกำกับมากมายซึ่งรวบรวมจากวิดีโอ YouTube พวกเขาทั้งหมดมีความยาว 10 วินาทีและมีความหลากหลายอย่างไม่น่าเชื่อ

คุณสามารถใช้ไฟล์เสียงที่มีอยู่ใน AudioSet เพื่อฝึกและทดสอบโมเดลของคุณ มีการติดป้ายกำกับอย่างถูกต้อง ดังนั้นการทำงานกับพวกเขาจึงค่อนข้างตรงไปตรงมา ขณะนี้มีคลาสเหตุการณ์เสียง 632 รายการและมีคลิปเสียงมากกว่าสองล้านรายการใน AudioSet ตรวจสอบ Google AudioSet ที่ นี่

ให้เน้นไปที่การแยกคุณลักษณะเฉพาะออกจากไฟล์เสียงและวิเคราะห์ผ่านโครงข่ายประสาทเทียม คุณสามารถใช้คลิปเสียงขนาดเล็กเพื่อฝึกโครงข่ายประสาทเทียมได้

คำแนะนำเพิ่มเติม

ใช้ Data Augmentation เพื่อหลีกเลี่ยงไม่ให้เกิน ซึ่งจะรบกวนคุณมากในขณะที่ทำการจัดหมวดหมู่เสียง นอกจากนี้ เราขอแนะนำให้ใช้โครงข่ายประสาทเทียม หรือที่เรียกว่า CNN เพื่อทำการจำแนกประเภทเสียง คุณยังอาจใช้การลดความเร็วหรือเพิ่มความเร็วของเสียงเพื่อให้เหมาะกับความต้องการของรุ่นของคุณ

2. สร้างลายนิ้วมือเสียง

เทคโนโลยีล่าสุดและน่าประทับใจอย่างหนึ่งคือการพิมพ์ลายนิ้วมือของเสียง นั่นเป็นเหตุผลที่เราได้เพิ่มเทคโนโลยีนี้ในรายการโปรเจ็กต์การประมวลผลเสียงพูดของเรา เมื่อคุณสร้างสัญญาณเสียงโดยแยกคุณสมบัติด้านเสียงที่เกี่ยวข้องออกจากเสียง จากนั้นย่อสัญญาณเสียงเฉพาะ เราเรียกกระบวนการนี้ว่าการพิมพ์ลายนิ้วมือของเสียง คุณสามารถพูดได้ว่าลายนิ้วมือของเสียงเป็นบทสรุปของสัญญาณเสียงที่เฉพาะเจาะจง พวกเขามีชื่อ 'ลายนิ้วมือ' เพราะทุกลายนิ้วมือของเสียงมีเอกลักษณ์เฉพาะ เช่นเดียวกับลายนิ้วมือของมนุษย์

ด้วยการสร้างลายนิ้วมือของเสียง คุณสามารถระบุแหล่งที่มาของเสียงนั้นๆ ได้ในทุกกรณี Shazam น่าจะเป็นตัวอย่างที่มีชื่อเสียงที่สุดของแอปพลิเคชั่นพิมพ์ลายนิ้วมือด้วยเสียง Shazam เป็นแอปที่ช่วยให้ผู้ใช้สามารถระบุเพลงได้โดยการฟังผ่านส่วนเล็กๆ ของเพลงเดียวกัน

คำแนะนำเพิ่มเติม

ปัญหาทั่วไปในการสร้างลายนิ้วมือของเสียงคือเสียงพื้นหลัง ในขณะที่บางคนใช้โซลูชันซอฟต์แวร์เพื่อขจัดเสียงรบกวนรอบข้าง คุณสามารถลองแสดงเสียงในรูปแบบอื่นและขจัดความยุ่งเหยิงที่ไม่จำเป็นออกจากไฟล์ของคุณ หลังจากนั้น คุณสามารถใช้อัลกอริธึมที่จำเป็นเพื่อแยกแยะลายนิ้วมือได้

อ่านเพิ่มเติม: Deep Learning vs Neural Networks: ความแตกต่างระหว่าง Deep Learning และ Neural Networks

3. แยกแหล่งเสียง

อีกหัวข้อหนึ่งที่แพร่หลายในโครงการประมวลผลคำพูดคือการแยกแหล่งเสียง พูดง่ายๆ ก็คือ การแยกแหล่งเสียงจะเน้นที่การแยกสัญญาณแหล่งเสียงประเภทต่างๆ ที่อยู่ในท่ามกลางสัญญาณ คุณทำการแยกแหล่งเสียงทุกวัน ตัวอย่างคร่าวๆ ของการแยกแหล่งกำเนิดเสียงในชีวิตจริงคือเมื่อคุณแยกแยะเนื้อเพลงของเพลง ในกรณีนี้ คุณกำลังแยกสัญญาณเสียงของเนื้อเพลงออกจากส่วนที่เหลือของเพลง คุณสามารถใช้การเรียนรู้เชิงลึกเพื่อทำสิ่งนี้ได้เช่นกัน!

ในการทำงานกับโปรเจ็กต์นี้ คุณสามารถใช้ชุดข้อมูล LibriSpeech และ UrbanNoise8k แบบแรกคือชุดคลิปเสียงของคนอ่านหนังสือโดยไม่มีเสียงรบกวน ส่วนหลังคือชุดของเสียงพื้นหลัง เมื่อใช้ทั้งคู่ คุณสามารถสร้างแบบจำลองที่สามารถแยกสัญญาณเสียงที่เฉพาะเจาะจงออกจากกันได้อย่างง่ายดาย คุณสามารถแปลงสเปกโตรแกรมเพื่อให้งานของคุณง่ายขึ้น

คำแนะนำเพิ่มเติม

อย่าลืมใช้ฟังก์ชันการสูญเสียเนื่องจากเน้นที่ส่วนที่คุณต้องย่อให้เล็กสุด คุณสามารถใช้ฟังก์ชันการสูญเสียเพื่อสอนโมเดลของคุณให้ละเว้นเสียงพื้นหลังได้ง่ายขึ้นมาก นี่คือตัวอย่างแอปแยกแหล่งเสียงที่ยอด เยี่ยม

4. ส่วนเสียง

การแบ่งส่วนหมายถึงการแบ่งบางสิ่งออกเป็นส่วนต่าง ๆ ตามคุณสมบัติของมัน ดังนั้น การแบ่งส่วนเสียงคือเมื่อคุณแบ่งสัญญาณเสียงตามลักษณะเฉพาะ เป็นส่วนสำคัญของโปรเจ็กต์การประมวลผลเสียงพูด และคุณจำเป็นต้องทำการแบ่งส่วนเสียงในโปรเจ็กต์เกือบทั้งหมดที่เราแสดงรายการไว้ที่นี่ คล้ายกับการล้างข้อมูลแต่อยู่ในรูปแบบเสียง

แอปพลิเคชันที่ยอดเยี่ยมของการแบ่งกลุ่มเสียงคือการตรวจสอบการเต้นของหัวใจ ซึ่งคุณสามารถวิเคราะห์เสียงของการเต้นของหัวใจและแยกสองส่วนเพื่อการวิเคราะห์ที่ดียิ่งขึ้น แอปพลิเคชันทั่วไปของการแบ่งส่วนเสียงคือการรู้จำเสียง ซึ่งระบบสามารถแยกคำออกจากเสียงพื้นหลังและเพิ่มประสิทธิภาพการทำงานของซอฟต์แวร์รู้จำเสียงพูดได้

คำแนะนำเพิ่มเติม

นี่คือ โครงการแบ่งส่วนเสียงที่ยอดเยี่ยมซึ่งเผยแพร่ในสื่อ MECS โดยจะกล่าวถึงพื้นฐานของการแบ่งส่วนเสียงอัตโนมัติและเสนอสถาปัตยกรรมการแบ่งส่วนหลายส่วนสำหรับแอปพลิเคชันต่างๆ การดำเนินการนี้จะเป็นประโยชน์อย่างยิ่งในการทำความเข้าใจการแบ่งส่วนเสียงให้ดีขึ้น

5. แท็กเพลงอัตโนมัติ

โปรเจ็กต์นี้คล้ายกับโปรเจ็กต์การจำแนกเสียงที่เรากล่าวถึงก่อนหน้านี้ อย่างไรก็ตาม มีความแตกต่างเล็กน้อย การติดแท็กเพลงช่วยในการสร้างข้อมูลเมตาสำหรับเพลงเพื่อให้ผู้คนสามารถค้นหาได้ง่ายในฐานข้อมูลที่กว้างขวาง ในการแท็กเพลง คุณต้องทำงานกับหลายคลาส ดังนั้น คุณต้องใช้อัลกอริธึมการจำแนกประเภทหลายป้ายกำกับ อย่างไรก็ตาม ดังที่เราได้พูดคุยกันในโปรเจ็กต์ก่อนหน้านี้ เราเริ่มต้นด้วยคุณสมบัติพื้นฐาน หรือที่รู้จักว่า คุณสมบัติด้านเสียง

จากนั้นเราจะใช้ตัวแยกประเภทที่แยกไฟล์เสียงตามความคล้ายคลึงกันในคุณลักษณะต่างๆ ต่างจากการจัดประเภทเสียงที่เรากล่าวถึงในโครงการข้างต้น เราจะต้องใช้อัลกอริธึมการจำแนกประเภทหลายป้ายกำกับที่นี่

ในรูปแบบการฝึกฝน คุณควรเริ่มต้นด้วยชุดข้อมูล Million Song ซึ่งเป็นคอลเล็กชันเพลงยอดนิยมฟรี ชุดข้อมูลไม่มีเสียง และมีเพียงคุณลักษณะต่างๆ เท่านั้น จึงมีการเตรียมส่วนที่ครอบคลุมไว้ล่วงหน้า คุณสามารถฝึกและทดสอบโมเดลของคุณโดยใช้ชุดข้อมูล Million Song ได้อย่างง่ายดาย ตรวจสอบชุดข้อมูลล้านเพลงที่ นี่

คำแนะนำเพิ่มเติม

คุณสามารถใช้ CNN เพื่อทำงานในโครงการนี้ได้ ดูกรณีศึกษานี้ ซึ่งกล่าวถึงรายละเอียดการติดแท็กเสียง และใช้ Keras และ CNN สำหรับงานนี้

6. ระบบแนะนำเพลง

ระบบผู้แนะนำเป็นที่นิยมกันอย่างแพร่หลายในปัจจุบัน จากอีคอมเมิร์ซไปจนถึงสื่อ อุตสาหกรรม B2C เกือบทุกแห่งกำลังนำไปใช้เพื่อเก็บเกี่ยวผลประโยชน์ ระบบผู้แนะนำแนะนำผลิตภัณฑ์หรือบริการให้กับผู้ใช้ตามการซื้อหรือพฤติกรรมที่ผ่านมา ระบบแนะนำของ Netflix น่าจะเป็นระบบที่โด่งดังที่สุดในหมู่ผู้เชี่ยวชาญด้าน AI และผู้ที่ชื่นชอบ อย่างไรก็ตาม ระบบการแนะนำของคุณจะวิเคราะห์เสียงเพื่อคาดการณ์พฤติกรรมของผู้ใช้ต่างจากระบบการแนะนำของ Netflix แพลตฟอร์มการสตรีมเพลงเช่น Spotify กำลังใช้ระบบแนะนำดังกล่าวเพื่อปรับปรุงประสบการณ์ของผู้ใช้

เป็นโครงการระดับสูง ซึ่งเราสามารถแบ่งออกเป็นส่วนต่างๆ ดังต่อไปนี้:

  • ก่อนอื่นคุณต้องสร้างระบบการจัดประเภทเสียงที่สามารถแยกแยะคุณลักษณะเฉพาะของเพลงออกจากคุณลักษณะอื่นได้ ระบบนี้จะวิเคราะห์เพลงที่ผู้ใช้ฟังมากที่สุด
  • จากนั้น คุณจะต้องสร้างระบบคำแนะนำที่วิเคราะห์คุณลักษณะเหล่านั้นและค้นหาแอตทริบิวต์ร่วมกันระหว่างคุณลักษณะเหล่านั้น
  • หลังจากนั้น ระบบจำแนกเสียงจะพบคุณสมบัติที่มีอยู่ในเพลงอื่น ๆ ที่ผู้ใช้ของเรายังไม่ได้ฟัง
  • เมื่อคุณมีคุณสมบัติเหล่านั้นแล้ว ระบบการแนะนำของคุณจะเปรียบเทียบกับสิ่งที่ค้นพบและแนะนำเพลงเพิ่มเติมตามนั้น

แม้ว่าโปรเจ็กต์นี้อาจฟังดูซับซ้อนเล็กน้อย แต่เมื่อคุณสร้างทั้งสองโมเดลแล้ว สิ่งต่างๆ จะง่ายขึ้น

คำแนะนำเพิ่มเติม

ระบบผู้แนะนำมุ่งเน้นไปที่อัลกอริธึมการจำแนกประเภท หากคุณไม่เคยสร้างมาก่อน คุณควรฝึกสร้างก่อนดำเนินการในโครงการนี้

คุณยังสามารถเริ่มต้นด้วยชุดข้อมูลเพลงเล็กๆ โดยจัดประเภทตามประเภทหรือศิลปิน ตัวอย่างเช่น หากผู้ใช้ฟัง The Weeknd มีความเป็นไปได้สูงที่พวกเขาจะฟังเพลงอื่นๆ ที่อยู่ในแนวเพลงของเขา เช่น R&B และ Pop นี้จะช่วยให้คุณย่อฐานข้อมูลสำหรับระบบการแนะนำของคุณ

เรียนรู้เพิ่มเติม: 13 แนวคิดและหัวข้อโครงการโครงข่ายประสาทที่น่าสนใจสำหรับผู้เริ่มต้น

เรียนรู้เพิ่มเติมเกี่ยวกับการเรียนรู้เชิงลึก

การวิเคราะห์เสียงและการรู้จำคำพูดเป็นเทคโนโลยีที่ค่อนข้างใหม่กว่าเทคโนโลยีที่เป็นข้อความและภาพ อย่างไรก็ตาม ดังที่คุณเห็นในรายการนี้ การนำไปใช้งานและความเป็นไปได้ต่างๆ มีอยู่ในช่องนี้ ต้องขอบคุณปัญญาประดิษฐ์และการเรียนรู้เชิงลึก เราคาดหวังให้การวิเคราะห์เสียงขั้นสูงขึ้นในอนาคต

โครงการประมวลผลคำพูดเหล่านี้เป็นเพียงส่วนเล็ก ๆ ของภูเขาน้ำแข็ง มีแอปพลิเคชั่นการเรียนรู้ข้อมูลอื่น ๆ อีกมากมาย หากคุณต้องการสำรวจโครงการการเรียนรู้เชิงลึกเพิ่มเติม เราขอแนะนำแหล่งข้อมูลเหล่านี้:

  • 13 แนวคิดโครงการโครงข่ายประสาทเทียม
  • 7 สุดยอดโปรเจกต์การเรียนรู้เชิงลึกใน Github ที่คุณควรรู้
  • 16 แนวคิดโครงการการเรียนรู้เชิงลึกที่น่าตื่นเต้น

นอกจากนี้คุณยังสามารถ เรียนหลักสูตรแมชชีนเลิร์นนิงและการเรียนรู้เชิงลึก เพื่อเป็นผู้เชี่ยวชาญที่เชี่ยวชาญ หลักสูตรนี้จะให้การฝึกอบรมแก่คุณจากผู้นำในอุตสาหกรรมผ่านโครงการ วิดีโอ และสื่อการเรียน

การประมวลผลคำพูดในปัญญาประดิษฐ์คืออะไร?

การประมวลผลคำพูดเป็นคอมพิวเตอร์ที่เข้าใจเสียง เป็นกระบวนการเปลี่ยนสัญญาณเสียงพูดให้เป็นข้อมูลที่เป็นประโยชน์สำหรับผู้ใช้ การประมวลผลเสียงพูดคือการเปลี่ยนสัญญาณเสียงพูดแบบแอนะล็อกแบบต่อเนื่องให้เป็นสัญญาณดิจิทัลแบบแยก เป็นเรื่องเกี่ยวกับการแปลงคลื่นเสียงเป็นข้อมูลสำหรับการอ่านเครื่อง การประมวลผลคำพูดนั้นเป็นสาขาย่อยของวิทยาการคอมพิวเตอร์ที่มีวิธีการแปลงสัญญาณเสียงพูดเป็นข้อความหรือข้อมูลที่เป็นประโยชน์อื่นๆ การประยุกต์ใช้การประมวลผลเสียงพูดที่พบบ่อยที่สุดคือการแปลงสัญญาณเสียงพูดเป็นข้อมูลข้อความ ในกรณีนี้ การประมวลผลเสียงพูดเกี่ยวข้องกับการสร้างแบบจำลองสัญญาณเสียงพูดเป็นหลักและการนำเอ็นจิ้นการรู้จำเสียงพูดมาใช้อย่างเหมาะสม

อัลกอริทึมใดที่ใช้สำหรับการรู้จำเสียง

อัลกอริทึมสำหรับการรู้จำคำพูดนั้นล้ำหน้ามาก อัลกอริธึมเหล่านี้แปลงสัญญาณเสียงเป็นตัวอักษร อัลกอริธึมการรู้จำคำพูดหลักคือ Hidden Markov Model อัลกอริธึมนี้ถูกนำมาใช้ในระบบปฏิบัติการต่างๆ เช่น Mac OS, iPhone, Android และอื่นๆ ซอฟต์แวร์การรู้จำเสียงทำงานบนอัลกอริทึมเฉพาะนี้โดยสลับไปมาระหว่างสถานะต่างๆ อัลกอริธึมนี้จะถูกแทนที่ด้วย AI การเรียนรู้เชิงลึก (ปัญญาประดิษฐ์) ในอนาคตอันใกล้ เนื่องจากอัลกอริธึมนี้ไม่ต้องการวิศวกรรมคุณลักษณะใดๆ

แอปพลิเคชั่นของการรู้จำเสียงพูดมีอะไรบ้าง?

การรู้จำเสียงเป็นกระบวนการแปลงคำพูดเป็นข้อความ ในพื้นที่ต่างๆ เช่น คอลเซ็นเตอร์ เทคโนโลยีนี้มีประโยชน์มาก ผู้เชี่ยวชาญด้านคอลเซ็นเตอร์สามารถจัดการกับการโทรหลายสายพร้อมกันได้โดยใช้การรู้จำเสียงเพื่อกำหนดข้อมูลที่รับสาย นอกจากนี้ ในสำนักงาน สามารถใช้การรู้จำเสียงเพื่อพิมพ์เอกสารได้ นอกจากนี้ เทคโนโลยีนี้ยังสามารถนำไปใช้ในด้านอื่นๆ เช่น การเล่นเกม ตอนนี้เกมจำนวนมากอนุญาตให้ผู้ใช้นำทางเมนูโดยใช้เสียงของพวกเขา