ชุดข้อมูลที่ดีที่สุดสำหรับโปรเจ็กต์แมชชีนเลิร์นนิง: ทั้งหมดที่คุณต้องรู้

เผยแพร่แล้ว: 2020-03-20

สารบัญ

บทนำ

แมชชีนเลิ ร์นนิง เป็นหนึ่งในเทคโนโลยีที่ทรงพลังที่สุดในปัจจุบัน เป็นสาขาที่สำคัญมากของปัญญาประดิษฐ์ที่ใช้ในการทำให้คอมพิวเตอร์ฉลาดขึ้น - ทำให้พวกเขาสามารถเรียนรู้ได้โดยไม่ต้องมีการแทรกแซงของมนุษย์ ทำให้แมชชีนเลิร์นนิงเป็นเครื่องมือสำคัญในการจัดการข้อมูล เนื่องจากมีการใช้ข้อมูลอย่างแท้จริงในทุกๆ ที่ ตั้งแต่การตัดสินใจทางธุรกิจไปจนถึงการจัดการประสบการณ์ของลูกค้า แมชชีนเลิร์นนิงช่วยให้ระบุรูปแบบที่ซ่อนอยู่ภายในชุดข้อมูลขนาดใหญ่เหล่านี้ได้ง่ายขึ้น

สิ่งสำคัญที่สุดคือ ชุดข้อมูลเหล่านี้เป็นวิธีจัดระเบียบข้อมูลดิบจำนวนมาก การใช้ชุดข้อมูลเหล่านี้ โปรแกรมต่างๆ ถูกเขียนขึ้นเพื่อสร้างแอปพลิเคชันที่ทำให้การดำเนินธุรกิจง่ายขึ้น ในบทความนี้ เราเรียนรู้เกี่ยวกับ ชุดข้อมูลต่างๆ สำหรับการเรียนรู้ ของ เครื่อง

แต่ก่อนจะพูดถึงเรื่องนี้ เรามาทำความเข้าใจพื้นฐานของการเรียนรู้ของเครื่องก่อน

แมชชีนเลิร์นนิงคืออะไร?

แมชชีนเลิร์นนิงมีหน้าที่ในการขับเคลื่อนแพลตฟอร์มที่คุณชื่นชอบ เช่น Netflix, Facebook, Twitter, YouTube, Spotify, Google และ Baidu แม้แต่ผู้ช่วยเสียงเช่น Alexa และ Siri ก็ยังเลือกเพลงโปรดของคุณเพื่อใช้การเรียนรู้ของเครื่อง! แพลตฟอร์มทั้งหมดเหล่านี้พยายามใช้ข้อมูลที่เกี่ยวข้องกับคุณ ซึ่งรวมถึงการค้นหา การคลิก มุมมอง รูปภาพที่คุณแชร์ ความคิดเห็น การโต้ตอบ และโพสต์ เรียนรู้เพิ่มเติมเกี่ยวกับแอปพลิเคชันการเรียนรู้ของเครื่องยอดนิยม

แมชชีนเลิร์นนิงใช้ประโยชน์จากข้อมูลนี้เพื่อรับแนวคิดเกี่ยวกับการตั้งค่าของคุณ ตัวอย่างเช่น Netflix ใช้เพื่อแนะนำซีรีส์ทางทีวีที่คุณอาจชอบดูโดยอิงจากซีรีส์ที่คุณเคยดู แม้แต่แพลตฟอร์มอย่าง Amazon ก็ใช้การเรียนรู้ของเครื่องเพื่อแนะนำผลิตภัณฑ์ของคุณ โดยอิงจากประวัติการซื้อก่อนหน้าของคุณ

ส่วนที่โดดเด่นที่สุดของตลาดแมชชีนเลิร์นนิงคือการเรียนรู้เชิงลึกที่อาจสูงถึง 1 พันล้านภายในปี 2568

ดูน่าสนใจ? ให้เราเข้าไปในเรื่องทางเทคนิคของเรื่อง

หมวดหมู่ของการเรียนรู้ของเครื่อง

แมชชีนเลิร์นนิงแบ่งออกเป็นสามแบบกว้างๆ ได้แก่ การเรียนรู้แบบมี ผู้ดูแล การเรียนรู้แบบไม่อยู่ภายใต้การดูแล และการเรียนรู้แบบเสริม กำลัง

การเรียนรู้ภายใต้การดูแล

ในกระบวนการนี้ คอมพิวเตอร์จะเรียนรู้จากชุดข้อมูลที่เรียกว่า ข้อมูลการฝึก อบรม จะใช้การตัดสินใจและคาดการณ์ผลลัพธ์ในอนาคตตามสิ่งนี้ คุณจะได้เรียนรู้เกี่ยวกับ ชุดข้อมูลการฝึกอบรมสำหรับการเรียนรู้ของเครื่อง ในภายหลัง ที่นี่ ระบบจะป้อนคู่อินพุต-เอาต์พุต และในขณะที่ทำงานกับคู่เหล่านี้ ระบบจะเรียนรู้วิธีจับคู่คู่เหล่านี้ มันเหมือนกับการมีคำถามชุดหนึ่งที่มีคำตอบที่ถูกต้องติดแท็กไว้

เมื่อระบบหรืออัลกอริธึมเรียนรู้ความสัมพันธ์ระหว่างคู่อินพุต-เอาท์พุต มันสามารถทำนายเอาต์พุตได้เมื่อมีการป้อนอินพุตใหม่ เรียนรู้เพิ่มเติมเกี่ยวกับประเภทของการเรียนรู้ภายใต้การดูแล

การเรียนรู้แบบไม่มีผู้ดูแล

ที่นี่ คอมพิวเตอร์จะตรวจสอบชุดข้อมูลเพื่อระบุรูปแบบที่ซ่อนอยู่โดยไม่ต้องให้ความช่วยเหลือใดๆ มันทำงานที่ซับซ้อนและค้นพบผลลัพธ์ด้วยตัวมันเอง เรียนรู้เพิ่มเติมเกี่ยวกับการเรียนรู้แบบไม่มีผู้ดูแล

การเรียนรู้การเสริมแรง

กระบวนการเรียนรู้ของเครื่องนี้ใช้วิธีการทดลองและข้อผิดพลาดในการพิจารณาวิธีแก้ไขปัญหา ดังนั้นผลลัพธ์ของโปรแกรมจะขึ้นอยู่กับอินพุตปัจจุบันที่ให้ไว้

เมื่อคุณมีความเข้าใจพื้นฐานเกี่ยวกับแมชชีนเลิร์นนิงแล้ว มาต่อที่ชุดข้อมูลกัน

ชุดข้อมูลสำหรับการเรียนรู้ของเครื่องคืออะไร

ชุดข้อมูลตามชื่อคือ ชุด ของ ข้อมูล อาจเป็นข้อมูลของฐานข้อมูลเดียว โดยใช้ตัวแปรเพื่อแสดงคอลัมน์ แถวของตารางนี้อาจแสดงโดยสมาชิกของชุดข้อมูลเฉพาะนี้

การเตรียม ชุดข้อมูลสำหรับแมชชีนเลิ ร์นนิง เป็นสิ่งสำคัญ เนื่องจากอัลกอริธึมทำงานไม่ถูกต้องกับข้อมูลดิบหรือข้อมูลที่ไม่มีโครงสร้าง จำเป็นต้องมีชุดข้อมูลที่เหมาะสมในการแก้ปัญหาและตัดสินใจ ตัวอย่างเช่น แอปพลิเคชันสภาพอากาศอาจไม่มีชุดข้อมูลที่เหมาะสมซึ่งมีข้อมูลสภาพอากาศในช่วงสองสามวันหรือสัปดาห์ที่ผ่านมา ดังนั้นจึงไม่สามารถแสดงการพยากรณ์อากาศที่แม่นยำสำหรับสัปดาห์หน้าได้

ดังนั้น หากไม่มี ชุดข้อมูลที่เหมาะสมสำหรับแมชชีนเลิ ร์น นิง โปรเจ็ กต์แมชชีนเลิร์นนิง จะไม่ประสบความสำเร็จแม้แต่กับนักวิทยาศาสตร์ข้อมูลที่ได้รับการฝึกอบรม

ชุดข้อมูลสำหรับแมชชีนเลิ ร์นนิง ใช้สำหรับสร้าง แบบจำลองแมชชีนเลิ ร์น นิง โมเดลเหล่านี้แสดงถึงปัญหาในโลกแห่งความเป็นจริงโดยใช้นิพจน์ทางคณิตศาสตร์ ในการสร้างแบบจำลองดังกล่าว คุณต้องจัดเตรียมชุดข้อมูลเพื่อเรียนรู้และทำงาน

ประเภทของชุดข้อมูลที่ใช้ในการเรียนรู้ของเครื่องมีดังนี้:

1. ชุดข้อมูลการฝึก

นี่อาจเป็น ชุดข้อมูล ที่สำคัญที่สุด สำหรับการเรียนรู้ของเครื่อง มันถูกป้อนเข้าสู่อัลกอริธึมการเรียนรู้ของเครื่องเพื่อสร้างแบบจำลอง อัลกอริทึมจะค้นหารูปแบบข้อมูลเพื่อระบุตัวแปรอินพุต ซึ่งจะช่วยให้บรรลุเป้าหมายสูงสุดหรือผลลัพธ์ที่ต้องการ ผลลัพธ์ของชุดข้อมูลนี้คือโมเดลการเรียนรู้ของเครื่องที่คุณสามารถใช้เพื่อทำนายผลลัพธ์

ประมาณ 60% ของชุดข้อมูลถูกใช้โดยชุดข้อมูลการฝึกอบรม

2. ชุดข้อมูลการตรวจสอบ

ชุดข้อมูลการตรวจสอบความถูกต้องจะใช้ในขั้นตอนการตรวจสอบ ขณะสร้างโปรเจ็กต์แมชชีนเลิร์นนิง ขั้นตอนนี้จะเกิดขึ้นทันทีหลังการฝึก ชุดข้อมูลนี้มีความสำคัญสำหรับการประเมินโมเดลแมชชีนเลิร์นนิง วิศวกรแมชชีนเลิร์นนิงใช้ชุดนี้เพื่อปรับแต่งและปรับ ไฮเปอร์พารามิเตอร์ ของโมเดล ไฮเปอร์พารามิเตอร์เหล่านี้เป็นพารามิเตอร์ที่มีการตั้งค่าไว้ก่อนที่โปรแกรมจะเริ่มเรียนรู้

ไม่สามารถประมาณค่าจากข้อมูลได้ ตัวอย่างเช่น ไฮเปอร์พารามิเตอร์อาจรวมความลึกของต้นไม้หรือเลเยอร์ที่ตรวจไม่พบจำนวนหนึ่งในโครงข่ายประสาทเทียม

Max Kuhn และ Kjell Johnson นักเขียนชื่อดัง กล่าวว่า “โมเดลข้อมูลต้องได้รับการประเมินโดยใช้ตัวอย่างที่ไม่ได้ใช้สำหรับการสร้างหรือปรับแต่ง ซึ่งจะทำให้คุณได้รับผลลัพธ์ที่เป็นกลางของประสิทธิภาพของแบบจำลอง เมื่อทำงานกับข้อมูลจำนวนมาก วิธีที่ดีที่สุดคือให้เก็บตัวอย่างข้อมูลไว้เพื่อประเมินผล ชุดฝึกอบรมคือตัวอย่างที่ใช้สำหรับสร้างแบบจำลอง ในขณะที่ตัวอย่างการตรวจสอบและการทดสอบจะใช้สำหรับการวิเคราะห์ประสิทธิภาพ”

3. ทดสอบชุดข้อมูล

ชุดข้อมูล ทดสอบ สำหรับแมชชีนเลิ ร์นนิง ใช้เพื่อทำความเข้าใจว่าโมเดลแมชชีนเลิร์นนิงจะทำงานอย่างไรในอนาคต เมื่อใช้ชุดข้อมูลนี้ คุณจะสามารถเข้าใจได้ว่าแบบจำลองข้อมูลของคุณมีความแม่นยำเพียงใด พูดง่ายๆ คือ ชุดข้อมูลนี้จะบอกคุณว่าแบบจำลองข้อมูลของคุณได้เรียนรู้จากชุดการฝึกมากน้อยเพียงใด

ชุดเหล่านี้ใช้ข้อมูล 20% ชุดจะประกอบด้วยตัวแปรอินพุตพร้อมกับผลลัพธ์ที่ตรวจสอบแล้ว อย่างไรก็ตาม ใน โครงการการเรียนรู้ของเครื่อง โดยทั่วไปเราจะไม่ใช้ชุดข้อมูลการฝึกอบรมในขั้นตอนการทดสอบ เนื่องจากอัลกอริธึมจะรับรู้ถึงผลลัพธ์ที่คาดหวัง ตามที่ได้เรียนรู้จากชุดข้อมูลนี้ก่อนหน้านี้

หลังจากขั้นตอนการทดสอบ ปกติแล้วแบบจำลองข้อมูลจะไม่ถูกปรับอีกต่อไป เนื่องจากการปรับเพิ่มเติมอาจนำไปสู่การ ใส่ มาก เกินไป Overfitting เกิดขึ้นเมื่อโมเดลข้อมูลได้รับการฝึกอบรมด้วยข้อมูลมากเกินไป ในกรณีนี้ โมเดลจะเริ่มเรียนรู้จากการป้อนข้อมูลที่ไม่ถูกต้องในชุดข้อมูลที่กำหนด เป็นผลให้ทำงานไม่ถูกต้องกับชุดข้อมูลใหม่ มันเหมือนกับการพยายามใส่ยีนส์โอเวอร์ไซส์เมื่อคุณทำไม่ได้!

แต่เพื่อให้โมเดลแมชชีนเลิร์นนิงทำงานได้สำเร็จ คุณต้องจัดเตรียมชุดข้อมูลที่ดี หากไม่มี ชุดข้อมูลสำหรับการเรียนรู้ของเครื่อง อัลกอริทึมจะไม่สามารถเรียนรู้และแก้ปัญหาได้ ตัวอย่างเช่น เมื่อคุณไม่มีหนังสือและทรัพยากรที่เหมาะสม คุณจะไม่สามารถทำแบบทดสอบที่ต้องการได้

การเตรียมชุดข้อมูลสำหรับแมชชีนเลิร์นนิง

มาดูขั้นตอนที่จำเป็นในการสร้าง ชุดข้อมูลสำหรับแมชชีนเลิ ร์นนิง กัน

การเก็บรวบรวมข้อมูล

ขั้นตอนแรกคือการรวบรวมข้อมูลที่เกี่ยวข้องทั้งหมดที่คุณต้องการสำหรับโมเดลการเรียนรู้ของเครื่อง ปริมาณข้อมูลจะขึ้นอยู่กับ ความซับซ้อนของโครงงานการเรียนรู้ของ เครื่อง โครงการที่เรียบง่ายจะต้องการข้อมูลน้อยกว่าโครงการที่ซับซ้อน ดังนั้น คุณต้องกำหนดทุกสิ่งที่จำเป็นจริง ๆ เพื่อแก้ปัญหาในมือ

สามารถเก็บรวบรวมข้อมูลได้ง่ายๆ โดยตอบคำถามต่อไปนี้

  • คุณมีข้อมูลประเภทใดสำหรับโครงการนี้
  • ไม่มีข้อมูลใดที่คุณต้องการสำหรับโครงการ – ซึ่งอาจรวมถึงฐานข้อมูลหรือข้อมูลที่จัดเก็บไว้ในระบบคลาวด์ คุณอาจต้องได้รับข้อมูลนี้
  • คุณสามารถลบข้อมูลใดออกจากข้อมูลที่มีอยู่ได้ นี่หมายถึงการล้างข้อมูลที่ไม่ต้องการซึ่งไม่เกี่ยวข้องกับโครงการของคุณ

เมื่อคุณได้คำตอบสำหรับคำถามเหล่านี้แล้ว คุณสามารถเริ่มรวบรวมข้อมูลจากแหล่งต่างๆ ได้ ไฟล์เหล่านี้อาจเป็นไฟล์ข้อความ ไฟล์ .csv ดูโครงสร้างข้อมูลที่ซ้อนกันในไฟล์ JSON และ XML และที่เก็บข้อมูล

ตอนนี้คุณสามารถไปยังขั้นตอนถัดไปในการสร้าง ชุดข้อมูลสำหรับการเรียนรู้ ของ เครื่อง

การประมวลผลข้อมูลล่วงหน้า

เมื่อคุณมีข้อมูลทั้งหมดที่ต้องการแล้ว คุณต้องดำเนินการกับแบบจำลองของคุณอย่างเหมาะสม วิธีการประมวลผลล่วงหน้าคือการแปลงชุดข้อมูลดิบเป็นชุดที่มีความหมายซึ่งใช้งานได้ กระบวนการประกอบด้วยสามขั้นตอนด้านล่าง:

การจัดรูปแบบ

ข้อมูลดิบที่คุณรวบรวมมาจำนวนมากไม่อยู่ในรูปแบบที่เหมาะสมกับโมเดลการเรียนรู้ของเครื่อง อาจอยู่ในไฟล์ JSON หรือฐานข้อมูลเชิงสัมพันธ์ คุณต้องแปลงข้อมูลนี้เป็นไฟล์ข้อความหรือไฟล์ .csv ตามความสะดวกของคุณ

ทำความสะอาด

นี่คือกระบวนการที่คุณแก้ไขและลบข้อมูลที่ขาดหายไปและไม่ต้องการออกจากชุดข้อมูลของคุณ อินสแตนซ์ของข้อมูลเหล่านี้อาจไม่ช่วยแก้ปัญหาได้ นอกจากนี้ อาจมีข้อมูลที่ละเอียดอ่อนภายในแอตทริบิวต์บางอย่างที่คุณอาจต้องซ่อนหรือลบออกทั้งหมด ซึ่งจะทำให้ ชุดข้อมูลสำหรับการเรียนรู้ของเครื่อง มีความหมายมากขึ้น

สุ่มตัวอย่าง

คุณอาจรวบรวมข้อมูลได้มากกว่าที่คุณต้องการสำหรับโครงการจริงๆ ชุดข้อมูลขนาดใหญ่ใช้พื้นที่หน่วยความจำมาก นอกจากนี้ยังทำให้รันไทม์นานขึ้นและคำนวณได้มากขึ้นเมื่อป้อนอัลกอริธึมการเรียนรู้ของเครื่อง เพื่อหลีกเลี่ยงปัญหาเหล่านี้ คุณต้องสร้างตัวอย่างข้อมูลที่เลือกจำนวนน้อยลงซึ่งแบบจำลองของคุณสามารถใช้ได้ง่าย กระบวนการนี้เรียกว่า การ สุ่มตัวอย่าง

วิศวกรรมคุณลักษณะ

ในที่นี้ ชุดข้อมูลจะได้รับการวิเคราะห์เพื่อกำหนดคุณลักษณะและรูปแบบที่ดีที่สุดที่จะช่วยในการแก้ปัญหาและคาดการณ์ ดังนั้น ในกระบวนการนี้ ข้อมูลบางส่วนอาจถูกลบออกจากชุดข้อมูลขนาดใหญ่ เน้นที่คุณสมบัติที่สำคัญที่สุดที่เหมาะสมกับรุ่น

ข้อมูลสามารถแบ่งออกเป็นส่วนเล็กๆ เพื่อระบุคุณลักษณะที่สำคัญ ตัวอย่างเช่น ข้อมูลการขายของปีหนึ่งๆ สามารถแบ่งออกเป็นเดือนและวันในสัปดาห์ วิธีนี้ทำให้การวิเคราะห์ประสิทธิภาพการขายทำได้ง่ายและรวดเร็วขึ้น นอกจากนี้ยังช่วยให้อัลกอริทึมการเรียนรู้ของเครื่องคำนวณได้เร็วขึ้น

การแยกข้อมูล

ตอนนี้ข้อมูลต้องแบ่งออกเป็นสามชุด – การฝึกอบรม การทดสอบ และการตรวจสอบ คุณต้องแบ่งออกเป็น 70%, 20% และ 10% ตามลำดับสำหรับชุด สำหรับการทดสอบที่เหมาะสม ตรวจสอบให้แน่ใจว่าคุณเลือกเฉพาะชุดย่อยของข้อมูลที่ไม่ทับซ้อนกัน การแยกชุดข้อมูลอย่างเหมาะสมเพื่อให้โมเดลการเรียนรู้ของเครื่องเข้าถึงเอาต์พุตที่ต้องการได้เร็วขึ้น คุณสามารถปรับแต่งโมเดลข้อมูลได้ในภายหลัง

ตอนนี้คุณได้เรียนรู้วิธีดูแลจัดการชุดข้อมูลสำหรับอัลกอริธึมการเรียนรู้ของเครื่องแล้ว แต่ถ้าคุณมีโครงการที่กำลังจะเกิดขึ้นและไม่มีเวลาสร้างชุดข้อมูลของคุณเองล่ะ ต้องขอบคุณอินเทอร์เน็ต ทำให้มีชุดข้อมูลพร้อมใช้งานมากมายให้คุณเลือก

ชุดข้อมูลการเรียนรู้ของเครื่องออนไลน์

ต่อไปนี้คือ ชุดข้อมูล ที่มีประโยชน์ที่สุด สำหรับการเรียนรู้ของเครื่อง บนเว็บ:

  • ชุดข้อมูลที่อยู่อาศัยของบอสตัน

ตัวเลือกยอดนิยมในบรรดา ชุดข้อมูลสำหรับการเรียนรู้ ของ เครื่อง ใช้สำหรับจดจำรูปแบบ ประกอบด้วยข้อมูลเกี่ยวกับบ้านต่างๆ ในบอสตัน รวมทั้งข้อมูลต่างๆ เช่น จำนวนห้อง อัตราภาษี และอัตราการเกิดอาชญากรรมในพื้นที่ ประกอบด้วย 506 แถวและ 14 ตัวแปรในคอลัมน์ข้อมูล ชุดข้อมูลนี้เหมาะสำหรับการทำนายราคาบ้าน

  • ชุดข้อมูลพาร์กินสัน

ชุดข้อมูลนี้ประกอบด้วยบันทึกผู้ป่วย 195 รายการ พร้อมด้วยคุณลักษณะต่างๆ 23 รายการที่มีการวัดทางชีวการแพทย์ คุณสามารถใช้ชุดข้อมูลเพื่อแยกผู้ป่วยที่มีสุขภาพดีออกจากผู้ป่วยโรคพาร์กินสันได้

  • IMDB

ชุดข้อมูลประกอบด้วยบทวิจารณ์ภาพยนตร์ 25,000 เรื่อง ใช้สำหรับการจัดหมวดหมู่ความเชื่อมั่นแบบไบนารี

  • MIMIC-III

นี่เป็นชุดข้อมูลที่เปิดเผยซึ่งสร้างโดย MIT Lab for Computational Physiology ประกอบด้วยข้อมูลสุขภาพของผู้ป่วยวิกฤตประมาณ 40,000 ราย ข้อมูลต่างๆ เช่น ยา การทดสอบในห้องปฏิบัติการ สัญญาณชีพ และข้อมูลประชากรรวมอยู่ที่นี่

  • Berkeley DeepDrive BDD100k

ปัจจุบัน Berkeley DeepDrive BDD100k เป็นชุดข้อมูลที่ใหญ่ที่สุดที่ใช้สำหรับการพัฒนาโปรแกรมการเรียนรู้ของเครื่องสำหรับรถยนต์ที่ขับเคลื่อนด้วยตนเอง มีวิดีโอมากกว่า 100,000 วิดีโอที่ขับในช่วงเวลาต่างๆ ของวันในสภาพอากาศที่แตกต่างกัน ข้อมูลนี้อิงตามเมืองต่างๆ ในนิวยอร์กและซานฟรานซิสโก

  • ชุดข้อมูลรถกระบะ Uber

ชุดข้อมูลนี้มีข้อมูลเกี่ยวกับการรับลูกค้า Uber ตั้งแต่เดือนเมษายนถึงกันยายน 2014 ในนิวยอร์ก มีข้อมูลลูกค้าประเภทนี้ประมาณ 4.5 ล้านข้อมูล และอีก 14 ล้านข้อมูลตั้งแต่เดือนมกราคมถึงมิถุนายน 2558 คุณสามารถวิเคราะห์ข้อมูลโดยใช้ชุดข้อมูลนี้เพื่อรวบรวมข้อมูลเพิ่มเติมเกี่ยวกับลูกค้า ซึ่งจะช่วยให้บริษัทต่างๆ สามารถปรับปรุงธุรกิจของตนได้อย่างมาก

  • ชุดข้อมูลลูกค้าห้างสรรพสินค้า

ข้อมูลนี้มีข้อมูลเกี่ยวกับผู้ที่มาเยี่ยมชมห้างสรรพสินค้า ชุดข้อมูลประกอบด้วยรายละเอียดต่างๆ เช่น เพศ อายุ รหัสลูกค้า คะแนนการใช้จ่าย และอื่นๆ อีกมากมาย นี้จะมีประโยชน์มากในตลาดเป้าหมาย จากข้อมูล เช่น อายุและคะแนนการใช้จ่าย ธุรกิจสามารถแบ่งกลุ่มลูกค้าออกเป็นกลุ่มได้ พวกเขาสามารถสร้างประสบการณ์ลูกค้าที่ไม่เหมือนใครให้กับกลุ่มเหล่านี้

บทสรุป

เช่นเดียวกับคำและวลีที่เหมาะสมที่ทำให้บทกวีอยู่กับคุณเป็นเวลานาน ชุดข้อมูลที่ถูกต้องเป็นสิ่งจำเป็นสำหรับโครงการที่ประสบความสำเร็จ นี่คือเหตุผลที่บริษัทที่ดีที่สุดหลายแห่งรับสมัครวิศวกรข้อมูลสำหรับภารกิจในการสร้างชุดข้อมูลที่ดีที่สุดสำหรับระบบการเรียนรู้ของเครื่องโดยเฉพาะ ดังนั้น ใช้เวลาของคุณในขณะที่เตรียม ชุดข้อมูลสำหรับการเรียนรู้ ของ เครื่อง

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

ชุดข้อมูลสำหรับการเรียนรู้ของเครื่องคืออะไร

ข้อมูลเป็นองค์ประกอบที่สำคัญที่สุดสำหรับการเรียนรู้ของเครื่อง ชุดข้อมูลคือชุดข้อมูลที่ใช้สำหรับการเรียนรู้ โดยปกติชุดข้อมูลจะมาจากแหล่งข้อมูลที่แตกต่างจากข้อมูลการฝึก ข้อมูลนี้ใช้เพื่อประเมินว่าแบบจำลองทำงานได้ดีเพียงใด ตัวอย่างเช่น ในการฝึกตัวแยกประเภทรูปภาพ คุณจะต้องใช้รูปภาพจากคอลเล็กชัน ImageNet เป็นที่น่าสังเกตว่ารูปภาพอาจมีอยู่ในทั้งชุดข้อมูลการฝึกอบรมและการทดสอบ แต่ต้องอยู่ในหมวดหมู่ที่แตกต่างกัน การใช้ชุดข้อมูลที่เป็นที่นิยมอีกอย่างหนึ่งคือการฝึกอัลกอริธึมการรู้จำภาพ ในการฝึกอัลกอริทึม คุณจะต้องมีรูปแมวหนึ่งหมื่นรูปและรูปสุนัขหนึ่งหมื่นรูป ImageNet เป็นหนึ่งในชุดข้อมูลที่ใช้กันอย่างแพร่หลายในอุตสาหกรรม

ชุดข้อมูลการตรวจสอบความถูกต้องในการเรียนรู้ของเครื่องคืออะไร

ในการเรียนรู้ของเครื่องภายใต้การดูแล เรามีชุดข้อมูลการฝึกอบรม ซึ่งประกอบด้วยตัวอย่างอินพุตและเอาต์พุตที่ต้องการ ชุดข้อมูลการตรวจสอบความถูกต้องเป็นชุดข้อมูลที่สอง ซึ่งไม่มีการฝึกพารามิเตอร์โมเดล/โมเดล พารามิเตอร์โมเดล/โมเดลถูกประเมินในชุดข้อมูลการฝึกอบรม ชุดข้อมูลการตรวจสอบความถูกต้องใช้เพื่อประเมินความถูกต้องที่คาดหวังของแบบจำลองการเรียนรู้ภายใต้การดูแลบนตัวอย่างที่มองไม่เห็น เช่น ตัวอย่างทดสอบ ชุดข้อมูลการตรวจสอบความถูกต้องใช้เพื่อวัดหรือประเมินข้อผิดพลาดทั่วไปของโมเดลการเรียนรู้ภายใต้การดูแล

ชุดข้อมูลยอดนิยมใดบ้างที่ใช้ในการเรียนรู้ของเครื่อง

มีชุดข้อมูลหลายชุดที่เราสามารถใช้เพื่อให้การเรียนรู้ของเครื่องดีขึ้น ข้อมูลบางส่วน ได้แก่ รายได้ครัวเรือนและข้อมูลการสำรวจประชากร การสำรวจสำมะโนประชากรของเจ้าของธุรกิจในสหรัฐฯ ราคาตลาดหุ้น อายุและเพศของพลเมืองสหรัฐฯ การใช้พลังงานของรัฐในสหรัฐฯ เปอร์เซ็นต์ของบ้านที่ซื้อ ขายและเช่า แฮชแท็ก Twitter, Facebook ไลค์และกิจกรรมอื่น ๆ ของผู้คนบน Facebook, ชุดข้อมูล ImageNet Large Scale Visual Recognition Challenge (ILSVRC), ปริมาณการจัดส่งรายเดือนจากพอร์ตหลักในสหรัฐอเมริกา ฯลฯ มีชุดข้อมูลอีกมากมายที่เราสามารถใช้สำหรับการเรียนรู้ของเครื่อง