ชุดข้อมูลที่ดีที่สุดสำหรับโปรเจ็กต์แมชชีนเลิร์นนิง: ทั้งหมดที่คุณต้องรู้
เผยแพร่แล้ว: 2020-03-20สารบัญ
บทนำ
แมชชีนเลิ ร์นนิง เป็นหนึ่งในเทคโนโลยีที่ทรงพลังที่สุดในปัจจุบัน เป็นสาขาที่สำคัญมากของปัญญาประดิษฐ์ที่ใช้ในการทำให้คอมพิวเตอร์ฉลาดขึ้น - ทำให้พวกเขาสามารถเรียนรู้ได้โดยไม่ต้องมีการแทรกแซงของมนุษย์ ทำให้แมชชีนเลิร์นนิงเป็นเครื่องมือสำคัญในการจัดการข้อมูล เนื่องจากมีการใช้ข้อมูลอย่างแท้จริงในทุกๆ ที่ ตั้งแต่การตัดสินใจทางธุรกิจไปจนถึงการจัดการประสบการณ์ของลูกค้า แมชชีนเลิร์นนิงช่วยให้ระบุรูปแบบที่ซ่อนอยู่ภายในชุดข้อมูลขนาดใหญ่เหล่านี้ได้ง่ายขึ้น
สิ่งสำคัญที่สุดคือ ชุดข้อมูลเหล่านี้เป็นวิธีจัดระเบียบข้อมูลดิบจำนวนมาก การใช้ชุดข้อมูลเหล่านี้ โปรแกรมต่างๆ ถูกเขียนขึ้นเพื่อสร้างแอปพลิเคชันที่ทำให้การดำเนินธุรกิจง่ายขึ้น ในบทความนี้ เราเรียนรู้เกี่ยวกับ ชุดข้อมูลต่างๆ สำหรับการเรียนรู้ ของ เครื่อง
แต่ก่อนจะพูดถึงเรื่องนี้ เรามาทำความเข้าใจพื้นฐานของการเรียนรู้ของเครื่องก่อน
แมชชีนเลิร์นนิงคืออะไร?
แมชชีนเลิร์นนิงมีหน้าที่ในการขับเคลื่อนแพลตฟอร์มที่คุณชื่นชอบ เช่น Netflix, Facebook, Twitter, YouTube, Spotify, Google และ Baidu แม้แต่ผู้ช่วยเสียงเช่น Alexa และ Siri ก็ยังเลือกเพลงโปรดของคุณเพื่อใช้การเรียนรู้ของเครื่อง! แพลตฟอร์มทั้งหมดเหล่านี้พยายามใช้ข้อมูลที่เกี่ยวข้องกับคุณ ซึ่งรวมถึงการค้นหา การคลิก มุมมอง รูปภาพที่คุณแชร์ ความคิดเห็น การโต้ตอบ และโพสต์ เรียนรู้เพิ่มเติมเกี่ยวกับแอปพลิเคชันการเรียนรู้ของเครื่องยอดนิยม
แมชชีนเลิร์นนิงใช้ประโยชน์จากข้อมูลนี้เพื่อรับแนวคิดเกี่ยวกับการตั้งค่าของคุณ ตัวอย่างเช่น Netflix ใช้เพื่อแนะนำซีรีส์ทางทีวีที่คุณอาจชอบดูโดยอิงจากซีรีส์ที่คุณเคยดู แม้แต่แพลตฟอร์มอย่าง Amazon ก็ใช้การเรียนรู้ของเครื่องเพื่อแนะนำผลิตภัณฑ์ของคุณ โดยอิงจากประวัติการซื้อก่อนหน้าของคุณ
ส่วนที่โดดเด่นที่สุดของตลาดแมชชีนเลิร์นนิงคือการเรียนรู้เชิงลึกที่อาจสูงถึง 1 พันล้านภายในปี 2568

ดูน่าสนใจ? ให้เราเข้าไปในเรื่องทางเทคนิคของเรื่อง
หมวดหมู่ของการเรียนรู้ของเครื่อง
แมชชีนเลิร์นนิงแบ่งออกเป็นสามแบบกว้างๆ ได้แก่ การเรียนรู้แบบมี ผู้ดูแล การเรียนรู้แบบไม่อยู่ภายใต้การดูแล และการเรียนรู้แบบเสริม กำลัง
การเรียนรู้ภายใต้การดูแล
ในกระบวนการนี้ คอมพิวเตอร์จะเรียนรู้จากชุดข้อมูลที่เรียกว่า ข้อมูลการฝึก อบรม จะใช้การตัดสินใจและคาดการณ์ผลลัพธ์ในอนาคตตามสิ่งนี้ คุณจะได้เรียนรู้เกี่ยวกับ ชุดข้อมูลการฝึกอบรมสำหรับการเรียนรู้ของเครื่อง ในภายหลัง ที่นี่ ระบบจะป้อนคู่อินพุต-เอาต์พุต และในขณะที่ทำงานกับคู่เหล่านี้ ระบบจะเรียนรู้วิธีจับคู่คู่เหล่านี้ มันเหมือนกับการมีคำถามชุดหนึ่งที่มีคำตอบที่ถูกต้องติดแท็กไว้
เมื่อระบบหรืออัลกอริธึมเรียนรู้ความสัมพันธ์ระหว่างคู่อินพุต-เอาท์พุต มันสามารถทำนายเอาต์พุตได้เมื่อมีการป้อนอินพุตใหม่ เรียนรู้เพิ่มเติมเกี่ยวกับประเภทของการเรียนรู้ภายใต้การดูแล
การเรียนรู้แบบไม่มีผู้ดูแล
ที่นี่ คอมพิวเตอร์จะตรวจสอบชุดข้อมูลเพื่อระบุรูปแบบที่ซ่อนอยู่โดยไม่ต้องให้ความช่วยเหลือใดๆ มันทำงานที่ซับซ้อนและค้นพบผลลัพธ์ด้วยตัวมันเอง เรียนรู้เพิ่มเติมเกี่ยวกับการเรียนรู้แบบไม่มีผู้ดูแล
การเรียนรู้การเสริมแรง
กระบวนการเรียนรู้ของเครื่องนี้ใช้วิธีการทดลองและข้อผิดพลาดในการพิจารณาวิธีแก้ไขปัญหา ดังนั้นผลลัพธ์ของโปรแกรมจะขึ้นอยู่กับอินพุตปัจจุบันที่ให้ไว้
เมื่อคุณมีความเข้าใจพื้นฐานเกี่ยวกับแมชชีนเลิร์นนิงแล้ว มาต่อที่ชุดข้อมูลกัน
ชุดข้อมูลสำหรับการเรียนรู้ของเครื่องคืออะไร
ชุดข้อมูลตามชื่อคือ ชุด ของ ข้อมูล อาจเป็นข้อมูลของฐานข้อมูลเดียว โดยใช้ตัวแปรเพื่อแสดงคอลัมน์ แถวของตารางนี้อาจแสดงโดยสมาชิกของชุดข้อมูลเฉพาะนี้
การเตรียม ชุดข้อมูลสำหรับแมชชีนเลิ ร์นนิง เป็นสิ่งสำคัญ เนื่องจากอัลกอริธึมทำงานไม่ถูกต้องกับข้อมูลดิบหรือข้อมูลที่ไม่มีโครงสร้าง จำเป็นต้องมีชุดข้อมูลที่เหมาะสมในการแก้ปัญหาและตัดสินใจ ตัวอย่างเช่น แอปพลิเคชันสภาพอากาศอาจไม่มีชุดข้อมูลที่เหมาะสมซึ่งมีข้อมูลสภาพอากาศในช่วงสองสามวันหรือสัปดาห์ที่ผ่านมา ดังนั้นจึงไม่สามารถแสดงการพยากรณ์อากาศที่แม่นยำสำหรับสัปดาห์หน้าได้
ดังนั้น หากไม่มี ชุดข้อมูลที่เหมาะสมสำหรับแมชชีนเลิ ร์น นิง โปรเจ็ กต์แมชชีนเลิร์นนิง จะไม่ประสบความสำเร็จแม้แต่กับนักวิทยาศาสตร์ข้อมูลที่ได้รับการฝึกอบรม
ชุดข้อมูลสำหรับแมชชีนเลิ ร์นนิง ใช้สำหรับสร้าง แบบจำลองแมชชีนเลิ ร์น นิง โมเดลเหล่านี้แสดงถึงปัญหาในโลกแห่งความเป็นจริงโดยใช้นิพจน์ทางคณิตศาสตร์ ในการสร้างแบบจำลองดังกล่าว คุณต้องจัดเตรียมชุดข้อมูลเพื่อเรียนรู้และทำงาน
ประเภทของชุดข้อมูลที่ใช้ในการเรียนรู้ของเครื่องมีดังนี้:
1. ชุดข้อมูลการฝึก
นี่อาจเป็น ชุดข้อมูล ที่สำคัญที่สุด สำหรับการเรียนรู้ของเครื่อง มันถูกป้อนเข้าสู่อัลกอริธึมการเรียนรู้ของเครื่องเพื่อสร้างแบบจำลอง อัลกอริทึมจะค้นหารูปแบบข้อมูลเพื่อระบุตัวแปรอินพุต ซึ่งจะช่วยให้บรรลุเป้าหมายสูงสุดหรือผลลัพธ์ที่ต้องการ ผลลัพธ์ของชุดข้อมูลนี้คือโมเดลการเรียนรู้ของเครื่องที่คุณสามารถใช้เพื่อทำนายผลลัพธ์
ประมาณ 60% ของชุดข้อมูลถูกใช้โดยชุดข้อมูลการฝึกอบรม
2. ชุดข้อมูลการตรวจสอบ
ชุดข้อมูลการตรวจสอบความถูกต้องจะใช้ในขั้นตอนการตรวจสอบ ขณะสร้างโปรเจ็กต์แมชชีนเลิร์นนิง ขั้นตอนนี้จะเกิดขึ้นทันทีหลังการฝึก ชุดข้อมูลนี้มีความสำคัญสำหรับการประเมินโมเดลแมชชีนเลิร์นนิง วิศวกรแมชชีนเลิร์นนิงใช้ชุดนี้เพื่อปรับแต่งและปรับ ไฮเปอร์พารามิเตอร์ ของโมเดล ไฮเปอร์พารามิเตอร์เหล่านี้เป็นพารามิเตอร์ที่มีการตั้งค่าไว้ก่อนที่โปรแกรมจะเริ่มเรียนรู้
ไม่สามารถประมาณค่าจากข้อมูลได้ ตัวอย่างเช่น ไฮเปอร์พารามิเตอร์อาจรวมความลึกของต้นไม้หรือเลเยอร์ที่ตรวจไม่พบจำนวนหนึ่งในโครงข่ายประสาทเทียม
Max Kuhn และ Kjell Johnson นักเขียนชื่อดัง กล่าวว่า “โมเดลข้อมูลต้องได้รับการประเมินโดยใช้ตัวอย่างที่ไม่ได้ใช้สำหรับการสร้างหรือปรับแต่ง ซึ่งจะทำให้คุณได้รับผลลัพธ์ที่เป็นกลางของประสิทธิภาพของแบบจำลอง เมื่อทำงานกับข้อมูลจำนวนมาก วิธีที่ดีที่สุดคือให้เก็บตัวอย่างข้อมูลไว้เพื่อประเมินผล ชุดฝึกอบรมคือตัวอย่างที่ใช้สำหรับสร้างแบบจำลอง ในขณะที่ตัวอย่างการตรวจสอบและการทดสอบจะใช้สำหรับการวิเคราะห์ประสิทธิภาพ”
3. ทดสอบชุดข้อมูล
ชุดข้อมูล ทดสอบ สำหรับแมชชีนเลิ ร์นนิง ใช้เพื่อทำความเข้าใจว่าโมเดลแมชชีนเลิร์นนิงจะทำงานอย่างไรในอนาคต เมื่อใช้ชุดข้อมูลนี้ คุณจะสามารถเข้าใจได้ว่าแบบจำลองข้อมูลของคุณมีความแม่นยำเพียงใด พูดง่ายๆ คือ ชุดข้อมูลนี้จะบอกคุณว่าแบบจำลองข้อมูลของคุณได้เรียนรู้จากชุดการฝึกมากน้อยเพียงใด
ชุดเหล่านี้ใช้ข้อมูล 20% ชุดจะประกอบด้วยตัวแปรอินพุตพร้อมกับผลลัพธ์ที่ตรวจสอบแล้ว อย่างไรก็ตาม ใน โครงการการเรียนรู้ของเครื่อง โดยทั่วไปเราจะไม่ใช้ชุดข้อมูลการฝึกอบรมในขั้นตอนการทดสอบ เนื่องจากอัลกอริธึมจะรับรู้ถึงผลลัพธ์ที่คาดหวัง ตามที่ได้เรียนรู้จากชุดข้อมูลนี้ก่อนหน้านี้
หลังจากขั้นตอนการทดสอบ ปกติแล้วแบบจำลองข้อมูลจะไม่ถูกปรับอีกต่อไป เนื่องจากการปรับเพิ่มเติมอาจนำไปสู่การ ใส่ มาก เกินไป Overfitting เกิดขึ้นเมื่อโมเดลข้อมูลได้รับการฝึกอบรมด้วยข้อมูลมากเกินไป ในกรณีนี้ โมเดลจะเริ่มเรียนรู้จากการป้อนข้อมูลที่ไม่ถูกต้องในชุดข้อมูลที่กำหนด เป็นผลให้ทำงานไม่ถูกต้องกับชุดข้อมูลใหม่ มันเหมือนกับการพยายามใส่ยีนส์โอเวอร์ไซส์เมื่อคุณทำไม่ได้!
แต่เพื่อให้โมเดลแมชชีนเลิร์นนิงทำงานได้สำเร็จ คุณต้องจัดเตรียมชุดข้อมูลที่ดี หากไม่มี ชุดข้อมูลสำหรับการเรียนรู้ของเครื่อง อัลกอริทึมจะไม่สามารถเรียนรู้และแก้ปัญหาได้ ตัวอย่างเช่น เมื่อคุณไม่มีหนังสือและทรัพยากรที่เหมาะสม คุณจะไม่สามารถทำแบบทดสอบที่ต้องการได้

การเตรียมชุดข้อมูลสำหรับแมชชีนเลิร์นนิง
มาดูขั้นตอนที่จำเป็นในการสร้าง ชุดข้อมูลสำหรับแมชชีนเลิ ร์นนิง กัน
การเก็บรวบรวมข้อมูล
ขั้นตอนแรกคือการรวบรวมข้อมูลที่เกี่ยวข้องทั้งหมดที่คุณต้องการสำหรับโมเดลการเรียนรู้ของเครื่อง ปริมาณข้อมูลจะขึ้นอยู่กับ ความซับซ้อนของโครงงานการเรียนรู้ของ เครื่อง โครงการที่เรียบง่ายจะต้องการข้อมูลน้อยกว่าโครงการที่ซับซ้อน ดังนั้น คุณต้องกำหนดทุกสิ่งที่จำเป็นจริง ๆ เพื่อแก้ปัญหาในมือ
สามารถเก็บรวบรวมข้อมูลได้ง่ายๆ โดยตอบคำถามต่อไปนี้
- คุณมีข้อมูลประเภทใดสำหรับโครงการนี้
- ไม่มีข้อมูลใดที่คุณต้องการสำหรับโครงการ – ซึ่งอาจรวมถึงฐานข้อมูลหรือข้อมูลที่จัดเก็บไว้ในระบบคลาวด์ คุณอาจต้องได้รับข้อมูลนี้
- คุณสามารถลบข้อมูลใดออกจากข้อมูลที่มีอยู่ได้ นี่หมายถึงการล้างข้อมูลที่ไม่ต้องการซึ่งไม่เกี่ยวข้องกับโครงการของคุณ
เมื่อคุณได้คำตอบสำหรับคำถามเหล่านี้แล้ว คุณสามารถเริ่มรวบรวมข้อมูลจากแหล่งต่างๆ ได้ ไฟล์เหล่านี้อาจเป็นไฟล์ข้อความ ไฟล์ .csv ดูโครงสร้างข้อมูลที่ซ้อนกันในไฟล์ JSON และ XML และที่เก็บข้อมูล
ตอนนี้คุณสามารถไปยังขั้นตอนถัดไปในการสร้าง ชุดข้อมูลสำหรับการเรียนรู้ ของ เครื่อง
การประมวลผลข้อมูลล่วงหน้า
เมื่อคุณมีข้อมูลทั้งหมดที่ต้องการแล้ว คุณต้องดำเนินการกับแบบจำลองของคุณอย่างเหมาะสม วิธีการประมวลผลล่วงหน้าคือการแปลงชุดข้อมูลดิบเป็นชุดที่มีความหมายซึ่งใช้งานได้ กระบวนการประกอบด้วยสามขั้นตอนด้านล่าง:
การจัดรูปแบบ
ข้อมูลดิบที่คุณรวบรวมมาจำนวนมากไม่อยู่ในรูปแบบที่เหมาะสมกับโมเดลการเรียนรู้ของเครื่อง อาจอยู่ในไฟล์ JSON หรือฐานข้อมูลเชิงสัมพันธ์ คุณต้องแปลงข้อมูลนี้เป็นไฟล์ข้อความหรือไฟล์ .csv ตามความสะดวกของคุณ
ทำความสะอาด
นี่คือกระบวนการที่คุณแก้ไขและลบข้อมูลที่ขาดหายไปและไม่ต้องการออกจากชุดข้อมูลของคุณ อินสแตนซ์ของข้อมูลเหล่านี้อาจไม่ช่วยแก้ปัญหาได้ นอกจากนี้ อาจมีข้อมูลที่ละเอียดอ่อนภายในแอตทริบิวต์บางอย่างที่คุณอาจต้องซ่อนหรือลบออกทั้งหมด ซึ่งจะทำให้ ชุดข้อมูลสำหรับการเรียนรู้ของเครื่อง มีความหมายมากขึ้น
สุ่มตัวอย่าง
คุณอาจรวบรวมข้อมูลได้มากกว่าที่คุณต้องการสำหรับโครงการจริงๆ ชุดข้อมูลขนาดใหญ่ใช้พื้นที่หน่วยความจำมาก นอกจากนี้ยังทำให้รันไทม์นานขึ้นและคำนวณได้มากขึ้นเมื่อป้อนอัลกอริธึมการเรียนรู้ของเครื่อง เพื่อหลีกเลี่ยงปัญหาเหล่านี้ คุณต้องสร้างตัวอย่างข้อมูลที่เลือกจำนวนน้อยลงซึ่งแบบจำลองของคุณสามารถใช้ได้ง่าย กระบวนการนี้เรียกว่า การ สุ่มตัวอย่าง
วิศวกรรมคุณลักษณะ
ในที่นี้ ชุดข้อมูลจะได้รับการวิเคราะห์เพื่อกำหนดคุณลักษณะและรูปแบบที่ดีที่สุดที่จะช่วยในการแก้ปัญหาและคาดการณ์ ดังนั้น ในกระบวนการนี้ ข้อมูลบางส่วนอาจถูกลบออกจากชุดข้อมูลขนาดใหญ่ เน้นที่คุณสมบัติที่สำคัญที่สุดที่เหมาะสมกับรุ่น
ข้อมูลสามารถแบ่งออกเป็นส่วนเล็กๆ เพื่อระบุคุณลักษณะที่สำคัญ ตัวอย่างเช่น ข้อมูลการขายของปีหนึ่งๆ สามารถแบ่งออกเป็นเดือนและวันในสัปดาห์ วิธีนี้ทำให้การวิเคราะห์ประสิทธิภาพการขายทำได้ง่ายและรวดเร็วขึ้น นอกจากนี้ยังช่วยให้อัลกอริทึมการเรียนรู้ของเครื่องคำนวณได้เร็วขึ้น
การแยกข้อมูล
ตอนนี้ข้อมูลต้องแบ่งออกเป็นสามชุด – การฝึกอบรม การทดสอบ และการตรวจสอบ คุณต้องแบ่งออกเป็น 70%, 20% และ 10% ตามลำดับสำหรับชุด สำหรับการทดสอบที่เหมาะสม ตรวจสอบให้แน่ใจว่าคุณเลือกเฉพาะชุดย่อยของข้อมูลที่ไม่ทับซ้อนกัน การแยกชุดข้อมูลอย่างเหมาะสมเพื่อให้โมเดลการเรียนรู้ของเครื่องเข้าถึงเอาต์พุตที่ต้องการได้เร็วขึ้น คุณสามารถปรับแต่งโมเดลข้อมูลได้ในภายหลัง
ตอนนี้คุณได้เรียนรู้วิธีดูแลจัดการชุดข้อมูลสำหรับอัลกอริธึมการเรียนรู้ของเครื่องแล้ว แต่ถ้าคุณมีโครงการที่กำลังจะเกิดขึ้นและไม่มีเวลาสร้างชุดข้อมูลของคุณเองล่ะ ต้องขอบคุณอินเทอร์เน็ต ทำให้มีชุดข้อมูลพร้อมใช้งานมากมายให้คุณเลือก
ชุดข้อมูลการเรียนรู้ของเครื่องออนไลน์
ต่อไปนี้คือ ชุดข้อมูล ที่มีประโยชน์ที่สุด สำหรับการเรียนรู้ของเครื่อง บนเว็บ:
- ชุดข้อมูลที่อยู่อาศัยของบอสตัน
ตัวเลือกยอดนิยมในบรรดา ชุดข้อมูลสำหรับการเรียนรู้ ของ เครื่อง ใช้สำหรับจดจำรูปแบบ ประกอบด้วยข้อมูลเกี่ยวกับบ้านต่างๆ ในบอสตัน รวมทั้งข้อมูลต่างๆ เช่น จำนวนห้อง อัตราภาษี และอัตราการเกิดอาชญากรรมในพื้นที่ ประกอบด้วย 506 แถวและ 14 ตัวแปรในคอลัมน์ข้อมูล ชุดข้อมูลนี้เหมาะสำหรับการทำนายราคาบ้าน
- ชุดข้อมูลพาร์กินสัน
ชุดข้อมูลนี้ประกอบด้วยบันทึกผู้ป่วย 195 รายการ พร้อมด้วยคุณลักษณะต่างๆ 23 รายการที่มีการวัดทางชีวการแพทย์ คุณสามารถใช้ชุดข้อมูลเพื่อแยกผู้ป่วยที่มีสุขภาพดีออกจากผู้ป่วยโรคพาร์กินสันได้
- IMDB
ชุดข้อมูลประกอบด้วยบทวิจารณ์ภาพยนตร์ 25,000 เรื่อง ใช้สำหรับการจัดหมวดหมู่ความเชื่อมั่นแบบไบนารี
- MIMIC-III
นี่เป็นชุดข้อมูลที่เปิดเผยซึ่งสร้างโดย MIT Lab for Computational Physiology ประกอบด้วยข้อมูลสุขภาพของผู้ป่วยวิกฤตประมาณ 40,000 ราย ข้อมูลต่างๆ เช่น ยา การทดสอบในห้องปฏิบัติการ สัญญาณชีพ และข้อมูลประชากรรวมอยู่ที่นี่

- Berkeley DeepDrive BDD100k
ปัจจุบัน Berkeley DeepDrive BDD100k เป็นชุดข้อมูลที่ใหญ่ที่สุดที่ใช้สำหรับการพัฒนาโปรแกรมการเรียนรู้ของเครื่องสำหรับรถยนต์ที่ขับเคลื่อนด้วยตนเอง มีวิดีโอมากกว่า 100,000 วิดีโอที่ขับในช่วงเวลาต่างๆ ของวันในสภาพอากาศที่แตกต่างกัน ข้อมูลนี้อิงตามเมืองต่างๆ ในนิวยอร์กและซานฟรานซิสโก
- ชุดข้อมูลรถกระบะ Uber
ชุดข้อมูลนี้มีข้อมูลเกี่ยวกับการรับลูกค้า Uber ตั้งแต่เดือนเมษายนถึงกันยายน 2014 ในนิวยอร์ก มีข้อมูลลูกค้าประเภทนี้ประมาณ 4.5 ล้านข้อมูล และอีก 14 ล้านข้อมูลตั้งแต่เดือนมกราคมถึงมิถุนายน 2558 คุณสามารถวิเคราะห์ข้อมูลโดยใช้ชุดข้อมูลนี้เพื่อรวบรวมข้อมูลเพิ่มเติมเกี่ยวกับลูกค้า ซึ่งจะช่วยให้บริษัทต่างๆ สามารถปรับปรุงธุรกิจของตนได้อย่างมาก
- ชุดข้อมูลลูกค้าห้างสรรพสินค้า
ข้อมูลนี้มีข้อมูลเกี่ยวกับผู้ที่มาเยี่ยมชมห้างสรรพสินค้า ชุดข้อมูลประกอบด้วยรายละเอียดต่างๆ เช่น เพศ อายุ รหัสลูกค้า คะแนนการใช้จ่าย และอื่นๆ อีกมากมาย นี้จะมีประโยชน์มากในตลาดเป้าหมาย จากข้อมูล เช่น อายุและคะแนนการใช้จ่าย ธุรกิจสามารถแบ่งกลุ่มลูกค้าออกเป็นกลุ่มได้ พวกเขาสามารถสร้างประสบการณ์ลูกค้าที่ไม่เหมือนใครให้กับกลุ่มเหล่านี้
บทสรุป
เช่นเดียวกับคำและวลีที่เหมาะสมที่ทำให้บทกวีอยู่กับคุณเป็นเวลานาน ชุดข้อมูลที่ถูกต้องเป็นสิ่งจำเป็นสำหรับโครงการที่ประสบความสำเร็จ นี่คือเหตุผลที่บริษัทที่ดีที่สุดหลายแห่งรับสมัครวิศวกรข้อมูลสำหรับภารกิจในการสร้างชุดข้อมูลที่ดีที่สุดสำหรับระบบการเรียนรู้ของเครื่องโดยเฉพาะ ดังนั้น ใช้เวลาของคุณในขณะที่เตรียม ชุดข้อมูลสำหรับการเรียนรู้ ของ เครื่อง
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ
ชุดข้อมูลสำหรับการเรียนรู้ของเครื่องคืออะไร
ข้อมูลเป็นองค์ประกอบที่สำคัญที่สุดสำหรับการเรียนรู้ของเครื่อง ชุดข้อมูลคือชุดข้อมูลที่ใช้สำหรับการเรียนรู้ โดยปกติชุดข้อมูลจะมาจากแหล่งข้อมูลที่แตกต่างจากข้อมูลการฝึก ข้อมูลนี้ใช้เพื่อประเมินว่าแบบจำลองทำงานได้ดีเพียงใด ตัวอย่างเช่น ในการฝึกตัวแยกประเภทรูปภาพ คุณจะต้องใช้รูปภาพจากคอลเล็กชัน ImageNet เป็นที่น่าสังเกตว่ารูปภาพอาจมีอยู่ในทั้งชุดข้อมูลการฝึกอบรมและการทดสอบ แต่ต้องอยู่ในหมวดหมู่ที่แตกต่างกัน การใช้ชุดข้อมูลที่เป็นที่นิยมอีกอย่างหนึ่งคือการฝึกอัลกอริธึมการรู้จำภาพ ในการฝึกอัลกอริทึม คุณจะต้องมีรูปแมวหนึ่งหมื่นรูปและรูปสุนัขหนึ่งหมื่นรูป ImageNet เป็นหนึ่งในชุดข้อมูลที่ใช้กันอย่างแพร่หลายในอุตสาหกรรม
ชุดข้อมูลการตรวจสอบความถูกต้องในการเรียนรู้ของเครื่องคืออะไร
ในการเรียนรู้ของเครื่องภายใต้การดูแล เรามีชุดข้อมูลการฝึกอบรม ซึ่งประกอบด้วยตัวอย่างอินพุตและเอาต์พุตที่ต้องการ ชุดข้อมูลการตรวจสอบความถูกต้องเป็นชุดข้อมูลที่สอง ซึ่งไม่มีการฝึกพารามิเตอร์โมเดล/โมเดล พารามิเตอร์โมเดล/โมเดลถูกประเมินในชุดข้อมูลการฝึกอบรม ชุดข้อมูลการตรวจสอบความถูกต้องใช้เพื่อประเมินความถูกต้องที่คาดหวังของแบบจำลองการเรียนรู้ภายใต้การดูแลบนตัวอย่างที่มองไม่เห็น เช่น ตัวอย่างทดสอบ ชุดข้อมูลการตรวจสอบความถูกต้องใช้เพื่อวัดหรือประเมินข้อผิดพลาดทั่วไปของโมเดลการเรียนรู้ภายใต้การดูแล
ชุดข้อมูลยอดนิยมใดบ้างที่ใช้ในการเรียนรู้ของเครื่อง
มีชุดข้อมูลหลายชุดที่เราสามารถใช้เพื่อให้การเรียนรู้ของเครื่องดีขึ้น ข้อมูลบางส่วน ได้แก่ รายได้ครัวเรือนและข้อมูลการสำรวจประชากร การสำรวจสำมะโนประชากรของเจ้าของธุรกิจในสหรัฐฯ ราคาตลาดหุ้น อายุและเพศของพลเมืองสหรัฐฯ การใช้พลังงานของรัฐในสหรัฐฯ เปอร์เซ็นต์ของบ้านที่ซื้อ ขายและเช่า แฮชแท็ก Twitter, Facebook ไลค์และกิจกรรมอื่น ๆ ของผู้คนบน Facebook, ชุดข้อมูล ImageNet Large Scale Visual Recognition Challenge (ILSVRC), ปริมาณการจัดส่งรายเดือนจากพอร์ตหลักในสหรัฐอเมริกา ฯลฯ มีชุดข้อมูลอีกมากมายที่เราสามารถใช้สำหรับการเรียนรู้ของเครื่อง