แนวคิดโครงการชุดข้อมูลการเรียนรู้ของเครื่อง 10 อันดับแรกสำหรับผู้เริ่มต้น [2022]
เผยแพร่แล้ว: 2021-01-04การค้นหาชุดข้อมูลแมชชีนเลิร์นนิงเป็นสิ่งที่ยาก แต่ไม่จำเป็นต้องเป็นเช่นนั้น! ในบทความนี้ เราได้แชร์ชุดข้อมูลหลายชุดที่คุณสามารถใช้สำหรับโปรเจ็กต์แมชชีนเลิร์นนิง เรายังได้แบ่งปันรายละเอียดเกี่ยวกับสิ่งที่ชุดข้อมูลทุกชุดมีพร้อมกับลิงก์ไปยังชุดข้อมูลเหล่านั้น รายการของเราประกอบด้วยชุดข้อมูลของฟิลด์ต่าง ๆ และขนาดต่าง ๆ เพื่อให้คุณสามารถเลือกหนึ่งรายการตามความสนใจและความเชี่ยวชาญของคุณ
นอกจากนั้น เราได้แบ่งปันแนวคิดโครงการสำหรับชุดข้อมูลต่างๆ ด้วย เพื่อให้คุณสามารถเริ่มทำงานในโครงการได้ทันที การทำงานในโครงการจะช่วยคุณทดสอบความรู้เกี่ยวกับอัลกอริธึมการเรียนรู้ของเครื่อง มาเริ่มกันเลย:
สารบัญ
แนวคิดโครงการชุดข้อมูลการเรียนรู้ของเครื่อง
1. ชุดข้อมูลอีเมลของ Enron
ชุดข้อมูลนี้มีอีเมลประมาณ 5,00,000 ฉบับจากผู้ใช้มากกว่า 150 ราย อีเมลทั้งหมดเหล่านี้มาจากบริษัทที่ชื่อ Enron และอีเมลส่วนใหญ่ที่อยู่ในชุดข้อมูลนี้มาจากทีมผู้บริหารระดับสูงของบริษัท หากคุณต้องการทำงานในโครงการประมวลผลภาษาธรรมชาติ คุณควรเริ่มต้นที่นี่
ชุดข้อมูลอีเมลของ Enron ได้รับความนิยมอย่างกว้างขวางสำหรับโครงการ NLP และคุณจะได้เรียนรู้มากมายจากสิ่งนี้ คุณสามารถสร้างแบบจำลองการจัดกลุ่ม K-mean และใช้เพื่อระบุกิจกรรมที่เป็นการฉ้อโกงผ่านข้อความในอีเมล K-means clustering เป็นอัลกอริธึม ML ที่ไม่มีการควบคุม และแยกรายการออกเป็นจำนวน k ของคลัสเตอร์ตามความคล้ายคลึงกัน
ลิงก์ไปยังชุดข้อมูล
2. ชุดข้อมูลรูปภาพของ Flickr
Flickr เป็นบริการโฮสต์รูปภาพที่มีผู้ใช้หลายล้านคนทั่วโลก ชุดข้อมูลนี้มีรูปภาพ 30,000 ภาพพร้อมคำอธิบายภาพที่แตกต่างกัน คุณสามารถใช้ชุดข้อมูลนี้เพื่อสร้างตัวสร้างคำบรรยายสำหรับรูปภาพ ชุดข้อมูลนี้ค่อนข้างมีชื่อเสียงในด้านการวิเคราะห์รูปภาพและคำอธิบายรูปภาพผ่านข้อความ

คุณสามารถสร้างโมเดล CNN (Convolutional Neural Network) ที่วิเคราะห์รูปภาพและสร้างคำบรรยายตามคุณสมบัติที่ระบุในรูปภาพหนึ่งๆ คุณสามารถฝึกโมเดลผ่านคำอธิบายภาพนับพันที่มีอยู่ในชุดข้อมูล การสร้างตัวสร้างคำบรรยายจะทำให้คุณมีประสบการณ์มากมายในการเรียนรู้งานการวิเคราะห์ภาพและวิธีใช้งานในสถานการณ์จริง
ลิงก์ไปยังชุดข้อมูล
3. ชุดข้อมูล Iris (ระดับเริ่มต้น)
หากคุณไม่เคยทำงานในโครงการแมชชีนเลิร์นนิงมาก่อน คุณควรเริ่มที่นี่ ชุดข้อมูล Iris เป็นตัวเลือกยอดนิยมในหมู่นักเรียน ML เนื่องจากความเรียบง่ายและขนาด ประกอบด้วยข้อมูลเกี่ยวกับไอริส 3 สายพันธุ์ (ดอกไม้) เช่น กลีบเลี้ยงและขนาดกลีบ
อีกชื่อหนึ่งสำหรับชุดข้อมูลนี้คือชุดข้อมูลม่านตาของ Fisher เนื่องจากมีที่มา Ronald Fisher ได้ใช้ชุดข้อมูลนี้ในเอกสารของเขาในปี 1936
ชุดข้อมูล Iris มีสี่คอลัมน์ 150 แถว คุณสามารถสร้างแบบจำลองการจัดประเภทด้วยชุดข้อมูลนี้ โมเดลการจัดหมวดหมู่แยกรายการออกเป็นชั้นเรียนต่างๆ ตามคุณลักษณะ และการสร้างแบบจำลองจะช่วยให้คุณเรียนรู้ความแตกต่างระหว่างการเรียนรู้แบบไม่มีผู้ดูแลและการเรียนรู้แบบมีผู้ดูแลด้วย
ลิงก์ไปยังชุดข้อมูล
4. ชุดข้อมูลของพาร์กินสัน
ชุดข้อมูลของพาร์กินสันสามารถเข้าถึงได้ในหมู่นักเรียนที่ต้องการใช้การเรียนรู้ของเครื่องในด้านการแพทย์ เป็นหนึ่งในชุดข้อมูลที่ดีที่สุดสำหรับโครงการแมชชีนเลิร์นนิงของภาคการแพทย์ เนื่องจากมี 195 เคสพร้อม 23 คุณลักษณะ
โรคพาร์กินสันเป็นความผิดปกติของระบบประสาท และส่งผลต่อการเคลื่อนไหวขั้นพื้นฐาน การเคลื่อนไหวช้า เสียการทรงตัว และอาการเกร็งเป็นอาการที่โดดเด่นที่สุดบางส่วนของโรคนี้ คุณสามารถใช้ชุดข้อมูลนี้เพื่อสร้างแบบจำลองที่แยกผู้ป่วยออกจากคนที่มีสุขภาพดีโดยการวิเคราะห์อาการและคุณลักษณะเพื่อระบุว่าผู้ป่วยมีโรคพาร์กินสันหรือไม่
การใช้แมชชีนเลิร์นนิงในภาคการดูแลสุขภาพได้รับความนิยมมากขึ้นทุกวัน ดังนั้น หากคุณสนใจที่จะใช้ความเชี่ยวชาญด้านการเรียนรู้ของเครื่องในภาคส่วนนั้น คุณควรเริ่มที่นี่ คุณสามารถรับแรงบันดาลใจจาก แอปพลิเคชันการเรียนรู้ของเครื่องเหล่านี้ในด้านการดูแล สุขภาพ
ลิงก์ไปยังชุดข้อมูล
5. ชุดข้อมูลลูกค้าเดอะมอลล์
ชุดข้อมูลนี้มีข้อมูลเกี่ยวกับผู้เยี่ยมชมห้างสรรพสินค้า ประกอบด้วยตัวแปรหลายตัว เช่น รหัสลูกค้า รายได้ต่อปี อายุ คะแนนการใช้จ่าย และเพศ ชุดข้อมูลได้แบ่งลูกค้าออกเป็นหมวดหมู่ต่างๆ ตามพฤติกรรมและแนวโน้มของลูกค้า
คุณสามารถใช้ชุดข้อมูลนี้เพื่อสร้างแบบจำลองการจัดประเภทที่แยกลูกค้าตามเพศ คะแนนการใช้จ่าย หรือรายได้ต่อปี ชุดข้อมูลนี้เหมาะสำหรับโครงการแบ่งกลุ่มลูกค้า ซึ่งเป็นแอปพลิเคชันยอดนิยมของ AI และ ML ในธุรกิจ
บริษัทต่างๆ ใช้การแบ่งกลุ่มลูกค้าเพื่อกำหนดกลยุทธ์ทางการตลาดและปรับปรุงโฆษณาของตน การทำงานในโครงการนี้จะช่วยให้คุณเข้าใจวิธีที่คุณสามารถใช้อัลกอริธึมการเรียนรู้ของเครื่องเพื่อแบ่งกลุ่มลูกค้าได้อย่างแม่นยำ
ลิงก์ไปยังชุดข้อมูล
อ่าน : แนวคิดโครงการหลาม
6. ชุดข้อมูล Uber Rides
นี่เป็นหนึ่งในชุดข้อมูลแมชชีนเลิร์นนิงที่ดีที่สุดสำหรับโปรเจ็กต์การแสดงภาพ ชุดข้อมูล Uber Rides ประกอบด้วยข้อมูลเกี่ยวกับการโดยสาร uber ที่เกิดขึ้นระหว่างเดือนเมษายน 2014 ถึงกันยายน 2014 มีการใช้งาน uber ประมาณ 4.5 ล้านครั้งในขณะนั้น ดังนั้นชุดข้อมูลจึงค่อนข้างใหญ่ ชุดข้อมูลประกอบด้วยข้อมูลเกี่ยวกับสถานที่ที่เกี่ยวข้องกับการโดยสารและข้อมูลอื่นๆ ที่เกี่ยวข้อง

คุณสามารถใช้ข้อมูลที่มีอยู่ในชุดข้อมูลนี้เพื่อสร้างการแสดงข้อมูลที่สวยงาม การแสดงภาพข้อมูลช่วยในการรับข้อมูลเชิงลึกอันมีค่าจากกลุ่มข้อมูลขนาดใหญ่ นอกจากนั้น การแสดงภาพข้อมูลยังช่วยให้ตัดสินใจได้ดีขึ้นตามข้อมูลเชิงลึกที่ยังไม่ได้เปิดเผย คุณสามารถใช้แรงบันดาลใจจาก โครงการสร้างภาพข้อมูลเหล่านี้ เพื่อเริ่มต้น
ลิงก์ไปยังชุดข้อมูล
7. Google Trends และข้อมูล
Google Trends เป็นเครื่องมือที่ช่วยให้คุณวิเคราะห์การค้นหาของ Google และค้นหาหัวข้อที่กำลังเป็นที่นิยมซึ่งผู้คนกำลังค้นหาใน Google เป็นเครื่องมือฟรีแต่ทรงพลัง และสามารถให้ข้อมูลมากมายเกี่ยวกับรูปแบบการค้นหาและแนวโน้มของผู้คน
Google Trends ช่วยให้คุณค้นหาจำนวนการค้นหาคำหลักหนึ่งๆ และคำที่เกี่ยวข้องในช่วงเวลาหนึ่งๆ คุณยังสามารถใช้เพื่อรับข้อมูลเฉพาะสำหรับกลุ่มประชากร
หากคุณวางแผนที่จะใช้แมชชีนเลิร์นนิงในการวิเคราะห์ข้อมูล นี่เป็นชุดข้อมูลขนาดใหญ่สำหรับการเริ่มต้น คุณสามารถรับข้อมูลได้มากเท่าที่คุณต้องการในหัวข้อใดๆ ที่คุณต้องการ Google เทรนด์นั้นยอดเยี่ยมสำหรับผู้เริ่มต้นที่ไม่ได้ทำงานในโครงการแมชชีนเลิร์นนิงมากนัก
ลิงก์ไปยังชุดข้อมูล
8. ชุดข้อมูลจลนศาสตร์
หากคุณสนใจที่จะใช้ AI ในการจดจำการโต้ตอบของมนุษย์ นี่คือชุดข้อมูลที่เหมาะสมสำหรับคุณ การวิเคราะห์การกระทำและการโต้ตอบของมนุษย์ เป็นส่วนสำคัญของการมองเห็นด้วยคอมพิวเตอร์ ซึ่งเป็นสาขาของปัญญาประดิษฐ์ที่ศึกษาภาพและวิดีโอ การเป็นผู้เชี่ยวชาญในการมองเห็นด้วยคอมพิวเตอร์จะช่วยคุณในการระบุวัตถุ การจดจำใบหน้า และการใช้งานอื่นๆ ที่เกี่ยวข้องในลักษณะเดียวกัน
ชุดข้อมูลนี้มีวิดีโอเกือบ 650,000 รายการที่มีการโต้ตอบระหว่างมนุษย์กับมนุษย์ (เช่น การกอดและการจับมือกัน) รวมถึงการโต้ตอบระหว่างมนุษย์กับวัตถุ (เช่น การเล่นกีตาร์) มีคลาสแอคชั่น 700 คลาส โดยแต่ละคลาสมีคลิปอย่างน้อย 600 คลิป ทุกคลิปมีคำอธิบายประกอบของมนุษย์พร้อมกับคลาสการกระทำเดียว ระยะเวลาของทุกวิดีโอในชุดข้อมูลนี้อยู่ที่ประมาณ 10 วินาที
ลิงก์ไปยังชุดข้อมูล
อ่าน: แนวคิดโครงการการเรียนรู้ของเครื่อง
9. ข้อมูล GTSRB
GTSRB ย่อมาจาก German Traffic Sign Recognition Benchmark และเป็นโครงการที่ยอดเยี่ยมในการจำแนกประเภทหลายคลาส ชุดข้อมูลนี้มีภาพมากกว่า 50,000 ภาพพร้อมกับข้อมูล ชุดข้อมูลยังมี 40 คลาส และเหตุการณ์สัญญาณจราจรจริงในชุดข้อมูลนี้มีความเฉพาะเจาะจงอยู่ภายใน
เป็นหนึ่งในชุดข้อมูลที่ดีที่สุดสำหรับโปรเจ็กต์แมชชีนเลิร์นนิงเมื่อคุณพิจารณากรณีการใช้งาน คุณสามารถศึกษาการจัดประเภทภาพและสร้างกรอบงานเพื่อจำแนกสัญญาณไฟจราจรต่างๆ
การจำแนกประเภทของสัญญาณจราจรอาจเป็นส่วนสำคัญของยานยนต์ไร้คนขับ (รถยนต์ไร้คนขับ) ดังนั้น หากคุณสนใจการนำ AI ไปใช้ในภาคยานยนต์ คุณควรทำโครงการนี้
คุณสามารถเริ่มต้นด้วยส่วนเล็กๆ ของชุดข้อมูลนี้ หากคุณไม่มีประสบการณ์ในการทำงานในโครงการ ML มากนัก
ลิงก์ไปยังชุดข้อมูล
10. ชุดข้อมูล Boston Houses
ชุดข้อมูลการเคหะบอสตันเป็นหนึ่งในชุดข้อมูลยอดนิยมสำหรับโครงการการเรียนรู้ของเครื่อง เหมาะสำหรับโครงการจดจำรูปแบบและเป็นวิธีที่ยอดเยี่ยมในการใช้ความรู้ ML ของคุณ ชุดข้อมูลนี้มี US Census Service ที่รวบรวมข้อมูลเกี่ยวกับที่อยู่อาศัยในพื้นที่ Boston Mass และมีประมาณ 500 กรณี ในชุดข้อมูลมีตัวแปร 14 ตัว ซึ่งรวมถึงอัตราการเกิดอาชญากรรมต่อหัว จำนวนห้องโดยเฉลี่ยในบ้าน และอื่นๆ

เนื่องจากมีกรณีน้อยมาก (506 เป็นที่แน่นอน) จึงเหมาะสำหรับมืออาชีพด้านการเรียนรู้ของเครื่องและนักเรียนใหม่ คุณสามารถใช้ชุดข้อมูลนี้เพื่อสร้างแบบจำลองที่คาดการณ์ราคาบ้านในภูมิภาคนั้นตามข้อมูลที่คุณพบ
คุณสามารถฝึกแบบจำลองด้วยราคาบ้านที่มีอยู่ในชุดข้อมูลนี้ แล้วใช้เพื่อทำนายราคาในอนาคตตามเงื่อนไขของพื้นที่เฉพาะ ด้วยชุดข้อมูลนี้ คุณสามารถทำงานกับแนวคิดโครงการที่คล้ายคลึงกันหลายอย่างเกี่ยวกับการถดถอยและอสังหาริมทรัพย์
ลิงก์ไปยังชุดข้อมูล
เวลาทำงานในโครงการการเรียนรู้ของเครื่อง
ตอนนี้คุณมีรายการชุดข้อมูลมากมายสำหรับโปรเจ็กต์แมชชีนเลิร์นนิงแล้ว ตอนนี้คุณสามารถเริ่มทำงานกับโปรเจ็กต์ดังกล่าวได้ เราหวังว่าคุณจะพบว่ารายการนี้มีประโยชน์
หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ
ชุดข้อมูลในการเรียนรู้ของเครื่องคืออะไร
ในการเรียนรู้ของเครื่องและการทำเหมืองข้อมูล ชุดข้อมูลคือชุดของตัวอย่าง เป็นชุดตัวอย่างที่ใช้สำหรับการเรียนรู้ของเครื่องหรือการประยุกต์ใช้วิธีการทางสถิติ ตัวอย่างอาจเป็นการสังเกตครั้งเดียวหรือการรวบรวมการสังเกตทั้งหมด การระบุรูปแบบในชุดข้อมูลจะง่ายกว่าเสมอ ข้อมูลคือชุดของตัวอย่าง เป็นหัวใจสำคัญของการเรียนรู้ของเครื่องและการทำเหมืองข้อมูล การค้นหารูปแบบในชุดข้อมูลจะง่ายกว่าเสมอ
ชุดข้อมูลมีกี่ประเภท
ชุดข้อมูลมีหลายประเภท: ชุดข้อมูลอนุกรมเวลา - สิ่งนี้อธิบายชุดข้อมูลจากช่วงเวลาหนึ่ง ๆ ถือเป็นชุดข้อมูลอนุกรมเวลา ข. ชุดข้อมูลแบบตัดขวาง - อธิบายชุดข้อมูลซึ่งเป็นชุดของการสังเกตจากองค์ประกอบที่ต่างกันแต่คล้ายคลึงกันในช่วงเวลาเดียวกัน ค. ชุดข้อมูลแบบผสม - อธิบายชุดข้อมูลที่เป็นชุดข้อมูลแบบอนุกรมเวลาและแบบภาคตัดขวางผสมกัน ง. ชุดข้อมูลคอมโพเนนต์ - อธิบายชุดข้อมูลที่ใช้ในการแก้ปัญหาเฉพาะ อี ชุดข้อมูลธุรกรรม อธิบายชุดข้อมูลที่ใช้เพื่อค้นหารูปแบบ ความสัมพันธ์ และความสัมพันธ์ระหว่างเอนทิตีต่างๆ ฉ ชุดข้อมูลกราฟ - อธิบายชุดข้อมูลที่ใช้ในการวาดกราฟหรือแมปองค์ประกอบในเครือข่าย
ชุดข้อมูลการฝึกอบรมและการทดสอบในการเรียนรู้ของเครื่องคืออะไร
ชุดข้อมูลการฝึกอบรมคือชุดของตัวอย่างที่ใช้ในการฝึกโมเดล ชุดข้อมูลนี้ใช้เพื่อสร้างฟังก์ชันทางคณิตศาสตร์หรือโมเดล f(x) ที่แมปข้อมูลอินพุต x กับเอาต์พุต y ชุดข้อมูลการทดสอบแตกต่างจากชุดข้อมูลการฝึกอบรม ชุดข้อมูลการทดสอบคือชุดของตัวอย่างที่ไม่ได้ใช้ในการฝึกอบรมตัวแยกประเภทที่ใช้ในการประเมินประสิทธิภาพของตัวแยกประเภท เนื่องจากตัวแยกประเภทได้รับการฝึกอบรมเกี่ยวกับตัวอย่างการฝึกอบรม ประสิทธิภาพของตัวแยกประเภทในชุดข้อมูลการทดสอบจึงไม่เป็นที่ทราบแน่ชัด