10 อันดับแรก อัลกอริธึมการขุดข้อมูลทั่วไปที่คุณควรรู้

เผยแพร่แล้ว: 2019-12-02

การทำเหมืองข้อมูลเป็นกระบวนการในการค้นหารูปแบบและการซ้ำซ้อนในชุดข้อมูลขนาดใหญ่ และเป็นสาขาวิชาวิทยาการคอมพิวเตอร์ เทคนิคการทำเหมืองข้อมูลและอัลกอริธึมกำลังถูกใช้อย่างกว้างขวางในปัญญาประดิษฐ์และวิทยาศาสตร์ข้อมูล มีอัลกอริธึมมากมาย แต่มาพูดถึง 10 อันดับแรกในรายการอัลกอริธึมการทำเหมืองข้อมูลกัน

สารบัญ

อัลกอริทึมการทำเหมืองข้อมูล 10 อันดับแรก
- 1. C4.5 อัลกอริธึม
- 2. K-mean Algorithm
- 3. รองรับ Vector Machines
- 4. อัลกอริทึม Apriori
- 5. อัลกอริธึมการเพิ่มความคาดหวังสูงสุด
- 6. อัลกอริธึม PageRank
- 7. อัลกอริทึม Adaboost
- 8. kNN อัลกอริธึม
- 9. อัลกอริธึม Naive Bayes
- 10. อัลกอริธึมรถเข็น
บทสรุป
การใช้อัลกอริทึม CART สำหรับการทำเหมืองข้อมูลมีข้อจำกัดอย่างไร
'K' หมายถึงอะไรในอัลกอริทึม k-mean?
ในอัลกอริทึมของ KNN คำว่า underfitting หมายถึงอะไร

อัลกอริทึมการทำเหมืองข้อมูล 10 อันดับแรก

1. C4.5 อัลกอริธึม

C4.5 เป็นหนึ่งในอัลกอริธึมการขุดข้อมูลชั้นนำและได้รับการพัฒนาโดย Ross Quinlan C4.5 ใช้เพื่อสร้างตัวแยกประเภทในรูปแบบของแผนผังการตัดสินใจจากชุดข้อมูลที่จัดประเภทไว้แล้ว ตัวแยกประเภทในที่นี้หมายถึงเครื่องมือขุดข้อมูลที่นำข้อมูลที่เราจำเป็นต้องจัดประเภทและพยายามทำนายคลาสของข้อมูลใหม่

จุดข้อมูลทุกจุดจะมีแอตทริบิวต์ของตัวเอง โครงสร้างการตัดสินใจที่สร้างโดย C4.5 ก่อให้เกิดคำถามเกี่ยวกับค่าของแอตทริบิวต์ และขึ้นอยู่กับค่าเหล่านั้น ข้อมูลใหม่จะถูกจัดประเภท ชุดข้อมูลการฝึกอบรมมีป้ายกำกับว่า lasses ทำให้ C4.5 เป็นอัลกอริธึมการเรียนรู้ภายใต้การดูแล โครงสร้างการตัดสินใจนั้นง่ายต่อการตีความและอธิบายอยู่เสมอ ทำให้ C4.5 นั้นรวดเร็วและเป็นที่นิยมเมื่อเทียบกับอัลกอริธึมการทำเหมืองข้อมูลอื่นๆ

ไม่จำเป็นต้องมีประสบการณ์การเข้ารหัส การสนับสนุนด้านอาชีพ 360° PG Diploma in Machine Learning & AI จาก IIIT-B และ upGrad

2. K-mean Algorithm

หนึ่งในอัลกอริธึมการจัดกลุ่มที่พบบ่อยที่สุด k-mean ทำงานโดยการสร้างจำนวนกลุ่ม ak จากชุดของอ็อบเจ็กต์ตามความคล้ายคลึงกันระหว่างอ็อบเจ็กต์ อาจไม่รับประกันว่าสมาชิกในกลุ่มจะเหมือนกันทุกประการ แต่สมาชิกในกลุ่มจะคล้ายกันมากกว่าเมื่อเปรียบเทียบกับสมาชิกที่ไม่ใช่กลุ่ม ตามการใช้งานมาตรฐาน k-mean เป็นอัลกอริธึมการเรียนรู้ที่ไม่มีผู้ดูแล เนื่องจากเรียนรู้คลัสเตอร์ด้วยตัวเองโดยไม่มีข้อมูลภายนอก

3. รองรับ Vector Machines

ในแง่ของงาน Support vector machine (SVM) ทำงานคล้ายกับอัลกอริธึม C4.5 ยกเว้นว่า SVM จะไม่ใช้แผนผังการตัดสินใจใดๆ เลย SVM เรียนรู้ชุดข้อมูลและกำหนดไฮเปอร์เพลนเพื่อจำแนกข้อมูลออกเป็นสองคลาส ไฮเปอร์เพลนคือสมการของเส้นที่มีลักษณะคล้าย " y = mx + b" SVM เกินจริงเพื่อฉายข้อมูลของคุณไปยังมิติที่สูงขึ้น เมื่อฉายภาพแล้ว SVM ได้กำหนดไฮเปอร์เพลนที่ดีที่สุดเพื่อแยกข้อมูลออกเป็นสองคลาส

4. อัลกอริทึม Apriori

อัลกอริทึม Apriori ทำงานโดยการเรียนรู้กฎการเชื่อมโยง กฎการเชื่อมโยงเป็นเทคนิคการทำเหมืองข้อมูลที่ใช้สำหรับการเรียนรู้ความสัมพันธ์ระหว่างตัวแปรในฐานข้อมูล เมื่อเรียนรู้กฎของสมาคมแล้ว ก็จะนำไปใช้กับฐานข้อมูลที่มีธุรกรรมจำนวนมาก อัลกอริทึม Apriori ใช้สำหรับค้นหารูปแบบที่น่าสนใจและความสัมพันธ์ซึ่งกันและกัน ดังนั้นจึงถือเป็นแนวทางการเรียนรู้ที่ไม่มีผู้ดูแล คิดว่าอัลกอริทึมนี้มีประสิทธิภาพสูง แต่ใช้หน่วยความจำมาก ใช้พื้นที่ดิสก์มาก และใช้เวลานาน

5. อัลกอริธึมการเพิ่มความคาดหวังสูงสุด

ความคาดหวังสูงสุด (EM) ถูกใช้เป็นอัลกอริธึมการจัดกลุ่ม เช่นเดียวกับอัลกอริธึม k-mean สำหรับการค้นพบความรู้ อัลกอริธึม EM ทำงานวนซ้ำเพื่อเพิ่มโอกาสในการดูข้อมูลที่สังเกตได้ ถัดไป จะประมาณค่าพารามิเตอร์ของแบบจำลองทางสถิติด้วยตัวแปรที่ไม่มีการสังเกต ดังนั้นจึงสร้างข้อมูลที่สังเกตได้บางส่วน อัลกอริทึม Expectation-Maximization (EM) เป็นการเรียนรู้แบบไม่มีผู้ดูแลอีกครั้ง เนื่องจากเราใช้มันโดยไม่ต้องให้ข้อมูลคลาสที่มีป้ายกำกับ

6. อัลกอริธึม PageRank

PageRank มักใช้โดยเครื่องมือค้นหาเช่น Google เป็นอัลกอริธึมการวิเคราะห์ลิงก์ที่กำหนดความสำคัญสัมพัทธ์ของออบเจกต์ที่เชื่อมโยงภายในเครือข่ายของออบเจ็กต์ การวิเคราะห์ลิงก์เป็นประเภทของการวิเคราะห์เครือข่ายที่สำรวจความสัมพันธ์ระหว่างออบเจ็กต์ การค้นหาของ Google ใช้อัลกอริทึมนี้โดยการทำความเข้าใจลิงก์ย้อนกลับระหว่างหน้าเว็บ

เป็นหนึ่งในวิธีการที่ Google ใช้เพื่อกำหนดความสำคัญของหน้าเว็บและจัดอันดับให้สูงขึ้นในเครื่องมือค้นหาของ Google เครื่องหมายการค้า PageRank เป็นกรรมสิทธิ์ของ Google และอัลกอริธึม PageRank ได้รับการจดสิทธิบัตรโดยมหาวิทยาลัยสแตนฟอร์ด PageRank ถือเป็นแนวทางการเรียนรู้แบบไม่มีผู้ดูแล เนื่องจากจะกำหนดความสำคัญสัมพัทธ์โดยการพิจารณาลิงก์และไม่ต้องการอินพุตอื่นใด

7. อัลกอริทึม Adaboost

AdaBoost เป็นอัลกอริธึมการเพิ่มประสิทธิภาพที่ใช้ในการสร้างตัวแยกประเภท ลักษณนามเป็นเครื่องมือขุดข้อมูลที่นำข้อมูลทำนายคลาสของข้อมูลตามอินพุต อัลกอริทึมการบูสต์เป็นอัลกอริธึมการเรียนรู้ทั้งมวลซึ่งรันอัลกอริธึมการเรียนรู้หลายตัวและรวมเข้าด้วยกัน

อัลกอริทึมการส่งเสริมใช้กลุ่มผู้เรียนที่อ่อนแอและรวมเข้าด้วยกันเพื่อสร้างผู้เรียนที่เข้มแข็งเพียงคนเดียว ผู้เรียนที่อ่อนแอจัดประเภทข้อมูลที่มีความแม่นยำน้อยกว่า ตัวอย่างที่ดีที่สุดของอัลกอริธึมที่อ่อนแอคืออัลกอริธึมตอการตัดสินใจซึ่งโดยพื้นฐานแล้วเป็นแผนผังการตัดสินใจแบบขั้นตอนเดียว Adaboost เป็นการเรียนรู้ภายใต้การดูแลที่สมบูรณ์แบบเนื่องจากทำงานในแบบวนซ้ำและการวนซ้ำแต่ละครั้ง จะฝึกผู้เรียนที่อ่อนแอกว่าด้วยชุดข้อมูลที่มีป้ายกำกับ Adaboost เป็นอัลกอริธึมที่ใช้งานง่ายและตรงไปตรงมา

หลังจากที่ผู้ใช้ระบุจำนวนรอบ การวนซ้ำ AdaBoost ต่อเนื่องแต่ละครั้งจะกำหนดน้ำหนักใหม่สำหรับผู้เรียนที่ดีที่สุดแต่ละคน สิ่งนี้ทำให้ Adaboost เป็นวิธีที่หรูหราอย่างยิ่งในการปรับแต่งตัวแยกประเภทโดยอัตโนมัติ Adaboost มีความยืดหยุ่น ใช้งานได้หลากหลาย และสวยงาม เนื่องจากสามารถรวมอัลกอริธึมการเรียนรู้ส่วนใหญ่ และรับข้อมูลที่หลากหลาย

อ่าน: ตัวอย่างทั่วไปของการทำเหมืองข้อมูล

8. kNN อัลกอริธึม

kNN เป็นอัลกอริทึมการเรียนรู้แบบขี้เกียจที่ใช้เป็นอัลกอริทึมการจำแนกประเภท ผู้เรียนที่เกียจคร้านจะไม่ทำอะไรมากในระหว่างขั้นตอนการฝึกอบรม ยกเว้นการจัดเก็บข้อมูลการฝึกอบรม ผู้เรียนที่เกียจคร้านเริ่มจัดประเภทเฉพาะเมื่อมีการป้อนข้อมูลที่ไม่มีป้ายกำกับใหม่เป็นข้อมูลเข้า ในทางกลับกัน C4.5, SVN และ Adaboost เป็นผู้เรียนที่กระตือรือร้นที่เริ่มสร้างแบบจำลองการจัดหมวดหมู่ระหว่างการฝึกอบรม เนื่องจาก kNN ได้รับชุดข้อมูลการฝึกอบรมที่มีป้ายกำกับ จึงถือเป็นอัลกอริธึมการเรียนรู้ภายใต้การดูแล

9. อัลกอริธึม Naive Bayes

Naive Bayes ไม่ใช่อัลกอริธึมเดียวแม้ว่าจะสามารถเห็นการทำงานอย่างมีประสิทธิภาพในฐานะอัลกอริธึมเดียว Naive Bayes เป็นกลุ่มของอัลกอริธึมการจำแนกประเภทที่รวมเข้าด้วยกัน สมมติฐานที่ใช้โดยกลุ่มของอัลกอริธึมคือทุกคุณสมบัติของข้อมูลที่ถูกจัดประเภทนั้นไม่ขึ้นกับคุณสมบัติอื่นๆ ทั้งหมดที่มีให้ในคลาส Naive Bayes มีชุดข้อมูลการฝึกอบรมที่มีป้ายกำกับเพื่อสร้างตาราง ดังนั้นจึงถือเป็นอัลกอริธึมการเรียนรู้ภายใต้การดูแล

การรับรองขั้นสูงของ Data Science, พันธมิตรจ้างงานมากกว่า 250 ราย, การเรียนรู้มากกว่า 300 ชั่วโมง, 0% EMI

10. อัลกอริธึมรถเข็น

CART ย่อมาจาก ต้นไม้การจำแนกและการถดถอย เป็นอัลกอริธึมการเรียนรู้แผนผังการตัดสินใจที่ให้ต้นไม้การถดถอยหรือการจัดหมวดหมู่เป็นผลลัพธ์ ใน CART โหนดทรีการตัดสินใจจะมี 2 สาขาอย่างแม่นยำ เช่นเดียวกับ C4.5 CART ก็เป็นตัวแยกประเภท แบบจำลองการถดถอยหรือการจัดหมวดหมู่ถูกสร้างขึ้นโดยใช้ชุดข้อมูลการฝึกอบรมที่มีป้ายกำกับที่ผู้ใช้จัดเตรียมไว้ จึงถือเป็นเทคนิคการเรียนรู้แบบมีผู้ดูแล

บทสรุป

นี่คือข้อมูล 10 อันดับแรกจากรายการอัลกอริธึมการทำเหมืองข้อมูล เราหวังว่าบทความนี้จะให้ความกระจ่างเกี่ยวกับอัลกอริธึมเหล่านี้

หากคุณอยากทราบข้อมูลเพิ่มเติมเกี่ยวกับ Data Science ให้ลองดู IIIT-B และ Executive PG Program ของ upGrad ใน Data Science ซึ่งออกแบบมาสำหรับคนทำงานเพื่อพัฒนาทักษะของตนเองโดยไม่ต้องออกจากงาน หลักสูตรนี้เสนอตัวต่อตัวกับที่ปรึกษาในอุตสาหกรรม ตัวเลือก Easy EMI สถานะศิษย์เก่า IIIT-B และอีกมากมาย ตรวจสอบเพื่อเรียนรู้เพิ่มเติม

การใช้อัลกอริทึม CART สำหรับการทำเหมืองข้อมูลมีข้อจำกัดอย่างไร

ไม่ต้องสงสัยเลยว่า CART เป็นหนึ่งในอัลกอริธึมการทำเหมืองข้อมูลอันดับต้นๆ ที่ใช้ แต่ก็มีข้อเสียอยู่เล็กน้อย โครงสร้างแบบต้นไม้จะไม่เสถียรในกรณีที่มีการเปลี่ยนแปลงเล็กน้อยในชุดข้อมูล ทำให้เกิดความแปรปรวนเนื่องจากโครงสร้างที่ไม่เสถียร หากชั้นเรียนไม่สมดุล ต้นไม้ที่ไม่เหมาะสมจะถูกสร้างขึ้นโดยผู้เรียนในแผนภูมิการตัดสินใจ นั่นคือเหตุผลที่ ขอแนะนำให้สร้างสมดุลชุดข้อมูลก่อนที่จะปรับให้เข้ากับแผนผังการตัดสินใจ

'K' หมายถึงอะไรในอัลกอริทึม k-mean?

ในขณะที่ใช้อัลกอริธึม k-mean สำหรับกระบวนการขุดข้อมูล คุณจะต้องค้นหาหมายเลขเป้าหมายซึ่งก็คือ 'k' และมันคือจำนวนเซนทรอยด์ที่คุณต้องการในชุดข้อมูล อันที่จริง อัลกอริธึมนี้พยายามจัดกลุ่มบางจุดที่ไม่มีป้ายกำกับเป็นจำนวน 'k' ของคลัสเตอร์ ดังนั้น 'k' หมายถึงจำนวนคลัสเตอร์ที่คุณต้องการในตอนท้าย

ในอัลกอริธึม KNN คำว่า underfitting หมายถึงอะไร

ตามชื่อที่แนะนำ การใส่ให้พอดีตัวหมายความว่าเมื่อแบบจำลองไม่พอดีหรือกล่าวอีกนัยหนึ่งคือไม่สามารถทำนายข้อมูลได้อย่างถูกต้อง การใส่มากเกินไปหรือน้อยไปนั้นขึ้นอยู่กับค่าของ 'K' ที่คุณเลือก การเลือกค่า 'K' เล็กน้อยในกรณีที่ชุดข้อมูลขนาดใหญ่เพิ่มโอกาสที่ข้อมูลจะเกินขนาด