7 ฟังก์ชันการทำเหมืองข้อมูลซึ่งนักวิทยาศาสตร์ข้อมูลทุกคนควรรู้เกี่ยวกับ

เผยแพร่แล้ว: 2020-11-17

สารบัญ

บทนำ

การทำเหมืองข้อมูลมีแอปพลิเคชั่นมากมายในข้อมูลขนาดใหญ่เพื่อทำนายและกำหนดลักษณะข้อมูล หน้าที่คือการค้นหาแนวโน้มในวิทยาศาสตร์ข้อมูล โดยทั่วไปการทำเหมืองข้อมูลจะถูกจัดประเภทเป็น:

  1. การทำเหมืองข้อมูลเชิงพรรณนา: ให้ความรู้บางอย่างเกี่ยวกับข้อมูล เช่น การนับ ค่าเฉลี่ย มันให้ข้อมูลเกี่ยวกับสิ่งที่เกิดขึ้นภายในข้อมูลโดยไม่มีความคิดก่อนหน้านี้ แสดงคุณสมบัติทั่วไปในข้อมูล พูดง่ายๆ ก็คือ คุณจะได้ทราบคุณสมบัติทั่วไปของข้อมูลที่มีอยู่ในฐานข้อมูล
  2. การทำเหมืองข้อมูลเชิงทำนาย: ซึ่งช่วยให้นักพัฒนาเข้าใจคุณลักษณะที่ไม่ปรากฏอย่างชัดเจน เช่น การคาดการณ์การวิเคราะห์ธุรกิจในไตรมาสถัดไปกับผลการดำเนินงานของไตรมาสก่อน โดยทั่วไป การวิเคราะห์เชิงคาดการณ์จะคาดการณ์หรืออนุมานคุณลักษณะด้วยข้อมูลที่มีอยู่ก่อนหน้านี้

การทำงานของการขุดข้อมูลแสดงอยู่ด้านล่าง

  1. คำอธิบายคลาส/แนวคิด: การกำหนดลักษณะและการเลือกปฏิบัติ
  2. การจำแนกประเภท
  3. คาดการณ์
  4. วิเคราะห์สมาคม
  5. การวิเคราะห์คลัสเตอร์
  6. การวิเคราะห์ค่าผิดปกติ
  7. การวิเคราะห์วิวัฒนาการและการเบี่ยงเบน

1. คำอธิบายระดับ/แนวคิด: ลักษณะเฉพาะและการเลือกปฏิบัติ

ข้อมูลเชื่อมโยงกับคลาสหรือแนวคิดเพื่อให้สามารถสัมพันธ์กับผลลัพธ์ได้ ตัวอย่างเช่น iPhone รุ่นใหม่เปิดตัวในสามรุ่นเพื่อรองรับลูกค้าเป้าหมายตามความต้องการเช่น Pro, Pro max และ Plus

การกำหนดลักษณะข้อมูล

เมื่อคุณสรุปคุณสมบัติทั่วไปของข้อมูล จะเรียกว่าการกำหนดลักษณะข้อมูล มันสร้างกฎลักษณะเฉพาะสำหรับคลาสเป้าหมาย เช่น ผู้ซื้อ iPhone ของเรา เราสามารถรวบรวมข้อมูลโดยใช้การสืบค้น SQL อย่างง่าย และดำเนินการฟังก์ชัน OLAP เพื่อสรุปข้อมูล

เทคนิคการเหนี่ยวนำเชิงแอตทริบิวต์ยังใช้เพื่อสรุปหรือกำหนดลักษณะข้อมูลโดยมีการโต้ตอบกับผู้ใช้น้อยที่สุด ข้อมูลทั่วไปจะแสดงในรูปแบบต่างๆ เช่น ตาราง แผนภูมิวงกลม แผนภูมิเส้น แผนภูมิแท่ง และกราฟ ความสัมพันธ์แบบหลายมิติระหว่างข้อมูลถูกนำเสนอในกฎที่เรียกว่า กฎลักษณะของคลาสเป้าหมาย

การเลือกปฏิบัติของข้อมูล

มันเปรียบเทียบข้อมูลระหว่างสองคลาส โดยทั่วไปจะจับคู่คลาสเป้าหมายกับกลุ่มหรือคลาสที่กำหนดไว้ล่วงหน้า มันเปรียบเทียบและเปรียบเทียบลักษณะของคลาสกับคลาสที่กำหนดไว้ล่วงหน้าโดยใช้ชุดของกฎที่เรียกว่ากฎการเลือกปฏิบัติ วิธีการที่ใช้ในการแยกแยะข้อมูลจะคล้ายกับลักษณะข้อมูล

2. การจำแนกประเภท

ใช้แบบจำลองข้อมูลเพื่อคาดการณ์แนวโน้มของข้อมูล ตัวอย่างเช่น แผนภูมิการใช้จ่าย ธนาคารทางอินเทอร์เน็ตหรือแอปพลิเคชันมือถือของเราแสดงตามรูปแบบการใช้จ่ายของเรา บางครั้งใช้เพื่อกำหนดความเสี่ยงในการได้รับเงินกู้ใหม่

ใช้วิธีการต่างๆ เช่น IF-THEN แผนผังการตัดสินใจ สูตรทางคณิตศาสตร์ หรือโครงข่ายประสาทเทียมในการทำนายหรือวิเคราะห์แบบจำลอง ใช้ข้อมูลการฝึกอบรมเพื่อสร้างอินสแตนซ์ใหม่เพื่อเปรียบเทียบกับอินสแตนซ์ที่มีอยู่

อ่าน: อาชีพใน Data Science

3. การทำนาย

การทำนายจะค้นหาค่าตัวเลขที่หายไปในข้อมูล ใช้การวิเคราะห์การถดถอยเพื่อค้นหาข้อมูลที่ไม่พร้อมใช้งาน หากไม่มีป้ายกำกับคลาส การคาดคะเนจะทำโดยใช้การจัดประเภท การทำนายเป็นที่นิยมเนื่องจากมีความสำคัญในระบบธุรกิจอัจฉริยะ มีสองวิธีในการทำนายข้อมูล:

  1. การทำนายข้อมูลที่ไม่มีหรือขาดหายไปโดยใช้การวิเคราะห์การคาดการณ์
  2. การคาดคะเนคลาสเลเบลโดยใช้โมเดลคลาสที่สร้างไว้ก่อนหน้านี้

เป็นเทคนิคการพยากรณ์ที่ช่วยให้เราค้นพบคุณค่าในอนาคตอย่างลึกซึ้ง เราจำเป็นต้องมีชุดข้อมูลขนาดใหญ่ของค่าในอดีตเพื่อคาดการณ์แนวโน้มในอนาคต

4. การวิเคราะห์สมาคม

เกี่ยวข้องกับแอตทริบิวต์ข้อมูลตั้งแต่สองรายการขึ้นไป ค้นพบความสัมพันธ์ระหว่างข้อมูลและกฎที่ผูกมัด พบการใช้งานกันอย่างแพร่หลายในการขายปลีก คำแนะนำที่ Amazon แสดงไว้ที่ด้านล่าง "ลูกค้าที่ซื้อสิ่งนี้ด้วย .." เป็นตัวอย่างการวิเคราะห์ความสัมพันธ์แบบเรียลไทม์

มันเชื่อมโยงแอตทริบิวต์ที่มีการทำธุรกรรมร่วมกันบ่อยครั้ง พวกเขาค้นพบสิ่งที่เรียกว่ากฎสมาคมและมีการใช้กันอย่างแพร่หลายในการวิเคราะห์ตะกร้าตลาด มีสองรายการที่จะเชื่อมโยงแอตทริบิวต์ หนึ่งคือความมั่นใจที่บอกความน่าจะเป็นของทั้งคู่ที่เกี่ยวข้องกัน และอีกอย่างคือการสนับสนุนซึ่งบอกถึงการเกิดขึ้นของความสัมพันธ์ในอดีต

ตัวอย่างเช่น นั่นคือถ้าซื้อโทรศัพท์มือถือพร้อมหูฟัง: การสนับสนุนคือ 2% และความมั่นใจคือ 40% ซึ่งหมายความว่า 2% ของเวลาที่ลูกค้าซื้อโทรศัพท์มือถือพร้อมหูฟัง ความมั่นใจ 40% คือความน่าจะเป็นที่ความสัมพันธ์แบบเดิมจะเกิดขึ้นอีกครั้ง

อ่าน: โครงการเหมืองข้อมูลในอินเดีย

5. การวิเคราะห์คลัสเตอร์

การจำแนกประเภทที่ไม่มีผู้ดูแลเรียกว่าการวิเคราะห์คลัสเตอร์ คล้ายกับการจัดประเภทที่ข้อมูลถูกจัดกลุ่ม ต่างจากการจัดประเภท ในการวิเคราะห์คลัสเตอร์ ป้ายกำกับคลาสไม่เป็นที่รู้จัก ข้อมูลจะถูกจัดกลุ่มตามอัลกอริทึมการจัดกลุ่ม

ออบเจ็กต์ที่จัดกลุ่มคล้ายกันภายใต้คลัสเตอร์เดียว จะมีความแตกต่างอย่างมากระหว่างคลัสเตอร์หนึ่งกับอีกคลัสเตอร์หนึ่ง การจัดกลุ่มเสร็จสิ้นเพื่อเพิ่มความคล้ายคลึงในคลาสและลดความคล้ายคลึงภายในคลาสให้น้อยที่สุด การจัดกลุ่มถูกนำไปใช้ในหลายสาขา เช่น แมชชีนเลิร์นนิง การประมวลผลภาพ การจดจำรูปแบบ และชีวสารสนเทศ

6. การวิเคราะห์ค่าผิดปกติ

เมื่อข้อมูลที่ไม่สามารถจัดกลุ่มในชั้นเรียนใด ๆ ปรากฏขึ้น เราใช้การวิเคราะห์ค่าผิดปกติ จะมีข้อมูลเกิดขึ้นซึ่งจะมีคุณลักษณะที่แตกต่างจากคลาสอื่นหรือโมเดลทั่วไปอื่นๆ ข้อมูลที่โดดเด่นเหล่านี้เรียกว่าค่าผิดปกติ โดยปกติแล้วจะถือว่าเป็นสัญญาณรบกวนหรือข้อยกเว้น และการวิเคราะห์ค่าผิดปกติเหล่านี้เรียกว่าการทำเหมืองค่าผิดปกติ

ค่าผิดปกติเหล่านี้อาจเป็นการเชื่อมโยงที่มีคุณค่าในหลาย ๆ แอปพลิเคชัน แม้ว่ามักจะถูกละทิ้งเป็นสัญญาณรบกวน สิ่งเหล่านี้เรียกว่าข้อยกเว้นหรือความประหลาดใจและมีความสำคัญในการระบุพวกเขา ค่าผิดปกติระบุโดยใช้การทดสอบทางสถิติเพื่อค้นหาความน่าจะเป็น ชื่ออื่นสำหรับค่าผิดปกติคือ:

  1. Deviant
  2. ความผิดปกติ
  3. ไม่ลงรอยกัน
  4. ความผิดปกติ

7. การวิเคราะห์วิวัฒนาการและการเบี่ยงเบน

ด้วยการวิเคราะห์วิวัฒนาการ เราได้รับการจัดกลุ่มข้อมูลที่เกี่ยวข้องกับเวลา เราสามารถค้นหาแนวโน้มและการเปลี่ยนแปลงพฤติกรรมในช่วงเวลาหนึ่งได้ เราสามารถค้นหาคุณลักษณะต่างๆ เช่น ข้อมูลอนุกรมเวลา ช่วงเวลา และความคล้ายคลึงกันในแนวโน้มด้วยการวิเคราะห์ที่ชัดเจน

อ่านเพิ่มเติม: เงินเดือนนักวิทยาศาสตร์ข้อมูลในอินเดีย

บทสรุป

การทำเหมืองข้อมูลและฟังก์ชันการทำงานแบบองค์รวมพบแอปพลิเคชันมากมายตั้งแต่วิทยาศาสตร์อวกาศไปจนถึงการตลาดค้าปลีก

หากคุณอยากรู้เกี่ยวกับการเรียนรู้วิทยาศาสตร์ข้อมูลเพื่อก้าวไปสู่ความก้าวหน้าทางเทคโนโลยีอย่างรวดเร็ว ลองดู Executive PG Program in Data Science ของ upGrad & IIIT-B

การทำงานหมายถึงอะไรในการทำเหมืองข้อมูล?

การทำเหมืองข้อมูลเป็นกระบวนการรวบรวมข้อมูลจากชุดข้อมูลขนาดใหญ่ การตรวจจับรูปแบบ และการเปิดเผยการเชื่อมต่อ ฟังก์ชันในการขุดข้อมูลใช้เพื่อกำหนดประเภทของรูปแบบที่นักวิทยาศาสตร์ข้อมูลจะค้นพบในกิจกรรมการทำเหมืองข้อมูล การทำเหมืองข้อมูลแบ่งออกเป็น 2 ประเภท คือ เชิงพรรณนาและเชิงพยากรณ์ งานขุดอธิบายอธิบายลักษณะทั่วไปของข้อมูลของฐานข้อมูล งานการขุดเชิงทำนายสร้างการคาดการณ์โดยการอนุมานข้อมูลปัจจุบัน ฟังก์ชันต่างๆ จะถูกเลือกตามกระบวนการขุดข้อมูล

โมเดลข้อมูลหมายถึงอะไร

ตัวแบบข้อมูลเป็นตัวแทนของความสัมพันธ์เชิงตรรกะและการไหลของข้อมูลระหว่างส่วนประกอบข้อมูลต่างๆ ในโดเมนข้อมูล นอกจากนี้ยังอธิบายขั้นตอนการจัดเก็บและเข้าถึงข้อมูลอีกด้วย แบบจำลองข้อมูลช่วยส่งเสริมการสื่อสาร ธุรกิจ และการพัฒนาเทคโนโลยีด้วยการแสดงข้อกำหนดของระบบสารสนเทศอย่างเหมาะสมและสร้างคำตอบสำหรับข้อกำหนดเหล่านั้น ตัวแบบข้อมูลช่วยในการอธิบายว่าข้อมูลใดที่จำเป็นและในรูปแบบใดที่นักวิทยาศาสตร์ข้อมูลควรใช้ข้อมูลดังกล่าวสำหรับกิจกรรมทางธุรกิจต่างๆ

เกิดอะไรขึ้นในการวิเคราะห์ค่าผิดปกติ

การวิเคราะห์ค่าผิดปกติเป็นประเภทของงานการทำเหมืองข้อมูลที่เรียกว่า 'การทำเหมืองข้อมูลนอกระบบ' นักวิทยาศาสตร์ข้อมูลอาจใช้เพื่อตรวจจับการฉ้อโกงในสถานการณ์ต่างๆ รวมถึงการใช้บัตรเครดิตหรือการสื่อสารโทรคมนาคมโดยไม่คาดคิด การวิเคราะห์ด้านสุขภาพเพื่อตรวจหาการตอบสนองที่แปลกประหลาดต่อการรักษาพยาบาล และการตลาดเพื่อค้นหาพฤติกรรมการซื้อของลูกค้า ผู้เชี่ยวชาญด้าน Data Science สามารถค้นหาค่าผิดปกติได้หลายวิธี กลยุทธ์ทั้งหมดเหล่านี้ใช้วิธีต่างๆ ในการค้นหาค่าที่ไม่ปกติ ตรงกันข้ามกับชุดข้อมูลที่เหลือ