การวัดระยะทางในควาญ: ประเภทการวัด 3 อันดับแรก [2022]

เผยแพร่แล้ว: 2021-01-07

Mahout เป็นโครงการโอเพ่นซอร์สโดย Apache Software Foundation ที่นักวิทยาศาสตร์ข้อมูลใช้เพื่อสร้างอัลกอริธึมการเรียนรู้ของเครื่องแบบกระจายหรือปรับขนาดได้ ควาญช้างมุ่งเน้นไปที่พีชคณิตเชิงเส้นเป็นหลัก และอัลกอริธึมของมันถูกเขียนบนโครงสร้างพื้นฐาน Hadoop เทคนิคการทำเหมืองข้อมูลยอดนิยมบางอย่างที่นำมาใช้โดยเฟรมเวิร์กนี้ ได้แก่ การแนะนำ การจำแนกประเภท และการจัดกลุ่ม การวัดระยะทางในควาญช้าง เป็นหัวข้อสำคัญในการเรียนรู้ปัญหาการจัดกลุ่ม

เนื่องจาก Mahout มีโครงสร้างที่พร้อมใช้งานสำหรับ coders และช่วยให้สามารถจัดการข้อมูลจำนวนมากได้อย่างรวดเร็วและมีประสิทธิภาพ มันจึงกลายเป็นหนึ่งในโปรเจ็กต์อันดับต้นๆ ของ Apache และบริษัทต่างๆ เช่น Twitter, Facebook, LinkedIn, Adobe, Yahoo และอื่นๆ ใช้สำหรับการขุดข้อมูลภายใน

เรียนรู้เพิ่มเติม: 12 แอปพลิเคชั่นการขุดข้อมูลที่มีประโยชน์ที่สุด

สารบัญ

การวัดระยะทางคืออะไร?
แปรงพื้นฐานการจัดกลุ่ม
มาตรการระยะทางในควาญ
- การวัดระยะทางโคไซน์
- การวัดระยะทางระหว่างคลัสเตอร์
- การวัดระยะทางภายในคลัสเตอร์
ห่อ
- การวิเคราะห์คลัสเตอร์คืออะไรและมีลักษณะอย่างไร
- การมีส่วนร่วมในโครงการโอเพนซอร์ซคุ้มค่าหรือไม่
- แยกความแตกต่างระหว่างวิธี univariate และ multivariate

การวัดระยะทางคืออะไร?

ตามชื่อที่แนะนำ เป็นการวัดระยะห่างระหว่างจุดข้อมูล การวัดระยะทางในควาญช้าง จะคำนวณว่าเวกเตอร์สองเส้นอยู่ใกล้กันเพียงใดและระบุความคล้ายคลึงกันระหว่างจุดต่างๆ ให้เรามาพิจารณาตัวอย่างบางอย่าง.

สมมติว่าคุณเปิดบริษัทโทรศัพท์ และต้องการตั้งค่าเครือข่ายเสาสัญญาณในบางภูมิภาค เพื่อให้แน่ใจว่ามีความแรงของสัญญาณที่เหมาะสมที่สุด คุณต้องกำหนดตำแหน่งสำหรับการสร้างหอคอย
ฝ่ายบริหารส่วนภูมิภาคต้องการเปิดหอผู้ป่วยฉุกเฉินสาธารณะจำนวนหนึ่ง ตำแหน่งของหน่วยงานเหล่านี้ทั่วทั้งภูมิภาคควรอยู่ในบริเวณใกล้เคียงกับพื้นที่ที่อาจเกิดอุบัติเหตุได้ง่าย
เพื่อการบังคับใช้กฎหมายอย่างมีประสิทธิภาพและการเฝ้าระวังอย่างเข้มงวดในพื้นที่ที่มีอัตราการเกิดอาชญากรรมสูง คุณสามารถประเมินบริเวณใกล้เคียงที่รถตู้ตรวจตราประจำการได้

ในทุกสถานการณ์เหล่านี้ คุณจะเห็นว่าการวัดระยะทางอยู่ที่แกนหลักของอัลกอริธึมการจัดกลุ่ม ในปัญหาการเรียนรู้ที่ไม่ได้รับการดูแล การคำนวณนี้เป็นปัจจัยที่สำคัญที่สุดอย่างหนึ่งในการตัดสินใจ การเลือกของคุณเกี่ยวกับเทคนิคการวัดระยะทางจะส่งผลต่อผลลัพธ์ในระดับที่ดี

นอกจากนี้ คุณไม่จำเป็นต้องใช้เทคนิคที่มีอยู่ในห้องสมุดควาญ คุณยังสามารถใช้วิธีแบบกำหนดเองเพื่อค้นหาการวัดระยะทางที่อิงตามบริบทของข้อมูลหรืออัลกอริทึมเฉพาะของคุณ สิ่งที่คุณต้องทำคือใช้ตรรกะทางคณิตศาสตร์สำหรับจุดเวกเตอร์และกำหนดค่าเพื่อพิจารณาว่าการใช้งานนั้นอยู่ในเซนทรอยด์เฉพาะหรือไม่ ศูนย์กลางของคลัสเตอร์เรียกว่าเซนทรอยด์

เรียนรู้เกี่ยวกับ: บริษัทชั้นนำที่จ้างนักวิทยาศาสตร์ข้อมูลในอินเดีย

แปรงพื้นฐานการจัดกลุ่ม

ก่อนที่เราจะเจาะลึกลงไปในหมวดหมู่ต่างๆ อันดับแรก ให้เรารีเฟรชพื้นฐานของเราเกี่ยวกับการจัดกลุ่มก่อน คลัสเตอร์คือความคล้ายคลึงหรือกลุ่มความแตกต่างของอินสแตนซ์ข้อมูล นี่คือแอปพลิเคชันในชีวิตจริงบางส่วน

นักการตลาดสามารถใช้การจัดกลุ่มเพื่อแบ่งกลุ่มลูกค้าและดำเนินการตามกลยุทธ์การตลาดที่ตรงเป้าหมาย
ในฐานะผู้ผลิตเสื้อผ้า คุณอาจต้องการจัดกลุ่มคนโดยขึ้นอยู่กับขนาดเสื้อยืดที่คล้ายกัน เช่น "เล็ก" "กลาง" และ "ใหญ่" วิธีการเดียวที่ใช้ไม่ได้ผลทุกครั้ง และเสื้อยืดแบบกำหนดเองสำหรับแต่ละคนอาจมีราคาแพง
ในระบบการจัดการห้องสมุด การจัดกลุ่มจะใช้สำหรับการจัดระเบียบหนังสือและเอกสารตามความคล้ายคลึงของเนื้อหา
ในฐานข้อมูลการสังเกตการณ์ Earth การจัดกลุ่มสามารถช่วยระบุพื้นที่ที่มีการใช้ที่ดินคล้ายกันได้
ในทางชีววิทยา การจัดกลุ่มสามารถใช้เพื่อจัดหมวดหมู่ยีนที่มีการทำงานและโครงสร้างการทำความเข้าใจที่คล้ายคลึงกันซึ่งมีอยู่ในประชากรพืชและสัตว์ที่แตกต่างกัน

ยิ่งกว่านั้น ข้อมูลจำนวนมหาศาลถูกสร้างขึ้นและใช้ทุกวันในยุคดิจิทัลนี้ ดังนั้นการจัดกลุ่มจึงเป็นหนึ่งในเทคนิคการทำเหมืองข้อมูลที่ใช้กันอย่างแพร่หลายมากที่สุดเนื่องจากความสะดวกที่มีให้

คุณภาพของการจัดกลุ่มถูกกำหนดโดยสองประเด็นหลัก – อัลกอริธึมการจัดกลุ่มและฟังก์ชันระยะทาง

อัลกอริธึมการทำคลัสเตอร์ (พาร์ทิชัน ลำดับชั้น ฯลฯ)
ฟังก์ชันระยะทาง (ความเหมือนหรือความแตกต่าง)

ตอนนี้เราได้แก้ไขแนวคิดพื้นฐานแล้ว ให้เราไปที่การวัดระยะทางประเภทต่างๆ ที่มีอยู่ใน Apache Mahout

อ่าน: การวิเคราะห์คลัสเตอร์ในการขุดข้อมูล

มาตรการระยะทางในควาญ

การวัดระยะทางโคไซน์

การวัดระยะทางประเภทนี้เหมาะที่สุดสำหรับการค้นหาความคล้ายคลึงของข้อความ ด้วยชุดของเอกสารข้อความ มันสามารถสร้างลำดับชั้นของหัวข้อโดยการจัดกลุ่มโดยใช้คำทั่วไปที่มีน้ำหนักสูงสุด

การวัดระยะทางโคไซน์ใช้อัลกอริทึม TF-IDF เพื่อแปลงแอตทริบิวต์เป็นเวกเตอร์ และน้ำหนักเวกเตอร์จะสูงกว่าคำในหัวข้อมากกว่าคำหยุด ดังนั้น เอกสารที่คล้ายกันจึงมีคำในหัวข้อทั่วไปอยู่ระหว่างกัน เป็นผลให้เวกเตอร์เซนทรอยด์ (หรือศูนย์กลางคลัสเตอร์) มีน้ำหนักเฉลี่ยที่สูงขึ้นสำหรับคำในหัวข้อ

แอปพลิเคชันที่ได้รับความนิยมมากที่สุดตัวหนึ่งคือการจัดอันดับหน้าหรือข้อมูลสรุปการค้นหาที่คุณพบบนหน้า Google อัลกอริทึมจะสร้างคลัสเตอร์ก่อนแล้วจึงค้นหาเซนทรอยด์ ขั้นตอนนี้มีประโยชน์สำหรับการค้นหาข้อมูลในแอปพลิเคชัน AI เช่น Siri และ Alexa

การวัดระยะทางระหว่างคลัสเตอร์

มันคือระยะห่างระหว่างวัตถุที่เป็นของสองกลุ่มที่แยกจากกัน การวัดระยะทางระหว่างคลัสเตอร์มีความเหมาะสมสำหรับการประเมินคุณภาพของคลัสเตอร์ของคุณ หากเซนทรอยด์อยู่ใกล้กันมากเกินไป จะขัดขวางกระบวนการสร้างกลุ่มที่มีคุณลักษณะคล้ายคลึงกัน ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องแยกแยะความแตกต่างระหว่างสมาชิกคลัสเตอร์อย่างชัดเจน เป้าหมายโดยรวมคือการแบ่งหรือแบ่งส่วนจุดข้อมูลออกเป็นคลัสเตอร์เฉพาะ

อ่านเพิ่มเติม: การ วิเคราะห์คลัสเตอร์ใน R

การวัดระยะทางภายในคลัสเตอร์

การวัดนี้จะให้ระยะห่างระหว่างสมาชิกสองคนของคลัสเตอร์เดียวกัน ดังนั้นจึงเป็นสิ่งที่ตรงกันข้ามกับการวัดระยะทางระหว่างคลัสเตอร์ ระยะทางภายในคลัสเตอร์จะน้อยกว่าเมื่อเปรียบเทียบกับระยะทางระหว่างคลัสเตอร์ การวัดระยะห่างเล็กน้อยระหว่างวัตถุที่คล้ายคลึงกันบ่งชี้ว่ากระจุกนั้นแน่นและแยกจากกันอย่างน่าเชื่อถือ

การวัดระยะทางประเภทนี้ขึ้นอยู่กับสองสิ่ง: i) การลงโทษสำหรับวัตถุที่อยู่ไกลออกไป ii) ค่าที่น้อยกว่าสำหรับวัตถุที่อยู่ใกล้กว่า และคลัสเตอร์ที่แยกออกจากกันมากขึ้นจะมีอัตราส่วนของค่าทั้งสองนี้สูง

ตอนนี้ ให้เราดูการสาธิตต่อไปนี้ของการวัดระยะทางที่คล้ายคลึงกันในการวิเคราะห์คลัสเตอร์

บริการจัดส่งสามารถสร้าง 'เขตจัดส่ง' ที่แตกต่างกันได้โดยการจัดกลุ่มสถานที่ที่มีระยะห่างระหว่างกันน้อยที่สุด ด้วยวิธีนี้ อัลกอริธึมอำนวยความสะดวกในการจัดส่งบุคลากรอย่างรวดเร็วและมีประสิทธิภาพ งานของเราคือปรับระยะห่างระหว่างจุดศูนย์กลางของคลัสเตอร์ให้เหมาะสม ลดความแปรปรวนภายในคลัสเตอร์ และตรวจสอบให้แน่ใจว่าชุดข้อมูลที่มีคุณสมบัติคล้ายกันมากที่สุดถูกรวมกลุ่มเข้าด้วยกัน

เรียนรู้ หลักสูตรวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

ห่อ

ด้วยเหตุนี้ เราจึงได้อธิบายแนวคิดของการ วัดระยะทางในควาญ ช้าง และตอนนี้ คุณได้ทราบส่วนสำคัญของเครื่องมือบิ๊กดาต้าที่สำคัญแล้ว คุณสามารถอธิบายได้อย่างง่ายดายในการสัมภาษณ์งานใดๆ นอกจากนี้ ความเข้าใจที่ชัดเจนเกี่ยวกับการวัดระยะทางต่างๆ จะช่วยให้คุณได้ความถูกต้องในขณะที่ใช้อัลกอริธึมการจัดกลุ่ม

หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ให้ลองดูประกาศนียบัตร PG ด้านวิทยาศาสตร์ข้อมูลของ IIIT-B และ upGrad ซึ่งสร้างขึ้นสำหรับมืออาชีพด้านการทำงานและเสนอกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1- on-1 กับที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

การวิเคราะห์คลัสเตอร์คืออะไรและมีลักษณะอย่างไร

กระบวนการที่เรากำหนดอ็อบเจ็กต์โดยไม่มีการติดฉลากเรียกว่าการวิเคราะห์คลัสเตอร์ ใช้การทำเหมืองข้อมูลเพื่อจัดกลุ่มวัตถุที่คล้ายคลึงกันต่างๆ ไว้ในคลัสเตอร์เดียว เช่นเดียวกับในการวิเคราะห์แบบจำแนก การใช้งานรวมถึงการจดจำรูปแบบ การวิเคราะห์ข้อมูล การวิเคราะห์ภาพ การเรียนรู้ของเครื่อง คอมพิวเตอร์กราฟิก และสาขาอื่นๆ
การวิเคราะห์คลัสเตอร์เป็นงานที่ดำเนินการโดยใช้อัลกอริธึมอื่น ๆ ที่แตกต่างกันในหลาย ๆ ด้านและทำให้เกิดคลัสเตอร์
ต่อไปนี้เป็นคุณลักษณะบางประการของการวิเคราะห์คลัสเตอร์ - การวิเคราะห์คลัสเตอร์สามารถปรับขนาดได้สูง สามารถจัดการกับชุดคุณลักษณะต่างๆ แสดงให้เห็นมิติสูง ตีความได้

การมีส่วนร่วมในโครงการโอเพนซอร์ซคุ้มค่าหรือไม่

โครงการโอเพ่นซอร์สคือโครงการที่ทุกคนสามารถเข้าถึงซอร์สโค้ดได้และทุกคนสามารถเข้าถึงได้เพื่อทำการแก้ไข การมีส่วนร่วมในโครงการโอเพนซอร์ซนั้นมีประโยชน์อย่างมาก เนื่องจากไม่เพียงแต่จะเพิ่มพูนทักษะของคุณเท่านั้น แต่ยังช่วยให้คุณมีโปรเจ็กต์ใหญ่ๆ
เนื่องจากบริษัทใหญ่ๆ หลายแห่งกำลังเปลี่ยนไปใช้ซอฟต์แวร์โอเพนซอร์ซ มันจะให้ผลกำไรแก่คุณหากคุณเริ่มมีส่วนร่วมตั้งแต่เนิ่นๆ บริษัทยักษ์ใหญ่บางแห่ง เช่น Microsoft, Google, IBM และ Cisco ยอมรับโอเพ่นซอร์สไม่ทางใดก็ทางหนึ่ง
มีชุมชนขนาดใหญ่ของนักพัฒนาซอฟต์แวร์โอเพ่นซอร์สที่เชี่ยวชาญซึ่งสนับสนุนให้ซอฟต์แวร์ดีขึ้นและอัปเดตอยู่เสมอ ชุมชนนี้เป็นมิตรกับผู้เริ่มต้นอย่างมาก และพร้อมเสมอที่จะก้าวขึ้นและยินดีต้อนรับผู้มีส่วนร่วมรายใหม่ มีเอกสารประกอบจำนวนมากที่สามารถแนะนำวิธีการสนับสนุนโอเพ่นซอร์สของคุณ

แยกความแตกต่างระหว่างวิธี univariate และ multivariate

วิธีที่ไม่มีตัวแปรเป็นวิธีที่ง่ายที่สุดในการจัดการค่าผิดปกติ ไม่ได้สรุปความสัมพันธ์ใดๆ เนื่องจากเป็นตัวแปรเดียวและมีวัตถุประสงค์หลักเพื่อวิเคราะห์ข้อมูลและกำหนดรูปแบบที่เกี่ยวข้อง ค่าเฉลี่ย ค่ามัธยฐาน และโหมด คือตัวอย่างรูปแบบที่พบในข้อมูลแบบไม่แปรผัน
ในทางกลับกัน วิธีหลายตัวแปรใช้สำหรับวิเคราะห์ตัวแปรตั้งแต่สามตัวขึ้นไป มีความแม่นยำมากกว่าวิธีการก่อนหน้านี้ เนื่องจากวิธีการหลายตัวแปรไม่เหมือนกับวิธี univariate ซึ่งเกี่ยวข้องกับความสัมพันธ์และรูปแบบ Additive Tree, Canonical Correlation Analysis และ Cluster Analysis เป็นวิธีการบางส่วนในการวิเคราะห์หลายตัวแปร