مقاييس المسافة في Mahout: أفضل 3 أنواع من المقاييس [2022]

نشرت: 2021-01-07

Mahout هو مشروع مفتوح المصدر من قبل Apache Software Foundation يستخدمه علماء البيانات لإنشاء خوارزميات تعلم آلي موزعة أو قابلة للتطوير. يركز Mahout بشكل أساسي على الجبر الخطي ، ويتم كتابة خوارزمياته أعلى البنية التحتية Hadoop. تتضمن بعض تقنيات التنقيب عن البيانات الشائعة التي ينفذها هذا الإطار التوصية ، والتصنيف ، والتكتل. تعتبر مقاييس المسافة في محوت موضوعًا أساسيًا للتعرف على مشاكل التجميع.

نظرًا لأن Mahout توفر للمبرمجين بنية جاهزة للاستخدام وتسمح بإدارة سريعة وفعالة للبيانات المجمعة ، فقد أصبح أحد أهم مشاريع Apache. وتستخدمه العديد من الشركات مثل Twitter و Facebook و LinkedIn و Adobe و Yahoo وغيرها في مهام التنقيب عن البيانات الداخلية.

تعرف على المزيد: 12 من أكثر تطبيقات التنقيب عن البيانات فائدة

جدول المحتويات

ما هي مقاييس المسافة؟

كما يوحي الاسم ، فهو مقياس للمسافة بين نقاط البيانات. تحسب مقاييس المسافة في Mahout مدى قرب وجود متجهين تعسفيين وتشير إلى التشابه بين النقاط. دعونا ننظر الآن في بعض الأمثلة.

  • لنفترض أنك تدير شركة هاتف ، وتريد إنشاء شبكة من الأبراج في منطقة معينة. لضمان قوة الإشارة المثلى ، تحتاج إلى تحديد مواقع إقامة الأبراج.
  • تريد الإدارة الإقليمية فتح سلسلة من أقسام رعاية الطوارئ العامة. يجب أن يكون موقع هذه الوحدات في جميع أنحاء المنطقة بحيث تقع بالقرب من المناطق المعرضة للحوادث.
  • من أجل تطبيق القانون الفعال والمراقبة الصارمة في المناطق التي ترتفع فيها معدلات الجريمة ، يمكنك تقييم المنطقة المجاورة التي يجب أن تتمركز فيها عربات الدورية.

في كل هذه السيناريوهات ، يمكنك أن ترى أن مقاييس المسافة تقع في صميم خوارزميات التجميع. في مشاكل التعلم غير الخاضعة للإشراف ، يشكل هذا الحساب أحد أهم العوامل لاتخاذ القرار. سيؤثر اختيارك لتقنية قياس المسافة على النتائج إلى حد كبير.

أيضًا ، لا تحتاج إلى استخدام التقنيات المتوفرة في مكتبة محوت. يمكنك أيضًا تطبيق طريقة مخصصة لاكتشاف مقاييس المسافة التي تستند إلى سياق البيانات أو الخوارزمية المحددة الخاصة بك. كل ما عليك القيام به هو تنفيذ المنطق الرياضي لنقاط المتجه وتعيين قيمة لتحديد ما إذا كان هذا التنفيذ يقع ضمن نقطة مركزية معينة. يشار إلى مركز الكتلة باسم النقطه الوسطى.

تعرف على: أفضل الشركات التي توظف علماء البيانات في الهند

تنظيف أساسيات المجموعات

قبل الخوض في الفئات المختلفة ، دعنا أولاً نجدد أساسياتنا حول التجميع. المجموعات هي في الأساس مجموعات تشابه أو اختلاف في مثيلات البيانات. فيما يلي بعض التطبيقات الواقعية.

  • يمكن للمسوقين استخدام التجميع لتقسيم العملاء وتنفيذ إستراتيجية تسويق مستهدفة.
  • بصفتك شركة مصنّعة للملابس ، قد ترغب في تجميع الأشخاص بناءً على مقاسات القمصان المتشابهة ، مثل "صغير" و "متوسط" و "كبير". لا يعمل نهج مقاس واحد يناسب الجميع في كل مرة. ويمكن أن تكون القمصان المخصصة لكل شخص باهظة الثمن.
  • في أنظمة إدارة المكتبات ، يتم استخدام التجميع لتنظيم الكتب والوثائق وفقًا لأوجه التشابه في محتواها.
  • في قاعدة بيانات رصد الأرض ، يمكن للتكتل أن يساعد في تحديد المناطق ذات الاستخدام المتشابه للأرض.
  • في علم الأحياء ، يمكن استخدام التجميع لتصنيف الجينات التي لها وظائف مماثلة وفهم الهياكل المتأصلة في مجموعات نباتية وحيوانية مختلفة.

علاوة على ذلك ، يتم إنشاء كميات هائلة من البيانات واستخدامها كل يوم في هذا العصر الرقمي. وبالتالي ، يعد التجميع أحد أكثر تقنيات استخراج البيانات استخدامًا نظرًا للراحة التي يوفرها.

يتم تحديد جودة التجميع من خلال جانبين أساسيين - خوارزمية التجميع ووظيفة المسافة.

  • خوارزمية التجميع (الجزئية ، الهرمية ، إلخ.)
  • وظيفة المسافة (التشابه أو الاختلاف)

الآن بعد أن قمنا بمراجعة المفاهيم الأساسية ، دعنا ننتقل إلى الأنواع المختلفة من مقاييس المسافة المتوفرة في Apache Mahout.

قراءة: تحليل الكتلة في التنقيب في البيانات

مقاييس المسافة في محوت

قياس مسافة جيب التمام

هذا النوع من قياس المسافة هو الأنسب للعثور على تشابه النص. بالنظر إلى مجموعة من المستندات النصية ، يمكن أن ينتج تسلسل هرمي للموضوع عن طريق تجميعها باستخدام الكلمات الشائعة ذات الأهمية الأكبر.

يستخدم مقياس مسافة جيب التمام خوارزمية TF-IDF لتحويل السمات إلى متجهات. وأوزان المتجهات أعلى لكلمات الموضوع من كلمات التوقف. لذلك ، تحتوي المستندات المتشابهة على كلمات موضوعية مشتركة بينها. نتيجة لذلك ، يكون لمتجه النقطه الوسطى (أو مركز العنقود) متوسط ​​وزن أعلى لكلمات الموضوع.

أحد أكثر التطبيقات شيوعًا هو تصنيفات الصفحات أو ملخصات البحث التي تصادفها على صفحات Google. تقوم الخوارزمية أولاً بتشكيل مجموعات ثم العثور على النقطه الوسطى. هذا الإجراء مفيد أيضًا لاكتشاف المعلومات في تطبيقات الذكاء الاصطناعي مثل Siri و Alexa.

قياس المسافة بين الكتلة

إنها المسافة بين الأشياء التي تنتمي إلى مجموعتين منفصلتين. يعد قياس المسافة بين المجموعات مناسبًا لتقييم جودة مجموعتك. إذا كانت النقطتين الوسطى قريبة جدًا من بعضها البعض ، فسيؤدي ذلك إلى إعاقة عملية إنشاء مجموعات ذات ميزات متشابهة. لذلك ، يصبح من الأهمية بمكان رسم فروق واضحة بين أعضاء الكتلة. الهدف العام هو تقسيم أو تقسيم نقاط البيانات إلى مجموعات محددة.

اقرأ المزيد: تحليل الكتلة في R

قياس المسافة داخل الكتلة

يمنحك هذا المقياس المسافة بين عضوين من نفس المجموعة. لذلك ، فهو عكس قياس المسافة بين المجموعات. المسافات داخل الكتلة أصغر مقارنة بالمسافات بين المجموعات. تشير المقاييس الصغيرة للمسافة بين الأجسام المتشابهة إلى أن المجموعات ضيقة ويتم تمييزها بشكل موثوق عن بعضها البعض.

يعتمد هذا النوع من قياس المسافة على شيئين: 1) عقوبة للأشياء البعيدة 2) قيمة أصغر للأشياء الأقرب. والمجموعات الأكثر فصلًا لها نسبة عالية من هاتين القيمتين.

الآن ، دعونا نلقي نظرة على العرض التوضيحي التالي لمقاييس مسافة التشابه في تحليل الكتلة.

يمكن لخدمة البريد السريع إنشاء "مناطق تسليم" مختلفة عن طريق تجميع تلك المواقع التي يوجد بها أدنى مسافة بينها. بهذه الطريقة ، تسهل الخوارزمية التسليم السريع والفعال من قبل الموظفين. مهمتنا هي تحسين المسافة بين النقاط النقطية للمجموعات ، وتقليل التباين داخل الكتلة ، والتأكد من أن مجموعات البيانات ذات الخصائص الأكثر تشابهًا مجمعة معًا.

تعلم دورات علوم البيانات من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

تغليف

بهذا نكون قد أوضحنا مفهوم قياس المسافة في محوت . والآن بعد أن حصلت على جوهر أداة البيانات الضخمة المهمة هذه ، يمكنك توضيحها بسهولة في أي مقابلة عمل. أيضًا ، سيساعدك الفهم الواضح لمقاييس المسافة المختلفة على تحقيق الدقة أثناء تنفيذ خوارزميات التجميع.

إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع دبلوم PG في IIIT-B & upGrad في علوم البيانات والذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1- على - 1 مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.

ما هو التحليل العنقودي وما هي خصائصه؟

تُعرف العملية التي نحدد فيها كائنًا دون تسميته باسم تحليل الكتلة. يستخدم التنقيب في البيانات لتجميع كائنات مختلفة متشابهة في مجموعة واحدة تمامًا كما هو الحال في التحليل التمييزي. تشمل تطبيقاته التعرف على الأنماط وتحليل المعلومات وتحليل الصور والتعلم الآلي ورسومات الكمبيوتر والعديد من المجالات الأخرى.
تحليل الكتلة هو مهمة يتم إجراؤها باستخدام العديد من الخوارزميات الأخرى التي تختلف عن بعضها البعض في نواح كثيرة وبالتالي إنشاء كتلة.
فيما يلي بعض خصائص التحليل العنقودي - التحليل العنقودي قابل للتطوير بدرجة كبيرة. يمكنه التعامل مع مجموعة مختلفة من السمات. يظهر الأبعاد العالية ، التفسير.

هل تستحق المساهمة في مشاريع مفتوحة المصدر كل هذا العناء؟

المشاريع مفتوحة المصدر هي تلك المشاريع التي يكون كودها المصدر مفتوحًا للجميع ويمكن لأي شخص الوصول إليه لإجراء تعديلات عليه. تعد المساهمة في المشاريع مفتوحة المصدر مفيدة للغاية لأنها لا تزيد من شحذ مهاراتك فحسب ، بل تمنحك أيضًا بعض المشاريع الكبيرة لوضعها في سيرتك الذاتية.
نظرًا لأن العديد من الشركات الكبرى تتحول إلى برامج مفتوحة المصدر ، فسيكون من المربح لك أن تبدأ في المساهمة مبكرًا. تبنت بعض الأسماء الكبيرة مثل Microsoft و Google و IBM و Cisco المصدر المفتوح بطريقة أو بأخرى.
يوجد مجتمع كبير من مطوري البرامج مفتوحة المصدر الأكفاء الذين يساهمون باستمرار في تحسين البرنامج وتحديثه. المجتمع صديق للمبتدئين ومستعد دائمًا للتصعيد والترحيب بالمساهمين الجدد. هناك قدر لا بأس به من الوثائق التي يمكن أن توجه طريقك للمساهمة في المصدر المفتوح.

التفريق بين الطرق أحادية المتغير وطريقة المتغيرات المتعددة.

الطريقة أحادية المتغير هي أبسط طريقة للتعامل مع الخارج. لا يستعرض أي علاقة لأنها متغير واحد والغرض الرئيسي منه هو تحليل البيانات وتحديد النمط المرتبط بها. المتوسط ​​والوسيط والوضع هي أمثلة على الأنماط الموجودة في البيانات أحادية المتغير.
من ناحية أخرى ، فإن الطريقة متعددة المتغيرات هي لتحليل ثلاثة متغيرات أو أكثر. إنها أكثر دقة من الطريقة السابقة نظرًا لأن الطريقة متعددة المتغيرات ، بخلاف الطريقة أحادية المتغير ، تتعامل مع العلاقات والأنماط. تعد الشجرة المضافة ، وتحليل الارتباط الكنسي ، وتحليل الكتلة بعضًا من طرق إجراء التحليل متعدد المتغيرات.