PCA في التعلم الآلي: الافتراضات وخطوات التطبيق والتطبيقات
نشرت: 2020-11-12جدول المحتويات
فهم تقليل الأبعاد في ML
يتم اختبار خوارزميات ML (التعلم الآلي) مع بعض البيانات التي يمكن تسميتها بمجموعة ميزات في وقت التطوير والاختبار. يحتاج المطورون إلى تقليل عدد متغيرات الإدخال في مجموعة الميزات الخاصة بهم لزيادة أداء أي نموذج / خوارزمية ML معينة.
على سبيل المثال ، افترض أن لديك مجموعة بيانات بها أعمدة عديدة ، أو أن لديك مجموعة من النقاط في مسافة ثلاثية الأبعاد. في هذه الحالة ، يمكنك تقليل أبعاد مجموعة البيانات الخاصة بك عن طريق تطبيق تقنيات تقليل الأبعاد في ML. PCA (تحليل المكونات الرئيسية) هي إحدى تقنيات تقليل الأبعاد المستخدمة على نطاق واسع بواسطة مطوري / مختبري تعلم الآلة. دعونا نتعمق في فهم PCA في التعلم الآلي.
تحليل المكون الرئيسي
PCA هي تقنية إحصائية غير خاضعة للإشراف تُستخدم لتقليل أبعاد مجموعة البيانات. تميل نماذج ML التي تحتوي على العديد من متغيرات الإدخال أو الأبعاد الأعلى إلى الفشل عند التشغيل على مجموعة بيانات إدخال أعلى. يساعد PCA في تحديد العلاقات بين المتغيرات المختلفة ثم اقترانها. تعمل PCA على بعض الافتراضات التي يجب اتباعها وتساعد المطورين على الحفاظ على معيار.
يتضمن PCA تحويل المتغيرات في مجموعة البيانات إلى مجموعة جديدة من المتغيرات التي تسمى أجهزة الكمبيوتر (المكونات الرئيسية). ستكون المكونات الأساسية مساوية لعدد المتغيرات الأصلية في مجموعة البيانات المحددة.
يحتوي المكون الأساسي الأول (PC1) على الحد الأقصى للتباين الذي كان موجودًا في المتغيرات السابقة ، ويقل هذا الاختلاف كلما انتقلنا إلى المستوى الأدنى. سيكون لجهاز الكمبيوتر النهائي أقل تباين بين المتغيرات وستكون قادرًا على تقليل أبعاد مجموعة الميزات الخاصة بك.
الافتراضات في PCA
هناك بعض الافتراضات في PCA التي يجب اتباعها لأنها ستؤدي إلى أداء دقيق لتقنية تقليل الأبعاد هذه في ML. الافتراضات في PCA هي:

• يجب أن يكون هناك خطي في مجموعة البيانات ، أي أن المتغيرات تتحد بطريقة خطية لتشكيل مجموعة البيانات. المتغيرات تظهر العلاقات فيما بينها.
• تفترض PCA أنه يجب الانتباه إلى المكون الرئيسي ذي التباين العالي وأن أجهزة الكمبيوتر ذات التباين الأقل يتم تجاهلها باعتبارها ضوضاء. أدى إطار معامل ارتباط بيرسون إلى أصل PCA ، وكان من المفترض أولاً أن المحاور ذات التباين العالي ستتحول فقط إلى مكونات رئيسية.
• يجب الوصول إلى جميع المتغيرات على نفس مستوى نسبة القياس. المعيار الأكثر تفضيلاً هو ما لا يقل عن 150 ملاحظة لمجموعة العينة مع قياس النسبة 5: 1.
• يجب أن تكون القيم القصوى التي تنحرف عن نقاط البيانات الأخرى في أي مجموعة بيانات ، والتي تسمى أيضًا القيم المتطرفة ، أقل. سيمثل عدد أكبر من القيم المتطرفة أخطاء تجريبية وسيؤدي إلى تدهور نموذج / خوارزمية ML.
• يجب أن تكون مجموعة الميزات مرتبطة وأن مجموعة الميزات المخفضة بعد تطبيق PCA ستمثل مجموعة البيانات الأصلية ولكن بطريقة فعالة وبأبعاد أقل.
يجب أن تقرأ: راتب تعلم الآلة في الهند
خطوات تطبيق PCA
فيما يلي خطوات تطبيق PCA على أي نموذج / خوارزمية ML:
• تطبيع البيانات ضروري جدا لتطبيق PCA. يمكن أن تسبب البيانات غير المقاسة مشاكل في المقارنة النسبية لمجموعة البيانات. على سبيل المثال ، إذا كانت لدينا قائمة بالأرقام تحت عمود في مجموعة بيانات ثنائية الأبعاد ، فسيتم طرح متوسط هذه الأرقام من جميع الأرقام لتطبيع مجموعة البيانات ثنائية الأبعاد. يمكن تسوية البيانات في مجموعة بيانات ثلاثية الأبعاد أيضًا.
• بمجرد تسوية مجموعة البيانات ، ابحث عن التباين بين الأبعاد المختلفة وضعها في مصفوفة التغاير. ستمثل العناصر خارج القطر في مصفوفة التغاير التباين المشترك بين كل زوج من المتغيرات وستمثل العناصر القطرية الفروق لكل متغير / بُعد.
ستكون مصفوفة التغاير التي تم إنشاؤها لأي مجموعة بيانات متماثلة دائمًا. ستمثل مصفوفة التغاير العلاقة في البيانات ، ويمكنك فهم مقدار التباين في كل مكون أساسي بسهولة.
• عليك أن تجد القيم الذاتية لمصفوفة التغاير التي تمثل التباين في البيانات على أساس متعامد في المؤامرة. سيكون عليك أيضًا العثور على المتجهات الذاتية لمصفوفة التغاير التي ستمثل الاتجاه الذي يحدث فيه الحد الأقصى للتباين بين البيانات.
افترض أن مصفوفة التغاير "C" بها مصفوفة مربعة "E" لقيم ذاتية لـ "C". في هذه الحالة ، يجب أن تفي بهذه المعادلة - محدد (EI - C) = 0 ، حيث "I" هي مصفوفة هوية من نفس البعد مثل "C". يجب عليك التحقق من أن مصفوفة التغاير الخاصة بهم هي مصفوفة متماثلة / مربعة لأنه عندئذٍ فقط يكون حساب القيم الذاتية ممكنًا.

• رتب قيم eigenvalues بترتيب تصاعدي / تنازلي وحدد قيم eigenvalues الأعلى. يمكنك اختيار عدد قيم eigenvalues التي تريد المتابعة معها. ستفقد بعض المعلومات أثناء تجاهل قيم eigenvalues الأصغر ، لكن هذه القيم الدقيقة لن تخلق تأثيرًا كافيًا على النتيجة النهائية.
ستصبح قيم eigenvalues الأعلى المحددة أبعاد مجموعة الميزات المحدثة. نشكل أيضًا متجهًا للميزات ، وهو عبارة عن مصفوفة متجه تتكون من متجهات ذاتية لقيم ذاتية مختارة نسبيًا.
• باستخدام متجه الميزات ، نجد المكونات الرئيسية لمجموعة البيانات قيد التحليل. نقوم بضرب تبديل متجه الميزة مع تبديل المصفوفة المقاسة (نسخة مصغرة من البيانات بعد التطبيع) للحصول على مصفوفة تحتوي على مكونات أساسية.
سنلاحظ أن أعلى قيمة ذاتية ستكون مناسبة للبيانات ، ولن توفر القيم الأخرى الكثير من المعلومات حول مجموعة البيانات. هذا يثبت أننا لا نفقد البيانات عند تقليل أبعاد مجموعة البيانات ؛ نحن فقط نمثلها بشكل أكثر فعالية.
يتم تنفيذ هذه الطرق لتقليل أبعاد أي مجموعة بيانات في PCA أخيرًا.
تطبيقات PCA
يتم إنشاء البيانات في العديد من القطاعات ، وهناك حاجة لتحليل البيانات لنمو أي شركة / شركة. سيساعد PCA في تقليل أبعاد البيانات ، مما يسهل تحليلها. تطبيقات PCA هي:
• علم الأعصاب - يستخدم علماء الأعصاب PCA لتحديد أي خلية عصبية أو لرسم خريطة لبنية الدماغ أثناء التحولات الطورية.
• التمويل - يتم استخدام PCA في قطاع التمويل لتقليل أبعاد البيانات لإنشاء محافظ الدخل الثابت. تتضمن العديد من الجوانب الأخرى لقطاع التمويل PCA مثل التنبؤ بالعائدات ، وإنشاء خوارزميات تخصيص الأصول أو خوارزميات الأسهم ، وما إلى ذلك.
• تقنية الصور - تُستخدم PCA أيضًا لضغط الصور أو معالجة الصور الرقمية. يمكن تمثيل كل صورة عبر مصفوفة من خلال رسم قيم كثافة كل بكسل ، ومن ثم يمكننا تطبيق PCA عليها.
• التعرف على الوجه - PCA في التعرف على الوجه يؤدي إلى إنشاء eigenfaces مما يجعل التعرف على الوجه أكثر دقة.
• طبي - يستخدم PCA في الكثير من البيانات الطبية للعثور على الارتباط بين المتغيرات المختلفة. على سبيل المثال ، يستخدم الأطباء PCA لإظهار العلاقة بين الكوليسترول والبروتين الدهني منخفض الكثافة.

• الأمان - يمكن العثور على الحالات الشاذة بسهولة باستخدام PCA. يتم استخدامه لتحديد الهجمات الإلكترونية / الكمبيوتر وتصورها بمساعدة PCA.
نقاط الوجبات الجاهزة
يمكن أن يؤدي PCA أيضًا إلى أداء نموذج منخفض بعد تطبيقه إذا كانت مجموعة البيانات الأصلية بها ارتباط ضعيف أو لا يوجد ارتباط. يجب أن تكون المتغيرات مرتبطة ببعضها البعض لتطبيق PCA تمامًا. يزودنا PCA بمجموعة من الميزات ، ويتم القضاء على أهمية السمات الفردية من مجموعة البيانات الأصلية. المحاور الرئيسية الأكثر تباينًا هي المكونات الرئيسية المثالية.
اقرأ أيضًا: أفكار مشروع التعلم الآلي
خاتمة
PCA هي تقنية مستخدمة على نطاق واسع لتقليل أبعاد مجموعة الميزات.
إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.
هل يمكن استخدام PCA على جميع البيانات؟
نعم. تحليل المكونات الرئيسية (PCA) هي تقنية لتحليل البيانات توفر طريقة للنظر إلى البيانات وفهمها ذات أبعاد عالية جدًا. بمعنى آخر ، يمكن تطبيق PCA على البيانات التي تحتوي على عدد كبير من المتغيرات. هناك مفهوم خاطئ شائع مفاده أنه لا يمكن استخدام PCA إلا على البيانات الموجودة في شكل معين. على سبيل المثال ، يعتقد الكثير من الناس أن PCA مفيد فقط في المتغيرات الرقمية. ليست هذه هي القضية. في الواقع ، يمكن استخدام PCA مع المتغيرات من جميع الأنواع. على سبيل المثال ، يمكن تطبيق PCA على المتغيرات الفئوية والمتغيرات الترتيبية وما إلى ذلك.
ما هي حدود تحليل المكونات الرئيسية؟
PCA هي أداة رائعة لتحليل بياناتك واستخراج عاملين أو ثلاثة من أهم العوامل. إنه لأمر رائع أن تكتشف القيم المتطرفة والاتجاه. ولكن ، لديها بعض القيود مثل: أنها غير مناسبة لمجموعات البيانات الصغيرة (بشكل عام ، يجب أن تحتوي مجموعة البيانات على أكثر من 30 صفًا). لا يجد العوامل المهمة ولكنه يختارها بناءً على القيم. لذلك ، من الصعب العثور على العوامل المهمة. ليس لديها بنية رياضية قوية وراءها. من الصعب مقارنة البيانات مع PCA. لا يمكن العثور على أي علاقات غير خطية.
ما هي مزايا تحليل المكون الرئيسي؟
تحليل المكون الرئيسي (PCA) هو طريقة إحصائية تستخدم لتحويل عدد كبير من المتغيرات المرتبطة إلى عدد أصغر بكثير من المتغيرات غير المرتبطة يشار إليها بالمكونات الرئيسية. يمكن استخدام PCA كأسلوب لتقليل البيانات لأنه يسمح لنا بالعثور على أهم المتغيرات اللازمة لوصف مجموعة البيانات. يمكن أيضًا استخدام PCA لتقليل أبعاد مساحة البيانات من أجل الحصول على نظرة ثاقبة على الهيكل الداخلي للبيانات. هذا مفيد عند التعامل مع مجموعات البيانات الكبيرة.