خوارزميات الرؤية الحاسوبية: كل ما تريد أن تعرفه [2022]
نشرت: 2021-01-01تعرف على الخوارزميات التي تمكن أجهزة الكمبيوتر من الإدراك
جدول المحتويات
مقدمة
تعني كلمة رؤية الكمبيوتر قدرة الكمبيوتر على رؤية وإدراك ما يحيط به. يوجد الكثير من التطبيقات التي تتيح تغطية رؤية الكمبيوتر - اكتشاف الأشياء والتعرف عليها ، والسيارات ذاتية القيادة ، والتعرف على الوجه ، وتتبع الكرة ، ووضع علامات على الصور ، وغير ذلك الكثير. قبل الغوص في المصطلحات الفنية ، دعنا أولاً نناقش خط أنابيب رؤية الكمبيوتر بالكامل.
ينقسم خط الأنابيب بأكمله إلى 5 خطوات أساسية ، لكل منها وظيفة محددة. أولاً ، المدخلات ضرورية للخوارزمية لمعالجة التي يمكن أن تكون في شكل صورة أو دفق من الصورة (إطارات الصور). الخطوة التالية هي المعالجة المسبقة. في هذه الخطوة ، يتم تطبيق الوظائف على الصورة (الصور) الواردة حتى تتمكن الخوارزمية من فهم الصورة بشكل أفضل.
تتضمن بعض الوظائف تقليل التشويش ، وقياس الصورة ، والتوسع ، والتآكل ، وإزالة بقع اللون ، وما إلى ذلك. والخطوة التالية هي تحديد المنطقة محل الاهتمام أو المنطقة محل الاهتمام. تحت هذا يكمن خوارزميات الكشف عن الكائنات وتجزئة الصورة. علاوة على ذلك ، لدينا ميزة استخراج والتي تعني استرداد المعلومات / الميزات ذات الصلة من الصور الضرورية لتحقيق الهدف النهائي.
الخطوة الأخيرة هي التعرف أو التنبؤ ، حيث نتعرف على الكائنات في إطار معين من الصور أو نتنبأ باحتمالية وجود كائن في إطار صورة معين.
مثال
دعونا نلقي نظرة على تطبيق العالم الحقيقي لخط أنابيب رؤية الكمبيوتر. التعرف على تعبيرات الوجه هو تطبيق لرؤية الكمبيوتر يستخدمه الكثير من المعامل البحثية للحصول على فكرة عن تأثير منتج معين على مستخدميه. مرة أخرى ، لدينا بيانات الإدخال التي نطبق عليها خوارزميات ما قبل المعالجة.

تتضمن الخطوة التالية اكتشاف الوجوه في إطار معين واقتصاص هذا الجزء من الإطار. بمجرد تحقيق ذلك ، يتم تحديد معالم الوجه مثل الفم والعينين والأنف وما إلى ذلك - وهي السمات الرئيسية للتعرف على المشاعر.
في النهاية ، يصنف نموذج التنبؤ (نموذج مدرب) الصور بناءً على الميزات المستخرجة في الخطوات الوسيطة.
الخوارزميات
قبل أن أبدأ بذكر الخوارزميات في رؤية الكمبيوتر ، أود أن أؤكد على مصطلح "التردد". تردد الصورة هو معدل تغير الشدة. الصور عالية التردد لها تغيرات كبيرة في الشدة. الصورة ذات التردد المنخفض تكون موحدة نسبيًا في السطوع أو تتغير شدتها ببطء.
عند تطبيق تحويل فورييه على صورة ، نحصل على طيف حجم ينتج معلومات تردد الصورة. تعني النقطة المركزة في وسط صورة مجال التردد أن الكثير من مكونات التردد المنخفض موجودة في الصورة. تشمل المكونات عالية التردد - الحواف ، الزوايا ، الخطوط ، إلخ. نحن نعلم أن الصورة هي دالة في x و yf (x ، y). لقياس تغير الشدة ، نأخذ مشتق الدالة f (x، y).
مرشح رصين
يتم استخدام مشغل Sobel في معالجة الصور ورؤية الكمبيوتر لخوارزميات الكشف عن الحواف. يقوم المرشح بإنشاء صورة للتأكيد على الحواف. يحسب تقريبًا لميل / انحدار وظيفة شدة الصورة. في كل بكسل في الصورة ، يكون ناتج مشغل Sobel هو متجه التدرج المقابل وقاعدة هذا المتجه.
يقوم مشغل Sobel بتحويل الصورة باستخدام مرشح قيم صحيح صغير في الاتجاهين الأفقي والرأسي. هذا يجعل المشغل غير مكلف من حيث تعقيد الحساب. يكتشف مرشح Sx الحواف في الاتجاه الأفقي ويكشف مرشح Sy الحواف في الاتجاه الرأسي. إنه مرشح تمرير عالي.
تطبيق Sx على الصورة
تطبيق سي على الصورة
قراءة: راتب تعلم الآلة في الهند
مرشح متوسط
مرشح متوسط هو مرشح طبيعي يستخدم لتحديد سطوع أو تعتيم الصورة. ينتقل المرشح المتوسط عبر الصورة بكسلًا بالبكسل ليحل محل كل قيمة في البكسل بمتوسط قيمة وحدات البكسل المجاورة ، بما في ذلك نفسها.
يعمل الترشيح المتوسط (أو المتوسط) على تنعيم الصور عن طريق تقليل مقدار التباين في الكثافة بين وحدات البكسل المجاورة.
مرشح متوسط ، مصدر الصورة
مرشح التمويه الغاوسي
مرشح التمويه الغاوسي هو مرشح تمرير منخفض وله الوظائف التالية:
- ينعم الصورة
- يحجب الأجزاء عالية التردد من الصورة
- يحافظ على الحواف
رياضيًا ، من خلال تطبيق تمويه غاوسي على صورة ما ، نقوم أساسًا بتحويل الصورة بوظيفة غاوسية.

في الصيغة أعلاه ، x هي المسافة الأفقية من نقطة الأصل ، y هي المسافة العمودية من نقطة الأصل ، و هي الانحراف المعياري لتوزيع Gaussian. في بعدين ، تمثل الصيغة سطحًا تكون ملفاته الجانبية عبارة عن دوائر متحدة المركز بتوزيع غاوسي من نقطة الأصل.
مرشح التمويه الغاوسي ، مصدر الصورة
شيء واحد يجب ملاحظته هنا هو أهمية اختيار حجم النواة الصحيح. هذا مهم لأنه إذا كان بُعد النواة كبيرًا جدًا ، فقد تختفي الميزات الصغيرة الموجودة في الصورة وستبدو الصورة غير واضحة. إذا كانت صغيرة جدًا ، فلن يتم التخلص من الضوضاء في الصورة.
اقرأ أيضًا: أنواع خوارزمية الذكاء الاصطناعي التي يجب أن تعرفها
كاشف الحافة الحادة
إنها خوارزمية تستخدم أربعة مرشحات لاكتشاف الحواف الأفقية والعمودية والقطرية في الصورة غير الواضحة. الخوارزمية تؤدي الوظائف التالية.
- إنها خوارزمية دقيقة للكشف عن الحواف مستخدمة على نطاق واسع
- يقوم بتصفية الضوضاء باستخدام Gaussian Blur
- يكتشف قوة واتجاه الحواف باستخدام مرشح سوبيل
- يطبق عدم الحد الأقصى للقمع لعزل أقوى الحواف وتقليلها إلى خط بكسل واحد
- يستخدم التخلفية (طريقة العتبة المزدوجة) لعزل أفضل الحواف
كاشف Canny Edge على صورة محرك بخاري ، صورة من ويكيبيديا
هار كاسكيد
هذا نهج قائم على التعلم الآلي حيث يتم تدريب وظيفة التسلسل لحل مشاكل التصنيف الثنائي. يتم تدريب الوظيفة من عدد كبير من الصور الإيجابية والسلبية ويتم استخدامها أيضًا لاكتشاف الأشياء في الصور الأخرى. يكتشف ما يلي:
- حواف
- خطوط
- أنماط مستطيلة
للكشف عن الأنماط المذكورة أعلاه ، يتم استخدام الميزات التالية:
طبقات تلافيفية
في هذا النهج ، تتعلم الشبكة العصبية ميزات مجموعة من الصور التي تنتمي إلى نفس الفئة. يتم التعلم عن طريق تحديث أوزان الخلايا العصبية باستخدام تقنية الانتشار الخلفي والنزول المتدرج كمحسِّن.
إنها عملية تكرارية تهدف إلى تقليل الخطأ بين الناتج الفعلي والحقيقة الأساسية. تعمل طبقات / كتل الالتفاف التي تم الحصول عليها في العملية كطبقات معالم تُستخدم لتمييز الصورة الإيجابية عن الصورة السلبية. ويرد أدناه مثال على طبقة الالتفاف.

الشبكة العصبية التلافيفية ، مصدر الصورة
تصنف الطبقات المتصلة بالكامل مع وظيفة SoftMax في النهاية الصورة الواردة إلى إحدى الفئات التي يتم التدريب عليها. درجة المخرجات هي درجة احتمالية تتراوح بين 0 إلى 1.
يجب أن تقرأ: أنواع خوارزمية التصنيف في ML
خاتمة
تمت تغطية نظرة عامة حول الخوارزميات الأكثر شيوعًا المستخدمة في رؤية الكمبيوتر في هذه المدونة جنبًا إلى جنب مع خط أنابيب عام. تشكل هذه الخوارزميات أساس خوارزميات أكثر تعقيدًا مثل SIFT و SURF و ORB وغيرها الكثير.
إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.
ما الفرق بين معالجة الصور والرؤية الحاسوبية؟
تحسن معالجة الصور الشكل الخام للصور لإنتاج نسخة أفضل. يتم استخدامه لاستخراج بعض ميزات الصورة الأساسية أيضًا. ومن ثم فإن معالجة الصور هي قسم متميز في مجال رؤية الكمبيوتر نفسه. ومع ذلك ، يركز Computer Vision على التعرف على كائنات المحفزات لتصنيفها بدقة. كلاهما يستخدم أيضًا تقنيات مماثلة في إجراءاته. ومن ثم ، يمكن أن تكون معالجة الصور العملية الأساسية في رؤية الكمبيوتر. يبقى مجالًا بارزًا في الذكاء الاصطناعي. تركز معالجة الصور على تحسين الصور ؛ تركز تقنية رؤية الكمبيوتر على التحليلات التفصيلية والدقيقة لإنشاء أنظمة أفضل.
لماذا يستخدم التعلم العميق لبناء خوارزميات الرؤية الحاسوبية؟
جعلت رؤية الكمبيوتر الذكاء الاصطناعي (AI) أكثر قوة بسبب البحث الدقيق القائم على البيانات والتحليل المتسق للبيانات المرئية. التعلم العميق هو عملية مستمرة لإدخال البيانات من خلال الشبكات العصبية. يتم اشتقاق المعلومات من عمليات الدماغ البشري لإتقان الخوارزمية للتعلم والمعالجة والإخراج الفعال. يعزز التعلم العميق التصنيف الدقيق للبيانات ، ويضمن نموذجًا موثوقًا للذكاء الاصطناعي. تستخدم رؤية الكمبيوتر هذه الطريقة لمواءمة الذكاء الاصطناعي مع الشبكة العصبية للدماغ البشري. لقد مكّن التعلم العميق الأنظمة التي يمكن الاعتماد عليها لمساعدة البشر وتحسين نوعية حياتهم.
ما هو مرشح الترددات المنخفضة وفلتر الترددات العالية؟
في خوارزميات رؤية الكمبيوتر ، تنتج المرشحات المتعددة النتائج المرجوة من صورة خام. تؤدي هذه المرشحات وظائف عديدة لتنعيم وشحذ وإبراز المظهر حسب الرغبة. تختلف المرشحات في تواترها وتقترح تأثيرات مختلفة. على سبيل المثال ، يعمل مرشح Gaussian Blur بشكل أساسي على تنعيم الصورة عن طريق تغيير الأجزاء عالية التردد من الصورة والحفاظ على الحواف. يطلق عليه مرشح Low Pass لأنه يقلل من المواقع عالية التردد ويحافظ على المواقع منخفضة التردد مما يمنحه رؤية أكثر سلاسة. في مرشحات High Pass ، يتم تقليل المواقع منخفضة التردد ، ويتم الحفاظ على السابقة ، مما ينتج عنه رؤية أكثر وضوحًا.