الشبكات العصبية التلافيفية: الدليل النهائي للمبتدئين في عام 2022

نشرت: 2021-01-05

سيكشف بحث Google السريع عن "علم البيانات" بشكل لا لبس فيه لأي شخص كيف
أصبح المجال شائعًا في السنوات الخمس الماضية. جنبا إلى جنب مع علم البيانات ، مصطنعة
يقوم الذكاء والتعلم الآلي والتعلم العميق أيضًا بجولات شائعة في
في مجال علوم الكمبيوتر. آخر ما تمت إضافته إلى هذه القائمة هو العصب التلافيفي
الشبكات - ابتكار من مجال الرؤية الحاسوبية.

جدول المحتويات

من أين بدأ كل شيء؟

حققت الشبكات العصبية نجاحًا كبيرًا في عام 2012 عندما فاز Alex Krizhevsky بجائزة
مسابقة ImageNet في ذلك العام. هذه المنافسة شبيهة بأولمبياد الكمبيوتر
الرؤية وعندما استخدمها أليكس ، انخفض خطأ التصنيف من 26٪ إلى 15٪.

كان هذا شعاع الليزر الواضح للأمل بالنسبة للشركات وأجهزة الكمبيوتر
العلماء بحاجة. منذ ذلك الحين ، أصبحت شركات مثل Instagram و Facebook و Pinterest وما إلى ذلك.
نفذت بحماس الشبكات العصبية لتقديم أفضل تجربة ل
جمهورهم. قراءة: دروس الشبكة العصبية.

سيساعد الاتصال البيولوجي للشبكات العصبية التلافيفية أيضًا في تكوينها
الأساس واضح. في عام 1962 ، أظهر Hubel و Wiesel أن الخلايا العصبية المختلفة في
تم إطلاق القشرة البصرية فقط عند وجود إشارات بصرية محددة. معا ، هؤلاء
كان للخلايا العصبية بنية عمودية وعند إطلاقها تنتج بصريًا بشكل جماعي
المعرفة.

على سبيل المثال ، تشتعل بعض الخلايا العصبية فقط عندما تتعرض لحواف أفقية.
أطلق آخرون في وجود حواف عمودية أو قطرية. وهكذا ، الخلايا العصبية المختلفة
استجابت لمكونات بصرية مختلفة ومكنتنا من الرؤية.

ما هي الشبكة العصبية التلافيفية؟

الشبكة العصبية التلافيفية - تسمى أيضًا CNN أو ConvNet ، هي التعلم العميق
الخوارزمية. يأخذ صورة إدخال ، ويخصص أوزان / تحيزات لمكونات
الصورة ، ثم يصنف الصورة بأكملها. مع التدريب الكافي ، فإن ConvNets
قادرة على تعلم المرشحات / التصنيف والمعالجة المسبقة المطلوبة أقل من
مقارنة بالخوارزميات الأخرى. اقرأ عن الاختلافات بين التعلم العميق والشبكات العصبية.

ما نريد في النهاية أن تفعله الشبكة العصبية التلافيفية هو التفريق
بين الصور وتصنيفها بشكل صحيح. إنه قادر على التقاط كل من الوقت و
التبعيات المكانية بسبب تطبيق المرشحات ذات الصلة.

أساسيات كيف يعمل

تصبح الصورة مصفوفة حسب دقة الصورة وحجمها.

سيتألف كل إدخال في المصفوفة من رقم من 0 إلى 255 (إذا كان نظام RGB هو
تستخدم). سيمثل هذا الرقم كثافة البكسل في تلك النقطة.

أخذ كل هذه الأرقام كمدخلات ، سيخرج الكمبيوتر رقمًا. هذا العدد
سيشير إلى احتمال أن تنتمي صورة إلى فئة معينة (على سبيل المثال ، منزل ،
طريق ، حافلة ، كلب ، قطة ، إلخ.)

هيكل سي ان ان

عند رؤية الصورة أعلاه ، قد تعتقد أن هناك الكثير من الطبقات في التلافيف
الشبكة العصبية ، ولكن في الواقع ، لا يوجد سوى 3 شبكات رئيسية. وتشمل هذه:
1. الطبقة التلافيفية
2. طبقة التجميع
3. الطبقة المتصلة بالكامل
دعونا نتعمق في كل واحدة من هؤلاء.

الطبقة التلافيفية

هذه هي الطبقة الأساسية للشبكة العصبية التلافيفية. معلماتها
تتكون من مجموعة من المرشحات. هذه المرشحات صغيرة ، لكنها تغطي العمق الكامل لـ
حجم الإدخال.

المهمة الرئيسية التي يتم تنفيذها على الطبقة التلافيفية هي استخراج المستوى العالي
الميزات. الأول (كما هو موضح في الصورة أعلاه) مسؤول عن استخراج منخفض
ميزات المستوى مثل اللون والحواف وما إلى ذلك. تزيل الطبقات التلافيفية اللاحقة امتداد
ميزات عالية المستوى ، مما يؤدي إلى فهم / قراءة كامل للصورة.

طبقة التجمع

تهدف هذه الطبقة إلى تقليل الحجم المكاني لتمثيل الصورة. على هذا النحو ، فإنه
يساعد أيضًا في تقليل مقدار الحساب والمعالجة في الشبكة العصبية.
بالإضافة إلى ذلك ، فإنه يستخرج أيضًا السمات المهيمنة الموضعية والتناوب
ثابت.

يتم إجراء نوع واحد من التجميع باستخدام عملية Max. تختار هذه العملية ملف
أقصى قيمة من كل كتلة عصبية في الطبقة السابقة. النوع الآخر من التجميع
هو متوسط التجميع الذي يُرجع قيمة متوسطة من الكتلة.
نظرًا لأن Max pooling يعمل أيضًا بمثابة مانع للضوضاء ، فإنه يعمل بشكل أفضل من المتوسط
تجمع.

كما هو موضح في الصورة أعلاه ، هناك طبقات تجميع متعددة بالإضافة إلى
طبقات تلافيفية. كلما زاد عدد هذه الطبقات ، زادت الميزات ذات المستوى المنخفض
سيتم استخراجه. ومع ذلك ، فإن القوة الحسابية المنفقة ستزداد أيضًا.

الآن وقد مرت الصورة من خلال كل الحاضر التلافيفي والتجميع
الطبقات ، اكتمل استخراج الميزة. حان الوقت الآن لتصنيف الصورة. تقوم الطبقة المتصلة بالكامل بتنفيذ هذه المهمة.

الطبقات المتصلة بالكامل (FCL)

باعتبارها الطبقة الأخيرة ، فإن طبقة FC هي ببساطة شبكة عصبية تلقائية للأمام. المدخلات ل
الطبقة المتصلة بالكامل هي الناتج المسطح لآخر تجمع / تلافيفي
طبقة. التسطيح يعني أن المصفوفة أو المصفوفة ثلاثية الأبعاد غير ملتفة إلى متجه.

لكل طبقة FC ، يتم إجراء حساب رياضي محدد. بعد أن يمر المتجه عبر جميع الطبقات المتصلة بالكامل ، يتم استخدام وظيفة تنشيط softmax في الطبقة النهائية. يستخدم هذا لحساب احتمال أن تنتمي المدخلات إلى مهمة معينة.

وبالتالي ، فإن النتيجة النهائية هي الاحتمالات المختلفة لصورة الإدخال التي تنتمي إلى فئات مختلفة.

تتكرر العملية لأنواع مختلفة من الصور والصور الفردية ضمن تلك الأنواع. هذا يدرب الشبكة ويعلمها أن يفرق بين كلب وقطة ، وردة وعباد الشمس.

يبعد

يجري صقل التكنولوجيا الأساسية للشبكات العصبية التلافيفية باستمرار. يتم تدريب الشبكات بشكل كبير من أجل إخراج احتمالات دقيقة. يمكن القول بحق: في مجال رؤية الكمبيوتر ، تحدث شبكات CNN ثورة بمفردها.

يمكنك التحقق من دبلومة PG في التعلم الآلي والذكاء الاصطناعي ، والتي توفر ورش عمل عملية ، ومرشد صناعي فردي ، و 12 دراسة حالة ومهمة ، وحالة خريجي IIIT-B ، والمزيد.

قيادة الثورة التكنولوجية التي يقودها الذكاء الاصطناعي

دبلوم PG في التعلم الآلي والذكاء الاصطناعي

يتعلم أكثر