Label Encoder مقابل One Hot Encoder في التعلم الآلي [2022]

نشرت: 2021-01-04

غالبًا ما تتطلب نماذج التعلم الآلي المنتشرة في العديد من التطبيقات سلسلة من التحويلات من البيانات الفئوية أو بؤر النص إلى الوصف الرقمي. للامتثال لاحتياجات التحويل ، يتم استخدام نوعين من أجهزة التشفير وهما ترميز الملصقات وجهاز تشفير واحد ساخن .

الجزء الصعب هو متى تختار برنامج تشفير التسمية ومتى تختار برنامج تشفير ساخن واحد . يؤثر اختيار القرار على النموذج ويشكل أيضًا أساسيات العديد من الأسئلة التي تُطرح عمومًا لعلماء البيانات وهواة التعلم الآلي.

يؤثر اختيار التشفير بشكل واضح على حاصل دقة النموذج ، وبالتالي يمكن أن يؤدي إلى حل أمثل. لفهم الاختلاف الذي ستحدثه في الطرز ، نحتاج إلى فهم ترميز الملصقات وجهاز تشفير واحد ساخن .

من خلال الرسم البياني للمعرفة في الذكاء الاصطناعي والتعلم الآلي ، فإن أحد الجوانب التي قد يتعرف عليها معظمنا هو أن معظم الخوارزميات تعمل بشكل معقول مع المدخلات العددية. وبناءً على ذلك ، فإن التحدي المركزي الذي يواجهه المحلل هو تحويل البيانات النصية إلى بيانات رقمية ومع ذلك ، عمل نموذج يصوغ نقطة منه.

جدول المحتويات

التشفير التسمية

يستشهد تشفير الملصقات بتحويل الملصقات إلى شكل رقمي لتغييرها إلى نموذج يمكن للجهاز قراءته. يمكن لخوارزميات التعلم الآلي بعد ذلك أن تحدد بطريقة صحيحة كيفية إدارة هذه الملصقات. إنه إجراء أساسي للمعالجة المسبقة خلال مجموعة البيانات المتكاملة في التعلم الخاضع للإشراف.

على سبيل المثال ، لدينا مجموعة بيانات لديها مقارنة لجودة معينة في مهارة معينة في شكل مقارنة تفضيلية بين الأشقاء. مجموعة البيانات جيدة ، أفضل ، أفضل. بعد تطبيق مشفر الملصق ، سيتم منح كل جودة تسمية 0،1،2 على التوالي. الملصق الخاص بالجودة الجيدة هو 0 ، ولأفضل الملصق هو 1 ، وللحصول على أفضل جودة ، يكون الملصق 2.

كان المثال المذكور أعلاه أساسيًا من حيث مجموعة البيانات. يمكن أن يكون التحويل من أي مجموعة بيانات سواء كان ذلك من حيث الطول أو العمر أو لون العين أو نوع قزحية العين أو الأعراض وما إلى ذلك.

يمكن تنفيذ Label Encoding في Python باستخدام مكتبة Sklearn. يوفر Sklearn طريقة فعالة للغاية لترميز فئات الميزات الفئوية إلى قيم رقمية. يقوم برنامج تشفير الملصقات بتشفير الملصقات ذات الائتمان بين الفئتين 0 و n-1 حيث يمثل n عدد التسميات المتنوعة. إذا كررت التسمية ، فإنها تعين الجدارة الدقيقة كما تم تعيينها من قبل.

ولتجديد هذا النوع من البيانات النصية الفئوية إلى بيانات يمكن فهمها من خلال البيانات الرقمية النموذجية ، نستخدم فئة Label Encoder. نحتاج إلى تسمية العمود الأولي ، واستيراد فئة LabelEncoder من مكتبة sklearn ، وتجهيز القسم الأولي من البيانات وتجديده ، ثم إعادة تأهيل البيانات النصية التي تحدث بالبيانات المشفرة الجديدة.

هذا وصف موجز لتشفير الملصق. بالاعتماد على البيانات ، يبدأ تشفير التسمية بمعضلة جديدة. للتوضيح ، قمنا بترميز مجموعة من أسماء المملكة في بيانات رقمية. هذه بيانات فئوية تمامًا ولا يوجد ارتباط بأي وسيلة بين الصفوف.

لحل هذه العقبة ، هناك حاجة إلى اعتماد تقنية جديدة للتشفير. تكمن المعضلة هنا في أنه نظرًا لوجود عدة كميات في قسم مشابه ، فإن النموذج الأولي سيخطئ في الحكم على البيانات لتكون بنفس طريقة الترتيب ، 0 <1 <2. ولكن هذه ليست المشكلة على الإطلاق. للتخفيف من هذه الصعوبة ، نستخدم أداة تشفير ساخنة واحدة.

يجب أن تقرأ: أفكار مشروع التعلم الآلي

جهاز تشفير واحد ساخن

يعد الترميز One-Hot بروتوكولًا بارزًا آخر للتعامل مع المتغيرات الفئوية. إنه يحدد فقط الخصائص التالية المحددة على حجم القيم المميزة في السمة الفئوية. سيتم تكبير القيم المميزة بالكامل في التصنيف كمخطط تفصيلي. يأخذ ترميز واحد ساخن قسمًا يحتوي على بيانات فئوية ، والذي يحتوي على تسمية موجودة مشفرة ثم يقسم القسم إلى أقسام عديدة. يتم إعادة بناء وحدات التخزين بمقدار 1 و 0 ، معتمدين على أي قسم له قيمة.

لا يعتمد جهاز الترميز أحادي التشغيل المصفوفات 1-D. يجب أن يكون الإدخال دائمًا عبارة عن صفيف ثنائي الأبعاد.

يجب ألا تتضمن البيانات المصدق عليها إلى المشفر سلاسل.

لا يمكن الالتزام بشكل كبير من خوارزميات التعلم الآلي السائدة ببيانات فئوية. بدلاً من ذلك ، تتطلب البيانات الفئوية تعديلها إلى بيانات رقمية. يعد التشفير الواحد الساخن أحد الاستراتيجيات المستخدمة لإجراء هذا التحويل. يتم استخدام هذه التقنية بشكل أساسي حيث ترتبط طرق التعلم العميق بمشاكل التعاقب المتسلسل.

الترميز الواحد الساخن هو عمليًا مظهر من مظاهر المتغيرات الفئوية كنواقل ثنائية. يتم تحديد القيم الفئوية مبدئيًا لقيم عدد صحيح. يتم تمثيل كل قيمة عدد صحيح على أنها متجه ثنائي يتكون من صفر.

ولكن ماذا سيحدث إذا كان لدينا ملفات متعددة للتعامل معها؟

Scikit-Learn عرضة لترتيب الأقسام ، لذلك إذا ظهرت تناقضات في مجموعة بيانات التدريب ومجموعات بيانات الاختبار ، فستكون النتائج عبثية. يمكن أن يحدث هذا إذا كان للفئة عدة أعداد من القيم في بيانات التدريب مقابل بيانات الاختبار.

تأكد من أن بيانات الاختبار مشفرة بطريقة مماثلة لبيانات التدريب باستخدام أمر المحاذاة. يؤدي أمر المحاذاة إلى ظهور الأمان في أن الأقسام تظهر في المرسوم الدقيق في مجموعتي البيانات.

قراءة: نماذج التعلم الآلي

خاتمة

العالم مليء بالبيانات الفئوية. سيكون المحلل عالم بيانات أكثر فائدة إذا كنت تعرف كيفية استخدام هذه البيانات. ومن ثم ، يجب على أي شخص يسعى إلى العمل على مثل هذه النماذج أن يكون على دراية جيدة باستخدام أداة تشفير التسمية وجهاز تشفير واحد ساخن في التعلم الآلي.

إذا كنت مهتمًا بمعرفة المزيد حول التعلم الآلي ، فراجع دبلوم PG في IIIT-B & upGrad في التعلم الآلي والذكاء الاصطناعي المصمم للمهنيين العاملين ويقدم أكثر من 450 ساعة من التدريب الصارم ، وأكثر من 30 دراسة حالة ومهمة ، IIIT- حالة الخريجين B ، أكثر من 5 مشاريع تتويجا عملية ومساعدة وظيفية مع أفضل الشركات.

ما الخوارزميات التي تتطلب استخدام ترميز واحد ساخن؟

يتم استخدام عملية تشفير واحدة ساخنة للتعامل مع المتغيرات الفئوية. تعمل هذه العملية على تحويل المتغيرات الفئوية لتسهيل استخدام خوارزميات التعلم الآلي للمتغيرات لتحسين التنبؤ. تتطلب الخوارزميات التي تأخذ القيم الرقمية فقط كمدخلات عملية تشفير واحدة ساخنة لتحويل المتغيرات الفئوية. بعض خوارزميات التعلم الآلي هذه هي الانحدار اللوجستي ، والانحدار الخطي ، وآلة ناقلات الدعم ، وما إلى ذلك ، ومع ذلك ، فإن بعض الخوارزميات ، مثل Markov Chain ، و Naive Bayes ، وما إلى ذلك ، لا تتطلب تشفيرًا لأنها قادرة على التعامل مع التوزيعات المنفصلة المشتركة.

متى يفضل استخدام تشفير واحد ساخن في التعلم العميق؟

One Hot Encoding هو أسلوب تحويل قوي للبيانات ومعالجة مسبقة يساعد نماذج ML على فهم البيانات المقدمة. في الأساس ، يتم استخدام ترميز واحد ساخن عندما تكون خوارزمية ML غير قادرة على العمل مع المتغيرات الفئوية ، وبالتالي ، يحولها ترميز واحد ساخن إلى شكل مناسب. يفضل استخدام ترميز واحد ساخن عندما لا تكون ميزات المتغيرات الفئوية المراد تحويلها ترتيبية. أيضًا ، يعمل الترميز الساخن بشكل فعال عندما يكون عدد الميزات الفئوية الموجودة في مجموعة البيانات المعينة أقل جدًا.

ما المقصود بمصطلح المصيدة المتغيرة الوهمية؟

المصيدة المتغيرة الوهمية هي إحدى المشكلات التي تواجهها عملية الترميز ذات السخونة الواحدة. عندما ترتبط مجموعة البيانات الفئوية بشدة بالمتغيرات ، يحدث هذا. نتيجة لذلك ، يمكن توقع نتيجة أحد المتغيرات بسهولة باستخدام المتغيرات المتبقية عند استخدام إجراء تشفير واحد ساخن. كنتيجة للمصيدة المتغيرة الوهمية ، تظهر مشكلة أخرى تعرف باسم الخط الخطي المتعدد.