ما هو القرصنة الإلكترونية وكيفية تجنبها في عام 2022؟
نشرت: 2021-01-02التحليل الإحصائي هو جزء أساسي من علم البيانات وتحليلها. يعد اختبار الفرضيات و P-Values أحد أهم المفاهيم في الإحصاء. قد يكون تفسير القيمة الاحتمالية خادعًا وقد تكون مخطئًا. احذر من القرصنة الإلكترونية!
بنهاية هذا البرنامج التعليمي سوف تكون على دراية بما يلي:
- قيم ف
- كيفية رفض / قبول الفرضية
- ما هو برنامج P-Hacking وكيفية تجنبه
- ما هي القوة الإحصائية
دعنا نتعمق في!
جدول المحتويات
ما هي قيم P؟
تقيم قيم P مدى جودة دعم بيانات العينة صحة الفرضية الصفرية. يقيس مدى صحة بيانات العينة الخاصة بك مع فرضية العدم.
أثناء إجراء الاختبارات الإحصائية ، يجب تعيين قيمة حدية أو ألفا قبل بدء الاختبار. القيمة المشتركة لها هي 0.05 ، والتي يمكن اعتبارها احتمالية. تُعرَّف قيم P بأنها احتمالية الحصول على نتيجة نادرة مثل تلك ألفا أو حتى نادرة.
لذلك ، إذا حصلنا على قيمة P أقل من تلك ألفا ، فهذا يعني أن اختبارنا الإحصائي لم يحدث بالصدفة وكان مهمًا بالفعل. لذلك ، إذا كانت القيمة P ، على سبيل المثال ، 0.04 ، فإننا نقول إننا نرفض فرضية Null.
تشير قيمة P المنخفضة إلى أن عينتك توفر دليلًا كافيًا على أنه يمكنك رفض فرضية العدم لجميع السكان. إذا حصلت على P-Value أي شيء أقل من 0.05 في حالتنا ، فيمكنك القول بأمان أنه يمكن رفض الفرضية الصفرية. بعبارة أخرى ، لم تحدث العينة التي أخذتها من المجتمع عن طريق الصدفة البحتة وكان للتجربة تأثير كبير بالفعل.
اذن ماذا يمكن ان يحدث خطأ؟
نظرًا لأننا نقول أن الحصول على أي قيمة P أقل من alpha يمنحنا الحرية في رفض فرضية Null بأمان ، فقد نرتكب خطأ إذا كانت تجربتنا نفسها لا تظهر الصورة الصحيحة! بعبارة أخرى ، قد تكون نتيجة إيجابية خاطئة.
ما هو P-Hacking؟
نقول إننا P-Hacked عندما نستغل التحليل الإحصائي بشكل غير صحيح ونستنتج خطأً أنه يمكننا رفض الفرضية الصفرية. دعونا نفهم هذا بالتفصيل.
# هاك 1
ضع في اعتبارك أن لدينا 5 أنواع من اللقاحات المرشحة لفيروس كورونا معنا والتي نحتاج إلى التحقق من أي منها له تأثير فعلي على وقت تعافي المرضى. لنفترض أننا نجري اختبارات الفرضية لجميع أنواع اللقاحات الخمسة واحدة تلو الأخرى. قمنا بتعيين ألفا على 0.05. ومن ثم إذا جاءت قيمة P لأي لقاح أقل من ذلك ، نقول أنه يمكننا رفض فرضية Null .. أم يمكننا ذلك؟
مثال 1
لنفترض أن اللقاح A يعطي قيمة P 0.2 ، اللقاح B يعطي 0.058 ، اللقاح C يعطي 0.4 ، اللقاح D يعطي 0.02 ، اللقاح E يعطي 0.07.
الآن ، من خلال النتائج المذكورة أعلاه ، ستكون الطريقة الساذجة لاستنتاج أن اللقاح D هو الذي يقلل بشكل كبير من وقت الاسترداد ويمكن استخدامه كلقاح CoronaVirus. لكن هل يمكننا حقًا قول ذلك الآن؟ لا ، إذا فعلنا ذلك ، فقد نكون من النوع P-Hacking. لأن هذا يمكن أن يكون إيجابيا كاذبا.
مثال 2
حسنًا ، لنأخذ الأمر بطريقة أخرى. ضع في اعتبارك أن لدينا لقاح X ونحن نعلم بالتأكيد أن هذا اللقاح عديم الفائدة وليس له أي تأثير على وقت الشفاء. ما زلنا نجري 10 اختبارات فرضية بواسطة عينات عشوائية مختلفة في كل مرة بقيمة P 0.05. لنفترض أننا حصلنا على قيم P التالية في اختباراتنا العشرة: 0.8 ، 0.7 ، 0.78 ، 0.65 ، 0.03 ، 0.1 ، 0.4 ، 0.09 ، 0.6 ، 0.75. الآن إذا كان علينا النظر في الاختبارات المذكورة أعلاه ، فإن الاختبار الذي يحتوي على قيمة P منخفضة بشكل مدهش تبلغ 0.03 سيجعلنا نرفض فرضية Null ، لكنها في الواقع لم تكن كذلك.

إذن ماذا نرى من الأمثلة أعلاه؟ في الجوهر ، عندما نقول أن alpha = 0.05 نضع فاصل ثقة 95٪. وهذا يعني أن 5٪ من الاختبارات ستظل تؤدي إلى حدوث أخطاء على النحو الوارد أعلاه.
مشكلة اختبار متعددة
تتمثل إحدى طرق معالجة هذا في زيادة عدد الاختبارات. لذلك ، المزيد من الاختبارات ، يمكنك بسهولة القول أن الحد الأقصى لعدد الاختبارات يؤدي إلى رفض Null. ولكن أيضًا ، ستعني المزيد من الاختبارات أنه سيكون هناك المزيد من الإيجابيات الخاطئة (5٪ من إجمالي الاختبارات في حالتنا). 5 من 100 ، 50 من 1000 أو 500 من 10000! وتسمى هذه أيضًا مشكلة الاختبار المتعدد .
معدل الاكتشاف الخاطئ
تتمثل إحدى طرق معالجة المشكلات المذكورة أعلاه في ضبط جميع القيمة الاحتمالية باستخدام آلية تسمى معدل الاكتشاف الخاطئ (FDR). FDR هو تعديل رياضي للقيم P والذي يزيدها ببعض القيم وفي النهاية ، قد يتم تعديل القيم P التي جاءت أقل بشكل غير صحيح إلى قيم أعلى من 0.05.
تعلم : 8 مهارات مهمة لعلماء البيانات
# هاك 2
الآن ضع في اعتبارك حالة من المثال حيث أعطى اللقاح B قيمة P قدرها 0.058. ألن تميل إلى إضافة المزيد من البيانات وإعادة الاختبار لمعرفة ما إذا كانت القيمة الاحتمالية ستنخفض؟ لنفترض أنك أضفت بضع نقاط بيانات أخرى ، وأصبحت القيمة P للقاح B 0.048. هل هذا شرعي؟ لا ، ستكون مرة أخرى قرصنة إلكترونية. لا يمكننا تغيير أو إضافة البيانات لتناسب اختباراتنا لاحقًا ويجب تحديد حجم العينة الدقيق قبل إجراء الاختبارات عن طريق إجراء تحليل الطاقة .
يخبرنا تحليل القوة بحجم العينة الصحيح الذي نحتاجه للحصول على أقصى فرص لرفض الفرضية الصفرية بشكل صحيح وعدم الانخداع.
# هاك 3
هناك خطأ آخر لا يجب عليك فعله وهو تغيير ألفا بعد إجراء التجارب. لذا بمجرد أن ترى قيمة P تبلغ 0.058 ، هل تعتقد ماذا لو كانت قيمة alpha الخاصة بي 0.06؟
لكن لا يمكنك تغييره بمجرد أن تبدأ تجربتك.
يجب أن تقرأ : كيف تصبح عالم بيانات؟
قبل ان تذهب
يعد اختبار الفرضيات والقيم P موضوعًا صعبًا ويجب فهمه بعناية قبل إجراء أي استقطاعات. تعد القدرة الإحصائية وتحليل القوة جزءًا مهمًا من هذا الأمر الذي يجب مراعاته قبل بدء الاختبارات.
إذا كنت مهتمًا بالتعرف على علوم البيانات ، فراجع دبلوم PG في IIIT-B & upGrad في علوم البيانات والذي تم إنشاؤه للمهنيين العاملين ويقدم أكثر من 10 دراسات حالة ومشاريع ، وورش عمل عملية عملية ، وإرشاد مع خبراء الصناعة ، 1- على - 1 مع موجهين في الصناعة ، وأكثر من 400 ساعة من التعلم والمساعدة في العمل مع الشركات الكبرى.
ماذا تفهم من قبل P-Hacking؟
القرصنة الإلكترونية أو تجريف البيانات هي طريقة لإساءة استخدام تقنيات تحليل البيانات للعثور على أنماط في البيانات تبدو مهمة ولكنها ليست كذلك. تؤثر هذه الطريقة على الدراسة سلبًا لأنها تعطي وعودًا كاذبة لتوفير أنماط بيانات مهمة والتي بدورها يمكن أن تؤدي إلى زيادة كبيرة في عدد الإيجابيات الكاذبة.
لا يمكن منع القرصنة الإلكترونية بشكل كامل ولكن هناك بعض الطرق التي يمكن أن تقللها بالتأكيد وتساعد على تجنب الوقوع في المصيدة.
ما الذي يجب علي مراعاته لتجنب القرصنة الإلكترونية؟
يمكنك استخدام بعض الممارسات الآمنة لتقليل حالات القرصنة الإلكترونية. يمكنك أولاً وضع خطة مفصلة للاختبارات التي يجب إجراؤها ثم تسجيلها في سجل عبر الإنترنت. يجب عليك التأكد من السماح بتنفيذ الاختبار الكامل أولاً وعدم المقاطعة بينهما حتى إذا تم تحقيق القيمة الاحتمالية المطلوبة.
بصرف النظر عن هذه التدابير ، يمكنك أيضًا التأكد من البدء بمجموعة بيانات عالية الجودة لتجنب فرص الخطأ. ستساعدك كل تدابير السلامة هذه بالتأكيد على تجنب تجريف البيانات إلى حد كبير.
ما هو معدل الاكتشاف الخاطئ؟
هذا هو أحد الأساليب الأكثر تقدمًا لحل المشكلات المتعلقة بالقرصنة الإلكترونية. تسمح لك هذه الطريقة بضبط قيم p لكل اختبار. على عكس الطرق الأخرى ، فإنه لا يقلل من النتائج الإيجابية الزائفة ، بل يكتشفها بدلاً من ذلك. هذا يجعلها أكثر أهمية من الطرق الأخرى مثل تصحيح Bonferroni وأكثر دقة في العثور على نتائج مهمة.
تُعرف قيم p المعدلة أيضًا باسم قيم q. هناك إصدارات أخرى من نهج FDR مثل نهج FDR المحسن.