معالجة البيانات: كيف يمكنك تحديد أكاذيب البيانات؟

نشرت: 2017-10-24

جدول المحتويات

سيؤدي البحث في Google عن "متوسط ​​راتب عالم البيانات في الهند" إلى نتيجة سعيدة.

هل هذا يعني أن أي شخص يريد دخول هذا المجال الغريب يمكنه توقع هذا الراتب؟ لما لا؟ ما الخطأ في توقع ربح مبلغ يطالب به موقع ويب ذائع الصيت؟ بعد كل شيء ، ربما أجرى هذا الموقع بعض الأبحاث المكثفة للوصول إلى هذا الرقم. ومع ذلك ، فإن اتخاذ قرار بناءً على هذا الادعاء وحده ليس فكرة جيدة. لكن لماذا؟ واصل القراءة!

ماذا يعني "متوسط" في بحث Google أعلاه؟ المعدلات تأتي في نكهات مختلفة. هذه هي الوسيط والمتوسط ​​والوضع. إلى أي متوسط ​​يشير هذا "المتوسط ​​الوطني"؟ إذا كان هذا هو الوسيلة ، فماذا يمكن أن تستنتج منه؟ تحقق من نتيجة من موقع آخر.

هنا يقول ، "الخبرة تؤثر بشدة على الدخل لهذه الوظيفة".

لماذا هذا مهم؟

قد يحصل الشخص الذي يتمتع بتجربة ثرية على دخل أفضل من شخص ليس لديه أي خبرة. يمكن للفرد الذي تخرج من معهد مرموق أن يكسب أكثر من الشخص الذي تعلم نفسه بنفسه. هناك فرصة عادلة أن يتمكن الشخص من تضخيم راتبه / راتبه في استطلاع ما لتعزيز وضعه / وضعها. أو يمكن للشخص التقليل من راتبه لأسباب أخرى مثل الضرائب. في مثل هذه السيناريوهات ، لا يكون استخدام المتوسط ​​مناسبًا.

إذا قمت بحساب متوسط ​​هذه المرتبات ، سيكون لبعض القيم المتطرفة تأثير لا داعي له على المتوسط ​​الذي تم الحصول عليه. سوف يسحبون الوسط. في مثل هذه الحالات ، يكون الوسيط هو الممثل الحقيقي. سيشير إلى عدد متساوٍ من الأشخاص الذين يكسبون مبالغ تحتها وفوقها.

في المستقبل ، إذا صادفت كلمة "متوسط" في أي مكان ، فابحث عن تضخيم المعلومات. تحقق مما إذا كان المؤلف يشير إلى المتوسط ​​أو الوسيط أو الوضع. تحقق من فترات الثقة ومستويات الأهمية. إذا لم يتم العثور على هذه ، فهناك سبب كاف للشك.

أدوار البيانات الضخمة والرواتب في صناعة التمويل

لنفترض أن المصادقة تحدد نوع المتوسط. هل يمكنك بعد ذلك اعتبارها مطلقة؟ رقم؟ لما لا؟

دعنا نعود إلى البيان الأصلي حول متوسط ​​الراتب لعلماء البيانات. يزعم البيان أنه من عينة من 303 رواتب. قبل يوم واحد بالضبط ، كان هذا الرقم هو 12. هل هذه عينة يمكنك الوثوق بها؟

لإجراء مسح أو تجربة ، يجب أن تكون العينة ممثلة حقيقية للسكان الأساسيين. يجب أن يكون حجم العينة كبيرًا بما يكفي لاستخلاص استنتاجات حول السكان بثقة.
كنت أشاهد بعض محاضرات الأستاذ ستاربيرد حول الإحصاء. علمت أنه قبل سنوات ، أجرت إحدى الصحف مسحًا حول الانتخابات الرئاسية في الولايات المتحدة. أرسلت هذه الصحيفة استبيانا وحللته ونشرت نتيجة فوز مرشح معين. بعد الانتخابات جاءت النتيجة عكس ما توقعته الصحيفة. وتوقعت الصحيفة خسارة المرشح بهامش كبير. بعد ذلك ، قامت الصحيفة بتحليل أين حدث خطأ.

وجدت إدارة الصحيفة أنها أرسلت الاستبيان إلى المشتركين الأثرياء فقط. من الواضح أنهم لم يمثلوا جميع السكان. نتيجة لذلك ، أصبح التنبؤ المبني على هذه العينة المتحيزة مصدر إحراج للصحيفة.

يمكنك استنتاج أي نتائج ترغب في رؤيتها بأخذ عينة صغيرة جدًا! كمثال أساسي للغاية ، إذا رميت قطعة نقود 10 مرات ، فهل تحصل على صورة خمس مرات وذيول خمس مرات؟ يمكنك الحصول على سبعة رؤوس على التوالي ، وربما هذه هي النتيجة التي تريدها. لن يعمل "قانون المتوسطات" إلا (على سبيل المثال ، أنصاف رؤوس ، أنصاف ذيول) عندما يتم إجراء تجربة رمي العملات لعدد كبير من المرات. على المدى القصير ، أي نتيجة ممكنة.

إذا كنت لا ترى معلومات حول حجم العينة إلى جانب نوع المتوسط ​​، فهذا مدعاة للقلق. إذا كان حجم العينة كافياً وممثلًا حقيقيًا للسكان ، فلا داعي لإخفائه.

مدونة UpGrad الخاصة بفنون الإحصاء في علوم البيانات
زعم تقرير أن 33٪ من الأساتذة الذكور في كلية معينة تزوجوا طالباتهم.

نحن بحاجة إلى توخي الحذر الشديد مع النسب المئوية. إذا لم تكن النسب المئوية مصحوبة بالأرقام الفعلية ، فقد تكون مضللة. في الكلية المذكورة أعلاه ، تبين أن ثلاث نساء فقط درسن هناك ، وواحدة فقط متزوجة من أستاذ. واحد من كل ثلاثة يجعل 33٪. تحقق دائمًا مما إذا كانت النسب المئوية مصحوبة بالأرقام الفعلية. إذا لم تكن كذلك ، فهناك ما يدعو للقلق.

مغالطة رئيسية أخرى في الإحصاء هي الارتباط المربك بالسببية. إذا كان هناك عنصرين مترابطين ، فإن الافتراض بأن أحدهما يتسبب في الآخر ، يكون خاطئًا.
في مجموعة من السكان الأصليين ، كان وجود القمل على الجسم يعتبر آمنًا. إذا أصيب شخص ما بالحمى في تلك القبيلة ، فقد لوحظ عدم وجود قمل على جسده. لذلك ، افترضت القبيلة بسذاجة أن هذا النقص في القمل هو ، في الواقع ، سبب الحمى. تم اكتشافه لاحقًا ، عندما كان الشخص يعاني من الحمى ، أصبحت درجة حرارة الجسم المرتفعة غير مريحة للقمل. تسببت الحمى في تخلي القمل عن مضيفه ؛ لم يكن غيابهم هو سبب الحمى كما هو مفترض.

أهم الخطوات لإتقان علوم البيانات ، ثق بي لقد جربتها

قل ، "أ" و "ب" مترابطان. يمكن أن يكون هناك متغير آخر "C" يتسبب في ارتفاع "A" و "B" وهبوطهما معًا. يمكن أن يكون "أ" هو السبب ، وقد يكون "ب" هو النتيجة ، أو قد يكون العكس أو مجرد صدفة. النقطة المهمة هي أنه لا توجد طريقة لمعرفة ذلك دون إجراء تجارب محكومة. يجب ألا يتم الخلط بين الارتباط والسببية.

وبالمثل ، يمكن التلاعب بالرسوم البيانية لتبدو مثيرة للإعجاب دون الاقتباس الخاطئ للبيانات.

هذه ليست سوى عدد قليل من الطرق التي يمكن من خلالها استخدام الإحصائيات للكذب. هذه القائمة موحية فقط وليست شاملة. كل أساليب الخداع هذه تظهر أن الإحصاء فن بقدر ما هو علم.

البيانات هي الزيت الجديد. تعتمد معظم القرارات في القطاعين العام والخاص على البيانات وتحليلها. سيكون للتفسيرات الخاطئة للبيانات أو اشتقاقات الرؤى غير الصحيحة تداعيات مكلفة.

في عالم التسويق الفيروسي ، يجب أن تكون أكثر حرصًا بشأن ادعاءات المعلنين. هنا أيضًا ، يجب أن تكون مدركًا لوجود الإحصاء كفن. القليل من الشكوك حول ادعاءات المعلنين ، جنبًا إلى جنب مع المعرفة بكيفية نشر الناس للإحصاءات لكذب الأكاذيب ، سيساعدك حتما على اتخاذ قرارات أفضل وأكثر وعيًا.

تعلم دورات علوم البيانات عبر الإنترنت من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.

(هذا المقال مستوحى من كتاب كيف تكذب بالإحصاء من تأليف داريل هوف).

ماذا يعني التضليل في الإحصاء؟

يمكن أن يكون سوء استخدام الإحصائيات غير مقصود أو مقصودًا. في حين أنه من المحتمل تقريبًا أن تؤدي الجهود الهادفة لطمس الخطوط بمعلومات خاطئة إلى تكثيف التحيز ، فليس من الضروري أن يكون لديك هدف خبيث لإحداث الارتباك. يعد إساءة استخدام الإحصائيات مشكلة أكبر بكثير تؤثر الآن على مجموعة واسعة من المؤسسات والقطاعات الأكاديمية. في ما يلي بعض الأخطاء الشائعة التي تؤدي إلى إساءة الاستخدام مثل الاستقصاء الخاطئ ، والارتباط الخاطئ ، وصيد البيانات ، وتصور البيانات المضلل ، والتحيز الهادف ، وأخذ العينات السيئة ، وعرض البيانات الانتقائية ، وإغفال خط الأساس ، ومفارقة سيمبسون ، والرسوم البيانية المضللة.

كيف يؤثر استخدام البيانات المضللة على الأعمال؟

تعتمد مؤسسات الأعمال الناجحة اليوم على البيانات لاتخاذ قرارات مستنيرة توفر نتائج عالية القيمة. يمكن أن تساعد البيانات في حل المشكلات ومراقبة الأداء وتحسين العمليات وحل المشكلات واكتساب فهم أفضل للسوق. من ناحية أخرى ، قد يكون ضعف جودة البيانات ضارًا بعملك. تتمثل عواقب استخدام البيانات التي تم تفسيرها بشكل خاطئ في عملك في استراتيجيات عمل خاطئة ، وزيادة التكاليف المالية ، وخسارة في الإنتاجية ، وتضرر السمعة ، وتفويت الفرص المحتملة.

ما هو الغرض الرئيسي من معالجة البيانات؟

إن فرز البيانات وإعادة ترتيبها ونقلها دون التأثير عليها هو ما يدور حوله التلاعب بالبيانات. يستلزم تحويل البيانات إلى التنسيق المطلوب لعرض البيانات أو تغذية نموذج التحليلات وتدريبه. الهدف الرئيسي لمعالجة البيانات هو تغيير العلاقة بين عنصري بيانات (منطقي أو مادي) ، وليس البيانات نفسها. تعد تصفية الصفوف والأعمدة والتجميع والربط والتسلسل ومعالجة السلسلة والتصنيف والانحدار والصيغ الرياضية من أكثر العمليات شيوعًا المستخدمة لإدارة البيانات.