أساسيات الإحصاء الأساسية لعلوم البيانات

نشرت: 2018-02-27

إذا كنت عالم بيانات طموحًا ، فأنت على دراية بالمفاهيم الأساسية للإحصاء لعلوم البيانات . لا تحتاج أن تكون دكتوراه. في الإحصاء لتتفوق في علوم البيانات ، ولكن عليك أن تعرف ما يكفي لوصف ربما اثنين من الخوارزميات الأساسية في حفل عشاء.

من الآن فصاعدًا ، سنوجهك عبر بعض المتطلبات الأساسية في أساسيات الإحصاء لعلوم البيانات .

إذا كنت قد دخلت للتو عالم علوم البيانات ، فربما تكون قد صادفت أشخاصًا يذكرون "الرياضيات" كشرط أساسي لعلوم البيانات. بكل صدق ، ليست الرياضيات في حد ذاتها ، ولكن عليك أن تتعلم الإحصاء لعلوم البيانات .

في هذه الأيام ، تخفي مكتبات مثل Tensorflow جميع الرياضيات المعقدة تقريبًا بعيدًا عن المستخدم. مفيد لنا ، ولكن لا يزال من الجيد أن يكون لديك فهم أساسي للمبادئ الأساسية التي تعمل عليها هذه الأشياء. يمكن أن يساعدك الفهم الجيد لتحليلات البيانات على فهم كل شيء بشكل أفضل.

ستساعدك هذه المقالة في تسليحك ببعض النظريات والمفاهيم والمعادلات التي لن تساعد فقط قضيتك كعالم بيانات ولكنها ستجعلك تبدو كما لو كنت قد أكملت الدورة التدريبية في الحوسبة الإحصائية المتقدمة وقتًا طويلاً.

جدول المحتويات

التوزيعات الإحصائية

ربما يكون هذا أحد أهم الأشياء التي تحتاج إلى معرفتها أثناء تسليح نفسك بالإحصائيات المطلوبة مسبقًا لعلوم البيانات .

  • توزيع السم

    الإحصاء لعلوم البيانات يعد توزيع بواسون أحد أهم الأدوات في الإحصاء. يتم استخدامه لحساب عدد الأحداث التي من المحتمل أن تحدث في فترة زمنية. على سبيل المثال ، عدد المكالمات الهاتفية التي من المحتمل أن تحدث في أي فترة زمنية معينة.
    يُعرف الرمز المضحك في هذه المعادلة (λ) باسم لامدا . يتم استخدامه لتمثيل متوسط ​​عدد الأحداث التي تحدث في كل فترة زمنية.

    مثال جيد آخر حيث يجد توزيع بواسون الاستخدام هو حساب الخسارة في التصنيع. لنفترض أن آلة تنتج صفائح معدنية وبها عيوب X لكل ياردة. لنفترض ، على سبيل المثال ، أن معدل الخطأ كان 2 لكل ياردة من الورقة - ثم باستخدام توزيع بواسون ، يمكننا حساب احتمال حدوث خطأين بالضبط في ساحة.

  • توزيع ثنائي

    الإحصاء لعلوم البيانات
    إذا واجهت إحصائيات أساسية من قبل ، فربما تكون قد صادفت التوزيع ذي الحدين.

    لنفترض أنك أجريت تجربة لقلب عملة غير منحازة ثلاث مرات.
    هل يمكنك معرفة احتمالية ظهور العملة بوجه الوجه عند التقلبات الثلاثة؟

    أولاً ، من خلال التوليفات الأساسية ، يمكننا أن نكتشف أن هناك ثماني مجموعات محتملة من النتائج عند قلب العملة ثلاث مرات. الآن ، يمكننا رسم احتمالات وجود 0،1،2 أو 3 رؤوس. ستعطينا هذه المؤامرة توزيعنا ذي الحدين المطلوب لهذه المشكلة. عند الرسم البياني ، ستلاحظ أنه يبدو مشابهًا جدًا لمنحنى التوزيع الطبيعي النموذجي ، من الناحية النظرية ، كلاهما متشابهان جدًا. في حين أن التوزيع ذي الحدين مخصص للقيم المنفصلة (عدد محدود من تقلبات العملات المعدنية) ، فإن التوزيع العادي يعتني بالقيم المستمرة.

    هناك عدد من التوزيعات بخلاف تلك التي تحدثنا عنها أعلاه. إذا كنت مهتمًا بالروح وترغب أيضًا في تسليح نفسك بشكل أفضل مع الإحصائيات المطلوبة ل Data Scienc e ، فنحن نقترح عليك قراءة التوزيعات التالية أيضًا:

  • التوزيع الهندسي
  • التوزيع الهندسي المفرط
  • توزيع الزي الموحد المنفصل
  • التوزيع السلبي ذو الحدين
تحليل البيانات الاستكشافية وأهميتها لعملك

بعض النظريات والخوارزميات

عندما نتحدث عن الإحصاء لعلوم البيانات ، لا يمكننا تجاهل النظريات والخوارزميات الأساسية التي تشكل أساس العديد من المكتبات التي ستعمل عليها كعالم بيانات. هناك عدد من خوارزميات التصنيف وخوارزميات التجميع وخوارزميات الشبكة العصبية وأشجار القرار وما إلى ذلك. في هذا القسم ، سنتحدث عن بعض النظريات الأساسية التي يجب أن تعرفها - ستساعدك أيضًا على فهم النظريات المعقدة الأخرى بسهولة.

مبرهنة بايز

هذه إحدى النظريات الشائعة التي ستصادفها إذا كان لديك أي تعليم رسمي في علوم الكمبيوتر. كان هناك العديد من الكتب على مر السنين التي تناقش بشكل مفرط نظرية بايز ومفاهيمها بطريقة مفصلة.

تبسط نظرية بايز المفاهيم المعقدة بشكل كبير. يشرح الكثير من الحقائق الإحصائية باستخدام بعض المتغيرات البسيطة. وهو يدعم مفهوم " الاحتمال الشرطي " (على سبيل المثال ، إذا حدث A ، فإنه يلعب دورًا في حدوث B). الشيء الأكثر أهمية في هذا الأمر هو حقيقة أنه يمكنك التنبؤ باحتمالية أي فرضية باستخدام نقاط البيانات المحددة فقط.

يمكن أن يساعدك بايز في التنبؤ باحتمالية إصابة شخص ما بالسرطان بمجرد معرفة عمره. يمكن أن يُعلمك أيضًا ما إذا كان البريد الإلكتروني بريدًا عشوائيًا بناءً على عدد الكلمات. تستخدم هذه النظرية في جوهرها لإزالة عدم اليقين.

حقيقة ممتعة: ساعدت نظرية بايز في التنبؤ بمواقع غواصات يو بالإضافة إلى توقع تكوين آلة إنجما لترجمة الرموز الألمانية في الحرب العالمية الثانية. حتى في علوم البيانات الحديثة ، يجد بايز تطبيقات واسعة في العديد من الخوارزميات.
ماذا عن تخزين البيانات واستخراج البيانات

K- أقرب خوارزمية الجار

الإحصاء لعلوم البيانات
هذه خوارزمية سهلة للغاية من حيث الفهم والتنفيذ. لدرجة أنه يشار إليها باسم "الخوارزمية الكسولة". تكمن بساطته في حقيقة أنه يعتمد على استنتاجات منطقية أكثر من أي أساس إحصائي ، في حد ذاته. من منظور الشخص العادي ، تبحث هذه الخوارزمية في العثور على المجموعات الأقرب إلى بعضها البعض.

يستخدم K-NN مفهوم المسافة الإقليدية. يبحث عن مجموعات محلية في وحول عدد محدد من نقاط الاتصال. يتم تمثيل هذا الرقم بالحرف "k". هناك العديد من الطرق لمعرفة الحجم الذي يجب أن تكون عليه قيمة "k" لأن هذه قيمة يقررها المستخدم.

هذا المفهوم رائع لتجميع الميزات ، وتجزئة السوق الأساسية ، والبحث عن القيم المتطرفة من مجموعة من إدخالات البيانات. تطبق معظم لغات البرمجة الحديثة خوارزمية K-NN في سطرين فقط من التعليمات البرمجية.

التعبئة (تجميع التمهيد)

يشير التكييس أساسًا إلى إنشاء أكثر من نموذج واحد لخوارزمية واحدة - مثل شجرة القرار. يتم تدريب كل نموذج على بيانات عينة مختلفة (وهذا ما يسمى عينة التمهيد).

لذلك ، يتم عمل كل شجرة قرار باستخدام بيانات نموذجية مختلفة - وهذا يحل مشكلة التخصيص الزائد لحجم العينة. يساعد تجميع أشجار القرار مثل هذا بشكل أساسي في تقليل الخطأ الإجمالي ، حيث يتناقص التباين الكلي مع إضافة كل شجرة جديدة. تُعرف كيس من أشجار القرار هذه باسم الغابة العشوائية.

ابدأ في علوم البيانات مع بايثون

تحليل منحنى ROC

الإحصاء لعلوم البيانات
يشير مصطلح ROC إلى خاصية تشغيل جهاز الاستقبال. يجد منحنى تحليل ROC استخدامًا مكثفًا في علوم البيانات. يتنبأ بمدى الأداء المحتمل للاختبار من خلال قياس حساسيته الإجمالية مقابل معدل سقوطه. تحليل ROC مهم للغاية عند تحديد صلاحية أي نموذج.

كيف يعمل؟

قد يمنحك نموذج التعلم الآلي الخاص بك بعض التوقعات غير الدقيقة. يرجع بعضها إلى أن قيمة معينة كان يجب أن تكون "صحيحة" ولكن بدلاً من ذلك تم تعيينها على "خطأ" أو العكس.

ما هو احتمال أن تكون على صواب إذن؟

باستخدام منحنى ROC ، يمكنك معرفة مدى دقة تنبؤاتك. باستخدام الأمثالين المختلفين ، يمكنك أيضًا معرفة مكان وضع القيمة الحدية. العتبة هي المكان الذي تقرر فيه ما إذا كان التصنيف الثنائي موجبًا أم سلبيًا - صحيحًا أم خطأ.

عندما يقترب المثلان من بعضهما البعض ، تميل المنطقة الواقعة أسفل المنحنى إلى الصفر. هذا يعني في الأساس أن نموذجك يميل إلى عدم الدقة. كلما زادت المساحة ، زادت دقة نموذجك. يعد هذا أحد الاختبارات الأولى المستخدمة عند اختبار أي نمذجة ، حيث يساعد في اكتشاف المشكلات مبكرًا عن طريق معرفة ما إذا كان النموذج صحيحًا أم لا.

مثال واقعي لمنحنيات ROC - تُستخدم لتصوير الارتباط / المقايضة بين الحساسية السريرية والنوعية للقطع في اختبار معين أو مجموعة من الاختبارات - بطريقة رسومية. للإضافة إلى ذلك ، فإن المنطقة الواقعة تحت منحنى ROC تعطي أيضًا فكرة عادلة عن فوائد استخدام الاختبارات المذكورة أعلاه. ومن ثم ، تجد منحنيات ROC استخدامًا مكثفًا في الكيمياء الحيوية لاختيار القطع المناسب. من الناحية المثالية ، فإن أفضل حد قاطع هو الذي يحتوي على أقل معدل إيجابي كاذب مع أعلى معدل إيجابي حقيقي معًا.

كيف يمكنك الانتقال إلى تحليلات البيانات؟

أهمية الإحصاء في علم البيانات

من المناقشة أعلاه الآن بعد أن أصبحت على دراية بالمفاهيم الأساسية للإحصاء وأساسيات الإحصاء ، فلنتحدث عن أهمية تعلم الإحصاء لعلوم البيانات. يتم توفير الأدوات والتقنيات الحاسمة لتنظيم وإيجاد رؤى عميقة في البيانات ، لتحليل البيانات وقياسها من قبل Statistics for Data Analytics.

لقد قدمنا ​​لك نظرة عامة على المفاهيم الأساسية للإحصاء وتأثير الإحصاء على استكشاف البيانات وتحليلها ونمذجة وتمثيلها. نشير أيضًا إلى المشكلة إذا كان هناك تناقض مع إهمال أساسيات الإحصاء. إذا كنت مهتمًا بالانضمام إلى الصناعة الأسرع نموًا ، فانتقل مباشرةً إلى موقعنا على الويب في UpGrad لمتابعة البرنامج التعليمي لإحصاءات علوم البيانات حيث نقدم دورات عبر الإنترنت وغير متصلة بالإنترنت في نفس الوقت. بمجرد أن تبدأ لعبتك على الأقل في أساسيات الإحصاء وأساسيات الإحصاء ، ستكون جاهزًا للعمل.

ختاما…
قائمة الموضوعات أعلاه ليست بأي حال من الأحوال قائمة شاملة بكل ما تحتاج إلى معرفته في الإحصاء. هذه القائمة هي فقط لمنحك لمحة عن كل ما قد تصادفه في رحلتك في علوم البيانات ، وكيف يمكنك أن تكون مستعدًا لذلك.

بشكل عام ، تقدم هذه المقالة بعض المفاهيم الأساسية للإحصاء لعلوم البيانات . سيساعدك الفهم العميق للمفاهيم الموضحة المقترنة على فهم المفاهيم الأخرى بسهولة. إذا كنت ترغب في استكشاف المزيد وإتقان علوم البيانات ، فابحث عن أفضل دورات علوم البيانات عبر الإنترنت.

ما هي أهمية الإحصاء لعلوم البيانات؟

توفر الإحصائيات التقنيات والأدوات لتحديد البنية في البيانات الضخمة ، فضلاً عن تزويد الأفراد والمؤسسات بفهم أكبر للحقائق التي تكشف عنها بياناتهم ، باستخدام الأساليب الإحصائية المناسبة التي تمكن من التصنيف والتنظيم ، وتساعد في حساب توزيع الاحتمالات والتقدير ، والعثور على هيكل في البيانات من خلال اكتشاف الانحرافات والاتجاهات. تساعد الإحصائيات أيضًا في تصور البيانات والنمذجة باستخدام الرسوم البيانية والشبكات. يساعد في تحديد مجموعات البيانات أو الهياكل الأخرى التي تتأثر بالمتغيرات ويساعد على تقليل عدد الافتراضات في النموذج ، مما يجعله أكثر دقة وفائدة.

ما هي المفاهيم الأساسية الأساسية للإحصاء المطلوبة لعلوم البيانات؟

المفاهيم الأساسية للإحصاء ضرورية لعلوم البيانات. فيما يلي بعض المفاهيم الأساسية التي تساعدك على البدء في رحلة علم البيانات الخاصة بك:

1. الاحتمالية: هذا يشكل الأساس لعلم البيانات. نظرية الاحتمالية مفيدة جدًا في صياغة التنبؤات. البيانات هي أساس كل الاحتمالات والإحصاءات.
2. أخذ العينات: أخذ عينات البيانات هو أسلوب تحليل إحصائي يتضمن اختيار ومعالجة وتحليل مجموعة تمثيلية لنقاط البيانات من أجل إيجاد الأنماط والاتجاهات في مجموعة أكبر من البيانات.
3. اتجاه البيانات وتوزيعها: يعتبر توزيع البيانات عاملاً حاسماً. أهمية التوزيع المشهور مثل التوزيع الطبيعي هائلة. نتيجة لذلك ، يعد تحديد توزيع البيانات وانحرافها مفهومًا بالغ الأهمية.
4. اختبار الفرضيات: اختبار الفرضيات يحدد المواقف التي يجب فيها اتخاذ إجراء أو عدم القيام به اعتمادًا على النتائج المتوقعة.
5. الاختلافات: تشير إلى التشويه والخطأ والتحول في البيانات.
6. الانحدار: إنه أمر بالغ الأهمية لعلوم البيانات لأنه يساعد في فهم الحلول الحالية وكذلك اكتشاف الابتكارات الجديدة.

كيف يتم استخدام الإحصاء في علم البيانات؟

يستخدم علماء البيانات الإحصائيات لمساعدة الشركات على اتخاذ قرارات أفضل بشأن المنتجات وتصميم التجارب وتفسيرها وتحديد العوامل التي تدفع المبيعات وتوقع اتجاهات وأنماط المبيعات. يساعد التمثيل المرئي للبيانات وأداء الخوارزمية في العثور على القيم المتطرفة والأنماط التافهة المحددة وملخص القياس.