การกระจายความน่าจะเป็น: ประเภทของการกระจายอธิบาย

เผยแพร่แล้ว: 2020-12-16

สารบัญ

ความรู้เบื้องต้นเกี่ยวกับความน่าจะเป็นและความน่าจะเป็น

เพื่อให้เข้าใจการกระจายความน่าจะเป็น ก่อนอื่นเรามาทำความเข้าใจว่าความน่าจะเป็นคืออะไร ความน่าจะเป็นคือการวัดความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นในการทดลอง พูดง่ายๆ ก็คือ มันบอกเราว่าเหตุการณ์จะเกิดขึ้นได้อย่างไร ค่าความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นมีตั้งแต่ 0 (มีความเป็นไปได้น้อยที่สุด) ถึง 1 (มีความเป็นไปได้มากที่สุด)

การแจกแจงความน่าจะเป็นเป็นฟังก์ชันที่ให้ความน่าจะเป็นของผลลัพธ์ที่แตกต่างกันสำหรับการทดลอง มันแสดงค่าที่เป็นไปได้ที่ตัวแปรสุ่มสามารถรับได้และความถี่ที่ค่าเหล่านี้เกิดขึ้น

ในการแจกแจงความน่าจะเป็น ผลรวมของความน่าจะเป็นทั้งหมดนี้จะรวมกันเป็น 1 เสมอ ในโดเมนวิทยาศาสตร์ข้อมูล หนึ่งในวิธีการใช้งานของการแจกแจงความน่าจะเป็นคือการคำนวณช่วงความเชื่อมั่นและสำหรับการคำนวณบริเวณวิกฤตในการทดสอบสมมติฐาน

การกระจายอย่างต่อเนื่องและไม่ต่อเนื่อง

ประเภทของการกระจายความน่าจะเป็นที่จะใช้ขึ้นอยู่กับว่าตัวแปรมีค่าที่ไม่ต่อเนื่องหรือค่าต่อเนื่อง การแจกแจงแบบแยกส่วนสามารถรับค่าชุดที่จำกัดเท่านั้น ในขณะที่การแจกแจงแบบต่อเนื่องสามารถรับค่าใดก็ได้ภายในช่วงที่ระบุ

การแจกแจงแบบต่อเนื่องจะแสดงในรูปของความหนาแน่นของความน่าจะเป็น เนื่องจากอาจมีค่าอนันต์ในช่วงหนึ่ง และความน่าจะเป็นของแต่ละค่าจะเป็นศูนย์ ในกรณีของการแจกแจงแบบแยกส่วน เราสามารถรับความน่าจะเป็นสำหรับแต่ละค่าได้เนื่องจากจำนวนค่ามีจำกัด

ประเภทของการกระจาย – การกระจายแบบไม่ต่อเนื่อง

การกระจายทวินาม

เป็นประเภทของการแจกแจงที่จำนวนผลลัพธ์ในการทดลองหนึ่งครั้งมีเพียงสอง การทดลองแต่ละครั้งไม่ขึ้นกับการทดลองอื่น กล่าวคือผลลัพธ์ของการทดลองแต่ละครั้งไม่มีผลกระทบต่อผลของการทดลองอื่น การทดลองที่ดำเนินการในการทดลองนี้เหมือนกันทุกประการ

ดังนั้น ความน่าจะเป็นของความสำเร็จและความล้มเหลวจะเท่ากันสำหรับการทดลองแต่ละครั้ง ตัวอย่างเช่น หากความน่าจะเป็นของความสำเร็จสำหรับการทดลองคือ 0.8 (ซึ่งหมายความว่าความน่าจะเป็นของความล้มเหลวจะเป็น 0.2) การทดลองที่เหลือก็จะเหมือน กัน

การกระจายแบบหลายชื่อ

นี่คือรูปแบบทั่วไปของการแจกแจงทวินามซึ่งจำนวนของผลลัพธ์สามารถมากกว่าสองได้ คุณสมบัติอื่นๆ ของการแจกแจงนี้คล้ายกับคุณสมบัติของการแจกแจงแบบทวินาม ตัวอย่างเช่น พิจารณาเมื่อมีการทอยลูกเต๋าอย่างยุติธรรม ความน่าจะเป็นของแต่ละผลลัพธ์จะเท่ากันสำหรับการทดลองทั้งหมด เนื่องจากการทดลองเหล่านี้ไม่เกี่ยวข้องกัน

การกระจายของเบอร์นูลลี

นี่เป็นอีกรูปแบบหนึ่งของการแจกแจงแบบทวินาม เป็นกรณีพิเศษของการแจกแจงทวินามซึ่งจำนวนการทดลองที่ดำเนินการในการทดลองคือ 1 (n = 1) เนื่องจากมีการทดลองเพียงครั้งเดียว จึงสามารถกำหนดได้โดยใช้พารามิเตอร์เดียว (p) ซึ่งโดยทั่วไปคือความน่าจะเป็นของความสำเร็จ

อ่าน: การกระจายทวินามใน Python

การกระจายทวินามเชิงลบ

เงื่อนไขต่อไปนี้ในการแจกแจงทวินามลบแตกต่างจากการแจกแจงทวินาม: –

    • จำนวนการทดลองที่ดำเนินการในการทดสอบไม่คงที่
    • ตัวแปรสุ่มระบุจำนวนการทดลองที่จำเป็นเพื่อให้ได้จำนวนความสำเร็จที่ต้องการ

สำหรับการแจกแจงแบบทวินาม ตัวแปรสุ่มคือจำนวนความสำเร็จที่ต้องการ เช่น เรามุ่งเน้นที่จำนวนความสำเร็จเท่านั้นไม่ว่าจะมีเส้นทางที่ล้มเหลวกี่เส้นทาง แต่ในกรณีของทวินามเชิงลบ จะเน้นที่จำนวนการทดลองที่จำเป็นเพื่อให้บรรลุจำนวนความสำเร็จ เช่น จำนวนของความล้มเหลว (เชิงลบ) จะถูกนำมาพิจารณาด้วย ซึ่งเป็นสาเหตุที่เรียกว่าการแจกแจงทวินามเชิงลบ

กระบวนการนี้จะดำเนินต่อไปจนกว่าจะบรรลุจำนวนความสำเร็จที่ต้องการเท่านั้น ซึ่งทำให้จำนวนการทดลองสำหรับการทดสอบหนึ่งๆ เป็นไปโดยอำเภอใจ เรียกอีกอย่างว่าการกระจายแบบปาสกาล

การกระจายปัวซอง

การแจกแจงแบบปัวซองให้ความน่าจะเป็นของจำนวนเหตุการณ์ที่ไม่ต่อเนื่องที่เกิดขึ้นในช่วงเวลาหนึ่ง โดยที่เราทราบจำนวนเฉลี่ยของเหตุการณ์ที่เกิดขึ้นในช่วงเวลาเดียวกัน เหตุการณ์เหล่านี้เกิดขึ้นอย่างอิสระและไม่มีผลกับเหตุการณ์อื่น สำหรับการนำการกระจายนี้ไปใช้ จะถือว่าอัตราการเกิดขึ้นคงที่ตลอดช่วงเวลา

การกระจายเครื่องแบบแบบไม่ต่อเนื่อง

ในการแจกแจงแบบสม่ำเสมอ ความน่าจะเป็นของผลลัพธ์ทั้งหมดจะเท่ากัน ตัวอย่างเช่น พิจารณาว่าเมื่อมีการทอยอย่างยุติธรรม ความน่าจะเป็นของผลลัพธ์ใดๆ ตั้งแต่ 1 ถึง 6 จะเท่ากัน ฟังก์ชันมวลความน่าจะเป็นของการแจกแจงนี้คือ 1/n โดยที่ n คือจำนวนค่าที่ไม่ต่อเนื่องทั้งหมด

ประเภทของการกระจาย – การกระจายอย่างต่อเนื่อง

การกระจายสม่ำเสมออย่างต่อเนื่อง

ความสม่ำเสมอในการแจกแจงสามารถนำไปใช้กับค่าต่อเนื่องได้เช่นกัน แสดงว่าการแจกแจงความน่าจะเป็นสม่ำเสมอระหว่างช่วงที่ระบุ เรียกอีกอย่างว่าการกระจายแบบสี่เหลี่ยมผืนผ้าเนื่องจากรูปร่างที่ใช้ในการพล็อตบนกราฟ

การกระจายแบบปกติ

การแจกแจงแบบปกติ (เรียกอีกอย่างว่าเส้นโค้งรูประฆัง) เป็นประเภทของการกระจายแบบต่อเนื่องที่สมมาตรจากปลายทั้งสองของค่าเฉลี่ย โดยทั่วไปจะระบุว่าครึ่งหนึ่งของตัวอย่างอยู่ทางด้านซ้ายของค่าเฉลี่ย ในขณะที่อีกครึ่งหนึ่งอยู่ทางด้านขวา สำหรับการแจกแจงแบบปกติ ค่าเฉลี่ย โหมด และค่ามัธยฐานจะเท่ากัน

ข้อมูลที่กระจายตามปกติโดยทั่วไปจะเป็นไปตามกฎเชิงประจักษ์ กฎเชิงประจักษ์แสดงการแพร่กระจายของข้อมูลในรูปของค่าเบี่ยงเบนมาตรฐานและค่าเฉลี่ยดังนี้: –

    • ความน่าจะเป็น 68% ที่ตัวแปรสุ่มอยู่ภายใน 1 ส่วนเบี่ยงเบนมาตรฐานของค่าเฉลี่ย
    • ความน่าจะเป็น 95% ที่ตัวแปรสุ่มอยู่ภายใน 2 ส่วนเบี่ยงเบนมาตรฐานของค่าเฉลี่ย
    • ความน่าจะเป็น 99.7% ที่ตัวแปรสุ่มอยู่ภายใน 3 ส่วนเบี่ยงเบนมาตรฐานของค่าเฉลี่ย

T – การกระจาย

คล้าย กับการแจกแจงแบบปกติ แต่มีความเป็นไปได้สูงที่ค่าสูงสุดของข้อมูล ทำให้สามารถรับค่าที่อยู่ไกลจากค่าเฉลี่ยได้มากขึ้น เมื่อพล็อตบนกราฟ เส้นโค้งจะดูสั้นและหนากว่าเส้นโค้งการกระจายปกติ

ควรใช้เมื่อจำนวนตัวอย่างมีขนาดเล็กลง เมื่อขนาดของตัวอย่างเพิ่มขึ้น เส้นการกระจายตัว t เริ่มปรากฏเป็นเส้นการกระจายตัวแบบปกติ เนื่องจากสูตรสำหรับการแจกแจงแบบปกติและการแจกแจงค่า t นั้นซับซ้อนและใช้เวลานานในการคำนวณ เราจึงคำนวณค่าของ Z-score และ T-score ตามลำดับ

อ่านเพิ่มเติม: 13 แนวคิดและหัวข้อโครงการโครงสร้างข้อมูลที่น่าสนใจสำหรับผู้เริ่มต้น

จิ – สแควร์ดิสทริบิวชั่น

การแจกแจงแบบไคสแควร์คือการแจกแจงผลบวกกำลังสองของตัวแปรสุ่มที่นำมาจากการแจกแจงแบบปกติ องศาอิสระที่ใช้ในการแจกแจงนี้เท่ากับจำนวนตัวแปรที่นำมาจากการแจกแจงแบบปกติ ค่าเฉลี่ยของการกระจายตัวแบบไคสแควร์ เท่ากับจำนวนดีกรีอิสระ

การกระจายนี้ใช้กันอย่างแพร่หลายในการคำนวณช่วงความเชื่อมั่นและในการทดสอบสมมติฐาน เป็นกรณีเฉพาะของ การ แจกแจงแกมมา นอกจากนี้ยังใช้ในการทดสอบไคสแควร์ซึ่งเป็นการทดสอบความพอดีสำหรับการแจกแจงที่สังเกตได้ ซึ่งช่วยในการระบุว่าข้อมูลตัวอย่างเป็นตัวแทนที่ดีของ ประชากร ทั้งหมดหรือไม่

บทสรุป

บทความนี้ให้ภาพรวมของตัวอย่างบางส่วนของการแจกแจงแบบแยกส่วนและต่อเนื่อง การแจกแจงแบบต่างๆ เหล่านี้ใช้เพื่อจุดประสงค์ที่แตกต่างกัน และแต่ละรายการมีสมมติฐานของตัวเอง

เรียนรู้ หลักสูตร ML จากมหาวิทยาลัยชั้นนำของโลก รับ Masters, Executive PGP หรือ Advanced Certificate Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

แม้ว่าในสถานการณ์ในชีวิตจริง สมมติฐานของการแจกแจงเหล่านี้อาจไม่เป็นจริง แต่การแจกแจงเหล่านี้จะช่วยในการตัดสินใจที่สำคัญสำหรับองค์กร

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับแมชชีนเลิร์นนิง โปรดดูที่ IIIT-B & upGrad's PG Diploma in Machine Learning & AI ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีการฝึกอบรมที่เข้มงวดมากกว่า 450 ชั่วโมง กรณีศึกษาและการมอบหมายมากกว่า 30 รายการ IIIT- สถานะศิษย์เก่า B, 5+ โครงการหลักที่ใช้งานได้จริง & ความช่วยเหลือด้านงานกับบริษัทชั้นนำ

อะไรที่ทำให้การแจกแจงทวินามแตกต่างจากการแจกแจงแบบปกติ?

ในการแจกแจงแบบทวินาม ไม่มีจุดข้อมูลระหว่างจุดข้อมูลสองจุดใดๆ ซึ่งตรงกันข้ามอย่างสิ้นเชิงกับการแจกแจงแบบปกติซึ่งมีจุดข้อมูลแบบไม่ต่อเนื่อง การแจกแจงแบบปกติไม่ต่อเนื่องเหมือนการแจกแจงทวินาม การแจกแจงแบบทวินามมีจำนวนการเกิดขึ้นอย่างจำกัด ในขณะที่การแจกแจงแบบปกติมีจำนวนครั้งไม่สิ้นสุด ถึงอย่างนั้น ถ้าขนาดกลุ่มตัวอย่างมีขนาดใหญ่พอ รูปแบบของการกระจายตัวแบบทวินามจะคล้ายกับของการแจกแจงแบบปกติ

อะไรที่ทำให้การแจกแจงทวินามแตกต่างจากการแจกแจงแบบเบอร์นูลลี

ผลลัพธ์ของการทดลองครั้งเดียวของเหตุการณ์นั้นถูกจัดการโดยการแจกแจงแบบเบอร์นูลลี แต่ผลของการทดลองหลายครั้งของเหตุการณ์เดียวนั้นถูกจัดการโดยการแจกแจงทวินาม เมื่อต้องการผลลัพธ์ของเหตุการณ์เพียงครั้งเดียว การแจกแจงแบบเบอร์นูลลีจะถูกนำไปใช้ แต่การแจกแจงแบบทวินามจะใช้เมื่อต้องการผลลัพธ์หลายครั้ง

เมื่อมีความไม่แน่นอน เราจะใช้การกระจายความน่าจะเป็นได้อย่างไร

พื้นที่ความน่าจะเป็นเป็นตัวแทนของความไม่แน่นอนของเราเกี่ยวกับการทดลองที่รวมพื้นที่ตัวอย่างของผลลัพธ์ที่เป็นไปได้และการวัดความน่าจะเป็นที่ประมาณความน่าจะเป็นของแต่ละเหตุการณ์ ในการวิเคราะห์ความไม่แน่นอน การแจกแจงแบบสี่เหลี่ยมผืนผ้าเป็นการแจกแจงความน่าจะเป็นที่ใช้กันอย่างแพร่หลายมากที่สุด ผลลัพธ์ทั้งหมดมีแนวโน้มที่จะเกิดขึ้นอย่างเท่าเทียมกันในการแจกแจงแบบสี่เหลี่ยม คุณจะต้องหารค่าของคุณด้วยรากที่สองของ 3 เพื่อแปลงตัวสร้างความไม่แน่นอนของคุณให้มีค่าเท่ากับค่าเบี่ยงเบนมาตรฐาน