Anova Two Factor พร้อมการจำลองแบบ [พร้อมการเปรียบเทียบ]

เผยแพร่แล้ว: 2020-09-18

สารบัญ

บทนำ

การวิเคราะห์ความแปรปรวนหรือ Anova สั้น ๆ เป็นเทคนิคในการทำความเข้าใจความแปรปรวนของตัวแปร ทำให้สามารถคำนวณได้ว่าตัวแปรใดมีผลกระทบต่อผลลัพธ์สุดท้ายมากน้อยเพียงใด เทคนิค Anova ทำสิ่งนี้โดยกำจัดหรือยืนยันสมมติฐานว่าง สมมติฐานว่างหมายความว่าไม่มีความสัมพันธ์ใดๆ ระหว่างเอนทิตีทั้งสองที่อยู่ภายใต้การสังเกต ตัวอย่างเช่น หากมีสองตัวแปร A และ B เราบอกว่าสมมติฐานว่างระหว่าง A และ B จะคงอยู่หากการเปลี่ยนแปลงใน A จะไม่ส่งผลต่อผลลัพธ์ของ B และในทางกลับกัน

ก่อนที่จะไปดูรายละเอียดของ Anova two-factor with replication เรามาพูดถึงแนวคิดพื้นฐานของ Anova กันก่อน

แนวคิด

Anova เป็นแนวคิดทางสถิติ และไม่มีสถิติใดที่ไม่มีตัวเลข Anova ต้องการตัวเลขที่แน่นอนซึ่งมันสามารถวิเคราะห์สมมติฐานว่างที่เราตั้งไว้เมื่อเริ่มการวิเคราะห์ ค่าวิกฤตสามค่าสำหรับการคำนวณนี้คืออัตราส่วน F และค่าวิกฤต F โดยมีค่านัยสำคัญบางค่า ในตอนนี้ เราจะไม่พูดถึงการคำนวณทางคณิตศาสตร์แบบละเอียดมากนัก แต่เราจะพูดถึงส่วนต่างๆ ของแนวคิดด้วยตัวอย่าง

ความสำคัญของตัวแปรหรือเอนทิตีเฉพาะคำนวณโดยการเปรียบเทียบค่ากับผลกระทบโดยรวมต่อมูลค่าเป้าหมาย ตัวอย่างเช่น ความสำคัญของ X จะมีความสำคัญมากกว่าใน A หากแม้การเปลี่ยนแปลงเล็กน้อยใน X ก็อาจส่งผลต่อการเปลี่ยนค่าของ A ได้ อัตราส่วน F จะคำนวณโดยผลรวมค่าเฉลี่ยของกำลังสองของเอนทิตีและผลรวมเฉลี่ยของกำลังสองกำลังสอง ผลรวมกำลังสองเฉลี่ยคำนวณโดยการหารผลรวมกำลังสองเฉลี่ยด้วยระดับความเป็นอิสระ ระดับความเป็นอิสระคือจำนวนกรณีที่เป็นไปได้ของตัวแปรระบุ ลบหนึ่ง

F สำคัญขึ้นอยู่กับค่านัยสำคัญ อัตราส่วน F คำนวณด้วยตนเองผ่านกระบวนการที่อธิบายไว้ข้างต้น ความถูกต้องของสมมติฐานขึ้นอยู่กับค่าของอัตราส่วน F และค่าวิกฤต F นี่คือกรณี:

· หากอัตราส่วน F-critical > F แสดงว่ามีสมมติฐาน และไม่มีความสัมพันธ์ระหว่างตัวแปรที่สังเกต

· หากอัตราส่วน F-critical < F สมมติฐานสามารถประกาศเป็นโมฆะได้ และในทางกลับกันก็สนับสนุนแนวคิดที่ว่าตัวแปรส่งผลกระทบซึ่งกันและกัน

อ่าน: 10 อันดับงานวิทยาศาสตร์ข้อมูลที่จ่ายสูงสุดในอินเดีย

ความแตกต่างระหว่างทางเดียวและสองทาง

ดังที่กล่าวไว้ ในที่นี้ เราจะหารือเกี่ยวกับแนวคิดของ Anova two-factor กับการจำลอง แบบ แต่อะไรคือความแตกต่างระหว่างปัจจัยเดียวและปัจจัยสองประการ? ปัจจัยเดียวของ Anova เกี่ยวข้องกับตัวแปรระบุเพียงตัวเดียว (ตัวแปรที่มีคลาสหรือหมวดหมู่ตั้งแต่ 2 คลาสขึ้นไป แต่ลำดับของหมวดหมู่ไม่สำคัญ ตัวอย่างเช่น เพศเป็นตัวแปรที่มีคลาสชายและหญิง)

เรียนรู้ หลักสูตรการรับรองวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

อย่างไรก็ตาม Anova two-factor เกี่ยวข้องกับตัวแปรที่ระบุสองตัว เนื่องจากตัวแปรมีน้อย จึงมีการเปลี่ยนแปลงจำนวนของสมมติฐานว่างในการวิเคราะห์ทั้งสองประเภท สมมติฐานใน Anova แบบสองทางมีดังนี้:

· วิธีการสังเกตโดยตัวแปรเดียวเหมือนกัน ความหมาย ตัวแปรที่หนึ่งไม่มีผลกับค่าเป้าหมายแต่อย่างใด

· วิธีการสังเกตโดยตัวแปรอื่นเหมือนกัน ความหมาย ตัวแปรที่สองไม่มีผลกับค่าเป้าหมายแต่อย่างใด

· ไม่มีการโต้ตอบระหว่างตัวแปรที่หนึ่งและตัวแปรที่สอง

ใน Anova ทางเดียว มีสมมติฐานว่างและสมมติฐานทางเลือก อย่างแรก ค่าเฉลี่ยของตัวแปรจะเหมือนกัน และอย่างที่สอง ค่าเฉลี่ยของตัวแปรอื่นจะเหมือนกัน

เพื่อให้เข้าใจชัดเจนยิ่งขึ้น ให้เรายกตัวอย่าง

ตัวอย่าง #1

ซิด เสียงรบกวนสูง ซิด เสียงรบกวนปานกลาง ซิด เสียงเบา
S1 23 S5 23 S9 39
S2 45 S6 64 S10 43
S3 34 S7 73 S11 26
S4 46 S8 48 S12 11

ตารางแสดงเครื่องหมายของนักเรียนแต่ละคนต่อหน้าช่วงเสียงต่างๆ ในอโนวาทางเดียว มีตัวแปรระบุเพียงตัวเดียวเท่านั้น ที่นี่ตัวแปรเล็กน้อยคือสัญญาณรบกวน ดังนั้นสมมติฐานจะพยายามตรวจสอบว่าเสียงมีผลอย่างมากต่อเครื่องหมายของนักเรียนหรือไม่

ให้เราใช้ตารางอื่น:

นักเรียน เสียงรบกวนสูง เสียงรบกวนปานกลาง เสียงเบา
ชาย 13 24 29
12 23 45
11 32 33
4 11 33
หญิง 16 17 56
12 24 34
8 23 23
3 29 67

ในตารางนี้ คะแนนจะแสดงตามหมวดหมู่ของนักเรียน ดังนั้นเราจึงมีตัวแปรนามสองตัวคือ เพศของนักเรียนและระดับเสียง ในที่นี้ มีการวิเคราะห์แบบสองปัจจัย ซึ่งจะทำโดยใช้สมมติฐานสามข้อ

แต่ตอนนี้ Anova two-factor with replication นั้นมีความหมายอะไรกันแน่ ?

อ่านเพิ่มเติม: แนวคิดโครงการวิทยาศาสตร์ข้อมูล

ความแตกต่างระหว่าง with-replication และ without-replication

ความแตกต่างพื้นฐานระหว่าง สองปัจจัยของ Anova กับการจำลองแบบ และไม่มีการจำลองคือขนาดกลุ่มตัวอย่างแตกต่างกัน ในเทคนิคที่มีการจำลอง จำนวนตัวอย่างทั้งหมดส่วนใหญ่จะเท่ากัน หากเป็นกรณีนี้ ค่าเฉลี่ยจะถูกคำนวณอย่างอิสระ ข้อมูลประเภทนี้เรียกอีกอย่างว่าข้อมูลที่สมดุล แต่ถ้าขนาดตัวอย่างไม่เท่ากัน การวิเคราะห์ก็ยาก ควรใช้ขนาดตัวอย่างสม่ำเสมอเพื่อให้ได้ผลลัพธ์เร็วขึ้น

ในเทคนิคที่ไม่มีการจำลองแบบ ขนาดการสังเกตตัวอย่างคือหนึ่งขนาด หมายความว่ามีการสังเกตเพียงครั้งเดียวสำหรับชุดค่าผสมของตัวแปรที่ระบุแต่ละชุด ในที่นี้ การวิเคราะห์สามารถทำได้โดยใช้ทั้งตัวแปรและค่าเฉลี่ยรวมของการพิจารณาทุกการสังเกตเป็นกลุ่มเดียว อัตราส่วน F สามารถคำนวณได้จากค่าเฉลี่ยที่เหลือและค่าเฉลี่ยทั้งหมด

เช็คเอาท์: ห้องสมุด Python 12 อันดับแรกสำหรับวิทยาศาสตร์ข้อมูล

บทสรุป

นี่คือการ ทำงานของ Anova two-factor กับการจำลอง แบบ มีแนวคิดหลายอย่างในสถิติที่การคำนวณดูเหมือนยาก แต่ทุกอย่างจะง่ายขึ้นหากมีความชัดเจนของแนวคิด เราได้พูดคุยกันถึงความหมายของ Anova แนวคิด Anova แบบสองทาง และเกณฑ์การจำลองแบบ เราหวังว่าบทความนี้จะให้รายละเอียดเพียงพอเกี่ยวกับ การทำงานแบบสองปัจจัยของ Anova พร้อมการจำลองแบบ เพื่อให้คุณได้ทดลองใช้ด้วยตนเอง

หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ลองดูโปรแกรม Executive PG ของ IIIT-B & upGrad ใน Data Science ซึ่งสร้างขึ้นสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1 -on-1 พร้อมที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

การทดสอบ t เหมือนกับ Anova หรือไม่

การทดสอบ t จะตรวจสอบว่าประชากรสองกลุ่มมีความแตกต่างกันทางสถิติหรือไม่ ในขณะที่ Anova จะทดสอบว่าประชากรสามกลุ่มขึ้นไปมีความแตกต่างกันทางสถิติหรือไม่ สำหรับการเปรียบเทียบค่าเฉลี่ยของสองกลุ่ม จะใช้ t-test แต่จะใช้ Anova เมื่อเปรียบเทียบค่าเฉลี่ยของสามกลุ่มขึ้นไป ใน Anova ขั้นตอนแรกคือการหาค่า P ร่วมกัน ค่า P ที่มีนัยสำคัญในการทดสอบ Anova บ่งชี้ว่าความแตกต่างระหว่างคู่อย่างน้อยหนึ่งคู่มีนัยสำคัญทางสถิติ

ใน Anova คุณจะยอมรับหรือปฏิเสธสมมติฐานว่างได้อย่างไร?

การตีความโดยทั่วไปคือข้อมูลมีนัยสำคัญทางสถิติเมื่อค่า p น้อยกว่าระดับนัยสำคัญ และคุณปฏิเสธ H 0 เมื่อมีข้อมูลเพียงพอที่จะระบุว่าค่าเฉลี่ยไม่เท่ากัน เราอาจปฏิเสธสมมติฐานว่าง ใน Anova ทางเดียว

ใน Anova คุณตีความค่า F อย่างไร

ความสำคัญของ F คือความน่าจะเป็นที่สมมติฐานว่างของแบบจำลองการถดถอยของคุณไม่สามารถปฏิเสธได้ พูดอีกอย่างก็คือ มันบ่งชี้ความน่าจะเป็นที่สัมประสิทธิ์ทั้งหมดในผลการถดถอยของคุณเป็นศูนย์! ความแตกต่างระหว่างค่ากำลังสองเฉลี่ยสองค่าจะเท่ากับอัตราส่วน F หากสมมติฐานว่างเป็นจริง F ควรอยู่ใกล้ 1.0 เป็นส่วนใหญ่ อัตราส่วน F สูงแสดงว่าค่าความแปรปรวนของค่าเฉลี่ยกลุ่มสูงกว่าที่คาดโดยบังเอิญ