Anova Two Factor พร้อมการจำลองแบบ [พร้อมการเปรียบเทียบ]
เผยแพร่แล้ว: 2020-09-18สารบัญ
บทนำ
การวิเคราะห์ความแปรปรวนหรือ Anova สั้น ๆ เป็นเทคนิคในการทำความเข้าใจความแปรปรวนของตัวแปร ทำให้สามารถคำนวณได้ว่าตัวแปรใดมีผลกระทบต่อผลลัพธ์สุดท้ายมากน้อยเพียงใด เทคนิค Anova ทำสิ่งนี้โดยกำจัดหรือยืนยันสมมติฐานว่าง สมมติฐานว่างหมายความว่าไม่มีความสัมพันธ์ใดๆ ระหว่างเอนทิตีทั้งสองที่อยู่ภายใต้การสังเกต ตัวอย่างเช่น หากมีสองตัวแปร A และ B เราบอกว่าสมมติฐานว่างระหว่าง A และ B จะคงอยู่หากการเปลี่ยนแปลงใน A จะไม่ส่งผลต่อผลลัพธ์ของ B และในทางกลับกัน
ก่อนที่จะไปดูรายละเอียดของ Anova two-factor with replication เรามาพูดถึงแนวคิดพื้นฐานของ Anova กันก่อน
แนวคิด
Anova เป็นแนวคิดทางสถิติ และไม่มีสถิติใดที่ไม่มีตัวเลข Anova ต้องการตัวเลขที่แน่นอนซึ่งมันสามารถวิเคราะห์สมมติฐานว่างที่เราตั้งไว้เมื่อเริ่มการวิเคราะห์ ค่าวิกฤตสามค่าสำหรับการคำนวณนี้คืออัตราส่วน F และค่าวิกฤต F โดยมีค่านัยสำคัญบางค่า ในตอนนี้ เราจะไม่พูดถึงการคำนวณทางคณิตศาสตร์แบบละเอียดมากนัก แต่เราจะพูดถึงส่วนต่างๆ ของแนวคิดด้วยตัวอย่าง
ความสำคัญของตัวแปรหรือเอนทิตีเฉพาะคำนวณโดยการเปรียบเทียบค่ากับผลกระทบโดยรวมต่อมูลค่าเป้าหมาย ตัวอย่างเช่น ความสำคัญของ X จะมีความสำคัญมากกว่าใน A หากแม้การเปลี่ยนแปลงเล็กน้อยใน X ก็อาจส่งผลต่อการเปลี่ยนค่าของ A ได้ อัตราส่วน F จะคำนวณโดยผลรวมค่าเฉลี่ยของกำลังสองของเอนทิตีและผลรวมเฉลี่ยของกำลังสองกำลังสอง ผลรวมกำลังสองเฉลี่ยคำนวณโดยการหารผลรวมกำลังสองเฉลี่ยด้วยระดับความเป็นอิสระ ระดับความเป็นอิสระคือจำนวนกรณีที่เป็นไปได้ของตัวแปรระบุ ลบหนึ่ง
F สำคัญขึ้นอยู่กับค่านัยสำคัญ อัตราส่วน F คำนวณด้วยตนเองผ่านกระบวนการที่อธิบายไว้ข้างต้น ความถูกต้องของสมมติฐานขึ้นอยู่กับค่าของอัตราส่วน F และค่าวิกฤต F นี่คือกรณี:
· หากอัตราส่วน F-critical > F แสดงว่ามีสมมติฐาน และไม่มีความสัมพันธ์ระหว่างตัวแปรที่สังเกต
· หากอัตราส่วน F-critical < F สมมติฐานสามารถประกาศเป็นโมฆะได้ และในทางกลับกันก็สนับสนุนแนวคิดที่ว่าตัวแปรส่งผลกระทบซึ่งกันและกัน
อ่าน: 10 อันดับงานวิทยาศาสตร์ข้อมูลที่จ่ายสูงสุดในอินเดีย
ความแตกต่างระหว่างทางเดียวและสองทาง
ดังที่กล่าวไว้ ในที่นี้ เราจะหารือเกี่ยวกับแนวคิดของ Anova two-factor กับการจำลอง แบบ แต่อะไรคือความแตกต่างระหว่างปัจจัยเดียวและปัจจัยสองประการ? ปัจจัยเดียวของ Anova เกี่ยวข้องกับตัวแปรระบุเพียงตัวเดียว (ตัวแปรที่มีคลาสหรือหมวดหมู่ตั้งแต่ 2 คลาสขึ้นไป แต่ลำดับของหมวดหมู่ไม่สำคัญ ตัวอย่างเช่น เพศเป็นตัวแปรที่มีคลาสชายและหญิง)
เรียนรู้ หลักสูตรการรับรองวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว
อย่างไรก็ตาม Anova two-factor เกี่ยวข้องกับตัวแปรที่ระบุสองตัว เนื่องจากตัวแปรมีน้อย จึงมีการเปลี่ยนแปลงจำนวนของสมมติฐานว่างในการวิเคราะห์ทั้งสองประเภท สมมติฐานใน Anova แบบสองทางมีดังนี้:
· วิธีการสังเกตโดยตัวแปรเดียวเหมือนกัน ความหมาย ตัวแปรที่หนึ่งไม่มีผลกับค่าเป้าหมายแต่อย่างใด
· วิธีการสังเกตโดยตัวแปรอื่นเหมือนกัน ความหมาย ตัวแปรที่สองไม่มีผลกับค่าเป้าหมายแต่อย่างใด
· ไม่มีการโต้ตอบระหว่างตัวแปรที่หนึ่งและตัวแปรที่สอง
ใน Anova ทางเดียว มีสมมติฐานว่างและสมมติฐานทางเลือก อย่างแรก ค่าเฉลี่ยของตัวแปรจะเหมือนกัน และอย่างที่สอง ค่าเฉลี่ยของตัวแปรอื่นจะเหมือนกัน
เพื่อให้เข้าใจชัดเจนยิ่งขึ้น ให้เรายกตัวอย่าง
ตัวอย่าง #1
ซิด | เสียงรบกวนสูง | ซิด | เสียงรบกวนปานกลาง | ซิด | เสียงเบา |
S1 | 23 | S5 | 23 | S9 | 39 |
S2 | 45 | S6 | 64 | S10 | 43 |
S3 | 34 | S7 | 73 | S11 | 26 |
S4 | 46 | S8 | 48 | S12 | 11 |
ตารางแสดงเครื่องหมายของนักเรียนแต่ละคนต่อหน้าช่วงเสียงต่างๆ ในอโนวาทางเดียว มีตัวแปรระบุเพียงตัวเดียวเท่านั้น ที่นี่ตัวแปรเล็กน้อยคือสัญญาณรบกวน ดังนั้นสมมติฐานจะพยายามตรวจสอบว่าเสียงมีผลอย่างมากต่อเครื่องหมายของนักเรียนหรือไม่

ให้เราใช้ตารางอื่น:
นักเรียน | เสียงรบกวนสูง | เสียงรบกวนปานกลาง | เสียงเบา |
ชาย | 13 | 24 | 29 |
12 | 23 | 45 | |
11 | 32 | 33 | |
4 | 11 | 33 | |
หญิง | 16 | 17 | 56 |
12 | 24 | 34 | |
8 | 23 | 23 | |
3 | 29 | 67 |
ในตารางนี้ คะแนนจะแสดงตามหมวดหมู่ของนักเรียน ดังนั้นเราจึงมีตัวแปรนามสองตัวคือ เพศของนักเรียนและระดับเสียง ในที่นี้ มีการวิเคราะห์แบบสองปัจจัย ซึ่งจะทำโดยใช้สมมติฐานสามข้อ
แต่ตอนนี้ Anova two-factor with replication นั้นมีความหมายอะไรกันแน่ ?
อ่านเพิ่มเติม: แนวคิดโครงการวิทยาศาสตร์ข้อมูล
ความแตกต่างระหว่าง with-replication และ without-replication
ความแตกต่างพื้นฐานระหว่าง สองปัจจัยของ Anova กับการจำลองแบบ และไม่มีการจำลองคือขนาดกลุ่มตัวอย่างแตกต่างกัน ในเทคนิคที่มีการจำลอง จำนวนตัวอย่างทั้งหมดส่วนใหญ่จะเท่ากัน หากเป็นกรณีนี้ ค่าเฉลี่ยจะถูกคำนวณอย่างอิสระ ข้อมูลประเภทนี้เรียกอีกอย่างว่าข้อมูลที่สมดุล แต่ถ้าขนาดตัวอย่างไม่เท่ากัน การวิเคราะห์ก็ยาก ควรใช้ขนาดตัวอย่างสม่ำเสมอเพื่อให้ได้ผลลัพธ์เร็วขึ้น
ในเทคนิคที่ไม่มีการจำลองแบบ ขนาดการสังเกตตัวอย่างคือหนึ่งขนาด หมายความว่ามีการสังเกตเพียงครั้งเดียวสำหรับชุดค่าผสมของตัวแปรที่ระบุแต่ละชุด ในที่นี้ การวิเคราะห์สามารถทำได้โดยใช้ทั้งตัวแปรและค่าเฉลี่ยรวมของการพิจารณาทุกการสังเกตเป็นกลุ่มเดียว อัตราส่วน F สามารถคำนวณได้จากค่าเฉลี่ยที่เหลือและค่าเฉลี่ยทั้งหมด
เช็คเอาท์: ห้องสมุด Python 12 อันดับแรกสำหรับวิทยาศาสตร์ข้อมูล
บทสรุป
นี่คือการ ทำงานของ Anova two-factor กับการจำลอง แบบ มีแนวคิดหลายอย่างในสถิติที่การคำนวณดูเหมือนยาก แต่ทุกอย่างจะง่ายขึ้นหากมีความชัดเจนของแนวคิด เราได้พูดคุยกันถึงความหมายของ Anova แนวคิด Anova แบบสองทาง และเกณฑ์การจำลองแบบ เราหวังว่าบทความนี้จะให้รายละเอียดเพียงพอเกี่ยวกับ การทำงานแบบสองปัจจัยของ Anova พร้อมการจำลองแบบ เพื่อให้คุณได้ทดลองใช้ด้วยตนเอง
หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ลองดูโปรแกรม Executive PG ของ IIIT-B & upGrad ใน Data Science ซึ่งสร้างขึ้นสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1 -on-1 พร้อมที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ
การทดสอบ t เหมือนกับ Anova หรือไม่
การทดสอบ t จะตรวจสอบว่าประชากรสองกลุ่มมีความแตกต่างกันทางสถิติหรือไม่ ในขณะที่ Anova จะทดสอบว่าประชากรสามกลุ่มขึ้นไปมีความแตกต่างกันทางสถิติหรือไม่ สำหรับการเปรียบเทียบค่าเฉลี่ยของสองกลุ่ม จะใช้ t-test แต่จะใช้ Anova เมื่อเปรียบเทียบค่าเฉลี่ยของสามกลุ่มขึ้นไป ใน Anova ขั้นตอนแรกคือการหาค่า P ร่วมกัน ค่า P ที่มีนัยสำคัญในการทดสอบ Anova บ่งชี้ว่าความแตกต่างระหว่างคู่อย่างน้อยหนึ่งคู่มีนัยสำคัญทางสถิติ
ใน Anova คุณจะยอมรับหรือปฏิเสธสมมติฐานว่างได้อย่างไร?
การตีความโดยทั่วไปคือข้อมูลมีนัยสำคัญทางสถิติเมื่อค่า p น้อยกว่าระดับนัยสำคัญ และคุณปฏิเสธ H 0 เมื่อมีข้อมูลเพียงพอที่จะระบุว่าค่าเฉลี่ยไม่เท่ากัน เราอาจปฏิเสธสมมติฐานว่าง ใน Anova ทางเดียว
ใน Anova คุณตีความค่า F อย่างไร
ความสำคัญของ F คือความน่าจะเป็นที่สมมติฐานว่างของแบบจำลองการถดถอยของคุณไม่สามารถปฏิเสธได้ พูดอีกอย่างก็คือ มันบ่งชี้ความน่าจะเป็นที่สัมประสิทธิ์ทั้งหมดในผลการถดถอยของคุณเป็นศูนย์! ความแตกต่างระหว่างค่ากำลังสองเฉลี่ยสองค่าจะเท่ากับอัตราส่วน F หากสมมติฐานว่างเป็นจริง F ควรอยู่ใกล้ 1.0 เป็นส่วนใหญ่ อัตราส่วน F สูงแสดงว่าค่าความแปรปรวนของค่าเฉลี่ยกลุ่มสูงกว่าที่คาดโดยบังเอิญ