การถดถอยเชิงเส้นพหุคูณใน R [ด้วยกราฟและตัวอย่าง]

เผยแพร่แล้ว: 2020-10-16

ในฐานะนักวิทยาศาสตร์ข้อมูล คุณมักถูกขอให้ทำการวิเคราะห์เชิงคาดการณ์ในหลายโครงการ การวิเคราะห์เป็นวิธีทางสถิติสำหรับการสร้างความสัมพันธ์ระหว่างตัวแปรตามกับชุดของตัวแปรอิสระ แนวคิดทั้งหมดนี้สามารถเรียกได้ว่าเป็นการถดถอยเชิงเส้น ซึ่งโดยพื้นฐานแล้วมีสองประเภท: การถดถอยเชิงเส้นแบบง่ายและพหุคูณ

R เป็นหนึ่งในภาษาที่สำคัญที่สุดในแง่ของวิทยาศาสตร์ข้อมูลและการวิเคราะห์ และการ ถดถอยเชิงเส้นพหุคูณใน R ก็มีค่าเช่นกัน มันอธิบายสถานการณ์สมมติที่ตัวแปรตอบสนองเดียว Y ขึ้นอยู่กับตัวแปรทำนายหลายตัวเชิงเส้น

สารบัญ

การถดถอยเชิงเส้นคืออะไร?
การถดถอยเชิงเส้นพหุคูณคืออะไร?
- สูตรถดถอยพหุคูณ
- สมมติฐานของการถดถอยเชิงเส้นพหุคูณ
- กรณีที่มีการใช้การถดถอยเชิงเส้นพหุคูณ
- การถดถอยเชิงเส้นพหุคูณใน R
- การดำเนินการถดถอยพหุคูณในR
- การรายงานผล
- การแสดงกราฟิกของผลการวิจัย
คำพูดสุดท้าย
การใช้ภาษาโปรแกรม R คืออะไร?
การถดถอยเชิงเส้นใช้ทำอะไร?
การเขียนโปรแกรม R ยากไหม?

การถดถอยเชิงเส้นคืออะไร?

ตัวแบบการถดถอยเชิงเส้นใช้เพื่อแสดงหรือทำนายความสัมพันธ์ระหว่าง a ตัวแปรตามและตัวแปรอิสระ เมื่อมีตัวแปรอิสระตั้งแต่สองตัวขึ้นไปที่ใช้ในการวิเคราะห์การถดถอย ตัวแบบจะไม่ใช่แค่เชิงเส้น แต่เป็นแบบจำลองการถดถอยพหุคูณ

การถดถอยเชิงเส้นอย่างง่ายใช้สำหรับการทำนายค่าของตัวแปรหนึ่งโดยใช้ตัวแปรอื่น เส้นตรงแสดงถึงความสัมพันธ์ระหว่างตัวแปรสองตัวที่มีการถดถอยเชิงเส้น

ไม่จำเป็นต้องมีประสบการณ์การเข้ารหัส การสนับสนุนด้านอาชีพ 360° PG Diploma in Machine Learning & AI จาก IIIT-B และ upGrad

มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรตามที่มีตัวแปรอิสระตั้งแต่สองตัวขึ้นไปในการถดถอยพหุคูณ ความสัมพันธ์สามารถไม่เป็นเชิงเส้นได้ และตัวแปรตามและตัวแปรอิสระจะไม่เป็นไปตามเส้นตรง

การแสดงภาพของการทำนายแบบจำลองการถดถอยเชิงเส้นพหุคูณ

การถดถอยเชิงเส้นและไม่เชิงเส้นใช้เพื่อติดตามการตอบสนองโดยใช้ตัวแปรตั้งแต่สองตัวขึ้นไป การถดถอยแบบไม่เชิงเส้นถูกสร้างขึ้นจากสมมติฐานจากการลองผิดลองถูก และค่อนข้างยากที่จะดำเนินการ

การถดถอยเชิงเส้นพหุคูณคืออะไร?

การถดถอยเชิงเส้นพหุคูณเป็นเทคนิคการวิเคราะห์ทางสถิติที่ใช้ในการทำนายผลลัพธ์ของตัวแปรโดยพิจารณาจากตัวแปรตั้งแต่สองตัวขึ้นไป มันเป็นส่วนขยายของการถดถอยเชิงเส้นและเรียกอีกอย่างว่าการถดถอยพหุคูณ ตัวแปรที่จะทำนายคือตัวแปรตาม และตัวแปรที่ใช้ในการทำนายค่าของตัวแปรตามนั้นเรียกว่าตัวแปรอิสระหรือตัวแปรอธิบาย

การถดถอยเชิงเส้นพหุคูณช่วยให้นักวิเคราะห์สามารถกำหนดความผันแปรของแบบจำลองและการมีส่วนร่วมเชิงสัมพันธ์ของตัวแปรอิสระแต่ละตัวได้ การถดถอยพหุคูณมีสองประเภทคือการถดถอยเชิงเส้นและไม่เชิงเส้น

สูตรถดถอยพหุคูณ

การถดถอยพหุคูณที่มีสามตัวแปรทำนาย (x) ตัวแปรทำนาย y แสดงเป็นสมการต่อไปนี้:

y = z0 + z1*x1 + z2*x2 + z3*x3

ค่า "z" แสดงถึงน้ำหนักการถดถอย และเป็น ค่า สัมประสิทธิ์เบตา เป็นความสัมพันธ์ระหว่างตัวแปรทำนายและผลลัพธ์

yi เป็นตัวแปรตามหรือทำนายไว้
z0 คือค่าตัดแกน y เช่น ค่าของ y เมื่อ x1 และ x2 เป็น 0
z1 และ z2 เป็นสัมประสิทธิ์การถดถอยที่แสดงถึงการเปลี่ยนแปลงใน y ที่เกี่ยวข้องกับการเปลี่ยนแปลงหนึ่งหน่วยใน x1 และ x2 ตามลำดับ

สมมติฐานของการถดถอยเชิงเส้นพหุคูณ

เรารู้บทสรุปเกี่ยวกับการถดถอยพหุคูณและสูตรพื้นฐานแล้ว อย่างไรก็ตาม มีสมมติฐานบางประการที่การถดถอยเชิงเส้นพหุคูณมีรายละเอียดดังนี้:

ฉัน. ความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ

ตัวแปรตามสัมพันธ์เชิงเส้นกับตัวแปรอิสระแต่ละตัว ในการตรวจสอบความสัมพันธ์เชิงเส้น มีการสร้าง scatterplot และสังเกตความเป็นเชิงเส้น ถ้าความสัมพันธ์ scatterplot ไม่เป็นเชิงเส้น แสดงว่ามีการถดถอยแบบไม่เชิงเส้น หรือข้อมูลถูกถ่ายโอนโดยใช้ซอฟต์แวร์ทางสถิติ

ii ตัวแปรอิสระไม่มีความสัมพันธ์กันมากนัก

ข้อมูลไม่ควรแสดง multicollinearity ซึ่งเกิดขึ้นในกรณีที่ตัวแปรอิสระมีความสัมพันธ์กันสูง สิ่งนี้จะสร้างปัญหาในการดึงข้อมูลตัวแปรเฉพาะที่ทำให้เกิดความแปรปรวนในตัวแปรตาม

สาม. ความแปรปรวนคงเหลือคงที่

การถดถอยเชิงเส้นพหุคูณถือว่าข้อผิดพลาดของตัวแปรที่เหลือจะคล้ายกันในแต่ละจุดของโมเดลเชิงเส้น สิ่งนี้เรียกว่า homoscedasticity เมื่อการวิเคราะห์ข้อมูลเสร็จสิ้น ค่าคงเหลือมาตรฐานเทียบกับค่าที่คาดการณ์ไว้จะถูกวางแผนเพื่อพิจารณาว่าจุดต่างๆ มีการกระจายอย่างเหมาะสมในค่าของตัวแปรอิสระหรือไม่

iv การสังเกตการณ์อิสระ

การสังเกตควรเป็นของกันและกัน และค่าคงเหลือควรเป็นอิสระ สถิติ Durbin Watson ทำงานได้ดีที่สุดสำหรับสิ่งนี้

วิธีการนี้แสดงค่าตั้งแต่ 0 ถึง 4 โดยที่ค่าระหว่าง 0 ถึง 2 แสดงความสัมพันธ์อัตโนมัติเชิงบวก และจาก 2 ถึง 4 แสดงความสัมพันธ์อัตโนมัติเชิงลบ จุดกึ่งกลาง ค่า 2 แสดงว่าไม่มีความสัมพันธ์อัตโนมัติ

การรับรองขั้นสูงของ Data Science, พันธมิตรจ้างงานมากกว่า 250 ราย, การเรียนรู้มากกว่า 300 ชั่วโมง, 0% EMI

v. ความปกติหลายตัวแปร

ภาวะปกติหลายตัวแปรเกิดขึ้นกับเศษที่เหลือแบบกระจายตามปกติ สำหรับสมมติฐานนี้ จะสังเกตได้ว่ามีการกระจายค่าของส่วนที่เหลืออย่างไร สามารถทดสอบได้ 2 วิธี คือ

· ฮิสโตแกรมที่แสดงเส้นโค้งปกติที่ซ้อนทับและ

· วิธีการแปลงความน่าจะเป็นปกติ

กรณีที่มีการใช้การถดถอยเชิงเส้นพหุคูณ

การถดถอยเชิงเส้นพหุคูณเป็นสิ่งสำคัญมากจากมุมมองของนักวิเคราะห์ นี่คือตัวอย่างบางส่วนที่สามารถประยุกต์ใช้แนวคิดนี้ได้:

ฉัน. เนื่องจากค่าของตัวแปรตามมีความสัมพันธ์กับตัวแปรอิสระ จึงใช้การถดถอยพหุคูณเพื่อคาดการณ์ผลผลิตที่คาดว่าจะได้รับจากปริมาณน้ำฝน อุณหภูมิ และระดับปุ๋ย

ii การวิเคราะห์การถดถอยเชิงเส้นพหุคูณยังใช้เพื่อทำนายแนวโน้มและค่าในอนาคตอีกด้วย สิ่งนี้มีประโยชน์อย่างยิ่งในการทำนายราคาทองคำในช่วงหกเดือนต่อจากนี้

สาม. ในตัวอย่างเฉพาะที่ความสัมพันธ์ระหว่างระยะทางที่ครอบคลุมโดยคนขับ UBER กับอายุของคนขับและจำนวนปีของประสบการณ์ของคนขับนั้นถูกลบออกไป ในการถดถอยนี้ ตัวแปรตามคือ ระยะทางที่ครอบคลุมโดยคนขับ UBER ตัวแปรอิสระคืออายุของผู้ขับขี่และจำนวนปีของประสบการณ์ในการขับขี่

iv อีกตัวอย่างหนึ่งที่ใช้การวิเคราะห์การถดถอยพหุคูณในการหาความสัมพันธ์ระหว่างเกรดเฉลี่ยของชั้นเรียนของนักเรียนกับจำนวนชั่วโมงที่พวกเขาเรียนและความสูงของนักเรียน ตัวแปรตามในการถดถอยนี้คือ GPA และตัวแปรอิสระคือจำนวนชั่วโมงเรียนและความสูงของนักเรียน

v. ความสัมพันธ์ระหว่างเงินเดือนของกลุ่มพนักงานในองค์กรกับจำนวนปีของการขยายงานอายุของพนักงานสามารถกำหนดได้ด้วยการวิเคราะห์การถดถอย ตัวแปรตามสำหรับการถดถอยนี้คือเงินเดือน และตัวแปรอิสระคือประสบการณ์และอายุของพนักงาน

อ่านเพิ่มเติม: 6 ประเภทของแบบจำลองการถดถอยในการเรียนรู้ของเครื่องที่คุณควรรู้

การถดถอยเชิงเส้นพหุคูณใน R

มีหลายวิธีที่สามารถดำเนินการถดถอยเชิงเส้นหลายแบบได้ แต่โดยทั่วไปจะทำผ่านซอฟต์แวร์ทางสถิติ หนึ่งในซอฟต์แวร์ที่ใช้กันมากที่สุดคือ R ซึ่งฟรี ทรงพลัง และใช้งานได้ง่าย ก่อนอื่นเราจะเรียนรู้ขั้นตอนในการถดถอยด้วย R ตามด้วยตัวอย่างความเข้าใจที่ชัดเจน

ขั้นตอนในการถดถอยพหุคูณใน R

การเก็บรวบรวมข้อมูล: ข้อมูลที่จะใช้ในการทำนายจะถูกรวบรวม
Data Capturing in R: ดักจับข้อมูลโดยใช้โค้ดและนำเข้าไฟล์ CSV
การตรวจสอบความเป็นเส้นตรงของข้อมูลด้วย R: สิ่งสำคัญคือต้องแน่ใจว่ามีความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระ สามารถทำได้โดยใช้แปลงกระจายหรือรหัสในR
การใช้การถดถอยเชิงเส้นพหุคูณใน R: การใช้รหัสเพื่อใช้ การถดถอยเชิงเส้นพหุคูณใน R เพื่อให้ได้ชุดของสัมประสิทธิ์
การทำนายด้วย R: ค่าที่คาดการณ์ไว้จะถูกกำหนดในตอนท้าย

การดำเนินการถดถอยพหุคูณในR

เราจะเข้าใจวิธีการใช้ R เมื่อทำการสำรวจในสถานที่จำนวนหนึ่งโดยนักวิจัยด้านสาธารณสุขเพื่อรวบรวมข้อมูลเกี่ยวกับประชากรที่สูบบุหรี่ ผู้ที่เดินทางไปทำงาน และผู้ที่เป็นโรคหัวใจ

คำแนะนำทีละขั้นตอนสำหรับการถดถอยเชิงเส้นพหุคูณใน R:

ฉัน. โหลดชุดข้อมูล heart.data แล้วรันโค้ดต่อไปนี้

lm<-lm(heart.disease ~ ปั่นจักรยาน + สูบบุหรี่ data = heart.data)

ชุดข้อมูลหัวใจ ข้อมูลจะคำนวณผลกระทบของตัวแปรอิสระในการขี่จักรยานและการสูบบุหรี่ต่อโรคหัวใจผันแปรตามตัวแปรตามโดยใช้ 'lm()' (สมการสำหรับแบบจำลองเชิงเส้น)

ii การตีความผลลัพธ์

ใช้ฟังก์ชันสรุป () เพื่อดูผลลัพธ์ของโมเดล:

สรุป (heart.disease.lm)

ฟังก์ชันนี้ใส่พารามิเตอร์ที่สำคัญที่สุดที่ได้รับจากตัวแบบเชิงเส้นลงในตารางที่มีลักษณะดังนี้:

จากตารางนี้เราสามารถอนุมานได้:

สูตรของ 'โทร'
เศษของแบบจำลอง ('เศษ') หากเศษเหลืออยู่ตรงกลางประมาณศูนย์และมีการแพร่กระจายที่คล้ายกันทั้งสองด้าน (มัธยฐาน 0.03 และต่ำสุดและสูงสุด -2 และ 2) แบบจำลองจะพอดีกับสมมติฐานที่แตกต่างกัน
สัมประสิทธิ์การถดถอยของแบบจำลอง ('สัมประสิทธิ์')

แถวที่ 1 ของตารางสัมประสิทธิ์ (Intercept): นี่คือจุดตัดแกน y ของสมการถดถอยและใช้เพื่อทราบค่าตัดขวางโดยประมาณเพื่อแทนสมการการถดถอยและทำนายค่าตัวแปรตาม

โรคหัวใจ = 15 + (-0.2*ปั่นจักรยาน) + (0.178*สูบบุหรี่) ± e

คำบางคำที่เกี่ยวข้องกับการถดถอยพหุคูณ

ฉัน. คอลัมน์ประมาณการ : เป็นผลกระทบโดยประมาณและเรียกอีกอย่างว่าค่าสัมประสิทธิ์การถดถอยหรือค่า r2 การประมาณการบอกว่าทุกๆ หนึ่งเปอร์เซ็นต์ในการขี่จักรยานไปทำงาน โรคหัวใจจะลดลง 0.2 เปอร์เซ็นต์ และการสูบบุหรี่ที่เพิ่มขึ้นทุกๆ เปอร์เซ็นต์ โรคหัวใจจะเพิ่มขึ้น .17 เปอร์เซ็นต์

ii Std.error : แสดงข้อผิดพลาดมาตรฐาน ของการประมาณการ นี่คือตัวเลขที่แสดงความผันแปรรอบค่าประมาณของสัมประสิทธิ์การถดถอย

สาม. t Value : แสดง สถิติการ ทดสอบ เป็น ค่า t จาก การทดสอบ t แบบสอง ด้าน

iv Pr( > | t | ) : เป็น ค่า p ซึ่งแสดงความน่าจะเป็นของการเกิด t -value

การรายงานผล

เราควรรวมผลกระทบโดยประมาณ ข้อผิดพลาดในการประมาณมาตรฐาน และ ค่า p

จากตัวอย่างข้างต้น พบว่าความสัมพันธ์ที่มีนัยสำคัญระหว่างความถี่ของการปั่นจักรยานไปทำงานกับโรคหัวใจ กับความถี่ของการสูบบุหรี่และโรคหัวใจ มีค่า p < 0.001

ความถี่ของโรคหัวใจลดลง 0.2% (หรือ ± 0.0014) ทุกครั้งที่ปั่นจักรยานเพิ่มขึ้น 1% ความถี่ของโรคหัวใจเพิ่มขึ้น 0.178% (หรือ ± 0.0035) ทุกๆ 1% ของการสูบบุหรี่

การแสดงกราฟิกของผลการวิจัย

ผลกระทบของตัวแปรอิสระหลายตัวต่อตัวแปรตามสามารถแสดงในกราฟได้ ในกรณีนี้ สามารถพล็อตตัวแปรอิสระได้เพียงตัวเดียวบนแกน x

การถดถอยเชิงเส้นพหุคูณ: การแทนแบบกราฟิก

ในที่นี้ ค่าที่คาดการณ์ไว้ของตัวแปรตาม (โรคหัวใจ) จากค่าที่สังเกตได้สำหรับเปอร์เซ็นต์ของผู้ที่ขี่จักรยานไปทำงานนั้นถูกวางแผนไว้

สำหรับผลกระทบของการสูบบุหรี่ต่อตัวแปรอิสระ ค่าที่คาดการณ์ไว้จะถูกคำนวณ โดยคงค่าคงที่การสูบบุหรี่ไว้ที่อัตราการสูบบุหรี่ต่ำสุด ค่าเฉลี่ย และสูงสุด

อ่านเพิ่มเติม: การถดถอยเชิงเส้น Vs Logistic Regression: ความแตกต่างระหว่างการถดถอยเชิงเส้นและการถดถอยโลจิสติก

คำพูดสุดท้าย

นี่เป็นจุดสิ้นสุดของโพสต์บล็อกนี้ เราได้พยายามอย่างเต็มที่เพื่ออธิบายให้คุณทราบถึงแนวคิดของการถดถอยเชิงเส้นพหุคูณและวิธีนำการถดถอยพหุคูณใน R มาใช้เพื่อทำให้การวิเคราะห์การทำนายง่ายขึ้น

หากคุณมีความกระตือรือร้นที่จะสนับสนุนเส้นทางวิทยาศาสตร์ข้อมูลของคุณและเรียนรู้แนวคิดเพิ่มเติมเกี่ยวกับ R และภาษาอื่นๆ อีกมากมายเพื่อเสริมสร้างอาชีพการงานของคุณ เข้า ร่วม upGrad เราขอเสนอ โปรแกรมการรับรองขั้นสูงใน Data Science ซึ่งออกแบบมาเป็นพิเศษสำหรับมืออาชีพด้านการทำงานและรวมถึงการเรียนรู้มากกว่า 300 ชั่วโมงพร้อมการให้คำปรึกษาอย่างต่อเนื่อง

การใช้ภาษาโปรแกรม R คืออะไร?

ในช่วงทศวรรษที่ผ่านมา ภาษาโปรแกรม R ได้กลายเป็นเครื่องมือที่นิยมมากที่สุดสำหรับสถิติเชิงคำนวณ การรับรู้ และวิทยาศาสตร์ข้อมูล เนื่องจากมีการใช้บ่อยในสถาบันการศึกษาและธุรกิจ แอปพลิเคชันการเขียนโปรแกรม R มีตั้งแต่สถิติเชิงสมมุติ สถิติเชิงคำนวณ และวิทยาศาสตร์แบบแข็ง เช่น ดาราศาสตร์ เคมี และพันธุศาสตร์ ไปจนถึงการใช้งานจริงในธุรกิจ การพัฒนายา การเงิน การดูแลสุขภาพ การตลาด การแพทย์ และสาขาอื่นๆ อีกมากมาย R Programming เป็นเครื่องมือการเขียนโปรแกรมหลักที่ใช้โดยนักวิเคราะห์เชิงปริมาณในด้านการเงิน

การถดถอยเชิงเส้นใช้ทำอะไร?

การวิเคราะห์การถดถอยเชิงเส้นทำนายค่าของตัวแปรหนึ่งขึ้นอยู่กับค่าของตัวแปรอื่น ตัวแปรที่คุณต้องการคาดการณ์เรียกว่าตัวแปรตาม ตัวแปรที่คุณใช้ในการคาดการณ์ค่าของตัวแปรอื่นเรียกว่าตัวแปรอิสระ การวิเคราะห์ประเภทนี้จะคำนวณค่าสัมประสิทธิ์ของสมการเชิงเส้นที่มีตัวแปรอิสระอย่างน้อยหนึ่งตัวที่สามารถทำนายค่าของตัวแปรตามได้ดีที่สุด การถดถอยเชิงเส้นใช้เพื่อจับคู่เส้นตรงหรือพื้นผิวที่ลดความแตกต่างระหว่างค่าเอาต์พุตที่คาดการณ์ไว้และค่าจริง

การเขียนโปรแกรม R ยากหรือไม่?

ไม่ การเขียนโปรแกรม R นั้นเรียนรู้ได้ง่าย การเขียนโปรแกรม R คือการคำนวณทางสถิติและภาษาการเขียนโปรแกรมกราฟิกที่ผู้ใช้อาจใช้เพื่อล้าง วิเคราะห์ และสร้างกราฟข้อมูลของตน นักวิจัยจากหลากหลายสาขาใช้เพื่อประมาณการและแสดงผล และโดยอาจารย์ด้านสถิติและเทคนิคการวิจัย คุณลักษณะที่สำคัญที่สุดอย่างหนึ่งของ R คือเป็นโอเพ่นซอร์ส ซึ่งหมายความว่าทุกคนสามารถเข้าถึงโค้ดพื้นฐานที่รันโปรแกรมและเพิ่มโค้ดของตนเองได้ฟรี ทุกคนสามารถพัฒนาโค้ด R ของตัวเองได้ ซึ่งหมายความว่าทุกคนสามารถมีส่วนร่วมในชุดเครื่องมือที่กว้างขวางของ R ได้