33 คำถามและคำตอบในการสัมภาษณ์ด้วยการเรียนรู้ของเครื่อง – การถดถอยโลจิสติก

เผยแพร่แล้ว: 2018-07-05

ยินดีต้อนรับสู่ส่วนที่สองของชุดคำถามสัมภาษณ์ที่พบบ่อยโดยอิงจากอัลกอริธึมการเรียนรู้ของเครื่อง เราหวังว่าส่วนก่อนหน้าของ การถดถอยเชิงเส้น จะเป็นประโยชน์กับคุณ

สารบัญ

มาหาคำตอบของคำถามเกี่ยวกับการถดถอยโลจิสติก:
- 1. ฟังก์ชันลอจิสติกส์คืออะไร? ช่วงของค่าของฟังก์ชันลอจิสติกส์คืออะไร?
- 2. ทำไมการถดถอยโลจิสติกจึงเป็นที่นิยมมาก?
- 3. สูตรสำหรับฟังก์ชันการถดถอยโลจิสติกคืออะไร?
- 4. ความน่าจะเป็นของตัวแบบการถดถอยโลจิสติกสามารถแสดงเป็นความน่าจะเป็นแบบมีเงื่อนไขได้อย่างไร
- 5. อัตราต่อรองคืออะไร?
- 6. ผลลัพธ์ของโมเดลลอจิสติกส์และฟังก์ชันลอจิสติกส์มีอะไรบ้าง?
- 7. จะตีความผลลัพธ์ของแบบจำลองการถดถอยโลจิสติกได้อย่างไร? หรือความหมายของอัลฟ่าและเบต้าในแบบจำลองการถดถอยโลจิสติกคืออะไร?
- 8. อัตราต่อรองคืออะไร?
- 9. สูตรคำนวณอัตราต่อรองคืออะไร?
- 10. เหตุใดจึงไม่สามารถใช้การถดถอยเชิงเส้นแทนการถดถอยโลจิสติกสำหรับการจำแนกประเภทไบนารีไม่ได้
- 11. ขอบเขตการตัดสินใจเป็นเส้นตรงหรือไม่เชิงเส้นในกรณีของแบบจำลองการถดถอยโลจิสติก?
- 12. ฟังก์ชันความน่าจะเป็นคืออะไร?
- 13. ตัวประมาณความน่าจะเป็นสูงสุด (MLE) คืออะไร?
- 14. วิธีต่างๆ ของ MLE คืออะไร และเมื่อใดจึงจะนิยมใช้แต่ละวิธี
- 15. ข้อดีและข้อเสียของวิธีการแบบมีเงื่อนไขและไม่มีเงื่อนไขของ MLE คืออะไร?
- 16. ผลลัพธ์ของโปรแกรม MLE มาตรฐานคืออะไร?
- 17. ทำไมเราไม่สามารถใช้ Mean Square Error (MSE) เป็นฟังก์ชันต้นทุนสำหรับการถดถอยโลจิสติกได้?
- 18. เหตุใดความถูกต้องจึงไม่ใช่ตัววัดที่ดีสำหรับปัญหาการจำแนกประเภท
- 19. ข้อมูลพื้นฐานในปัญหาการจำแนกมีความสำคัญอย่างไร?
- 20. ผลบวกลวงและผลลบลวงคืออะไร?
- 21. อัตราบวกจริง (TPR) อัตราลบจริง (TNR) อัตราบวกเท็จ (FPR) และอัตราลบเท็จ (FNR) คืออะไร?
- 22. ความแม่นยำและการจดจำคืออะไร?
- 23. F-measure คืออะไร?
- 24. ความถูกต้องคืออะไร?
- 25. ความอ่อนไหวและความจำเพาะคืออะไร?
- 26. จะเลือกจุดตัดในกรณีของแบบจำลองการถดถอยโลจิสติกได้อย่างไร?
- 27. การถดถอยโลจิสติกจัดการกับตัวแปรหมวดหมู่อย่างไร?
- 28. เส้นกราฟการตอบสนองสะสม (CRV) คืออะไร?
- 29. เส้นโค้งการยกคืออะไร?
- 30. อัลกอริธึมใดดีกว่าในการจัดการการถดถอยโลจิสติกค่าผิดปกติหรือ SVM?
- 31. คุณจะจัดการกับปัญหาการจำแนกประเภทหลายคลาสโดยใช้การถดถอยโลจิสติกอย่างไร?
- 32. อธิบายการใช้เส้นโค้ง ROC และ AUC ของ ROC Curve
- 33. คุณจะใช้แนวคิดของ ROC ในการจำแนกประเภทหลายคลาสได้อย่างไร?
แผนภูมิกำไรสะสมและการเพิ่มคืออะไร
มีสมมติฐานอะไรบ้างเมื่อใช้การถดถอยโลจิสติก
ฉันจะได้งานนักวิทยาศาสตร์ข้อมูลได้ไหมถ้าฉันมีความรู้ด้านแมชชีนเลิร์นนิงอย่างยุติธรรม

มาหาคำตอบของคำถามเกี่ยวกับการถดถอยโลจิสติก:

1. ฟังก์ชันลอจิสติกส์คืออะไร? ช่วงของค่าของฟังก์ชันลอจิสติกส์คืออะไร?

f(z) = 1/(1+e ^-z )
ค่าของฟังก์ชันลอจิสติกจะอยู่ในช่วงตั้งแต่ 0 ถึง 1 ค่าของ Z จะแตกต่างจาก -infinity ถึง +infinity

2. ทำไมการถดถอยโลจิสติกจึงเป็นที่นิยมมาก?

การถดถอยโลจิสติกมีชื่อเสียงเพราะสามารถแปลงค่าของ logits (logodds) ซึ่งสามารถอยู่ในช่วงตั้งแต่ -infinity ถึง +infinity ไปจนถึงช่วงระหว่าง 0 ถึง 1 เนื่องจากฟังก์ชันลอจิสติกส์แสดงความน่าจะเป็นของเหตุการณ์ จึงสามารถนำไปใช้กับ หลายสถานการณ์ในชีวิตจริง ด้วยเหตุนี้เองที่แบบจำลองการถดถอยโลจิสติกจึงเป็นที่นิยมอย่างมาก

3. สูตรสำหรับฟังก์ชันการถดถอยโลจิสติกคืออะไร?

f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} )
ความแตกต่างระหว่าง Data Science, Machine Learning และ Big Data!

4. ความน่าจะเป็นของตัวแบบการถดถอยโลจิสติกสามารถแสดงเป็นความน่าจะเป็นแบบมีเงื่อนไขได้อย่างไร

P(ค่าที่ไม่ต่อเนื่องของตัวแปรเป้าหมาย | X1, X2, X3….Xk) เป็นความน่าจะเป็นของตัวแปรเป้าหมายที่จะใช้ค่าที่ไม่ต่อเนื่อง (ทั้ง 0 หรือ 1 ในกรณีของปัญหาการจำแนกไบนารี) เมื่อให้ค่าของตัวแปรอิสระ ตัวอย่างเช่น ความน่าจะเป็นที่พนักงานจะลดทอน (ตัวแปรเป้าหมาย) ตามคุณลักษณะของเขา เช่น อายุ เงินเดือน KRA's เป็นต้น

5. อัตราต่อรองคืออะไร?

เป็นอัตราส่วนของความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นกับความน่าจะเป็นของเหตุการณ์ที่ไม่เกิดขึ้น ตัวอย่างเช่น สมมติว่าความน่าจะเป็นที่จะถูกลอตเตอรี่คือ 0.01 ดังนั้นความน่าจะเป็นที่จะไม่ชนะคือ 1- 0.01 = 0.99
โอกาสถูกลอตเตอรี่ = (ความน่าจะเป็นในการถูกรางวัล)/(ความน่าจะเป็นที่ไม่ถูกรางวัล)
โอกาสถูกลอตเตอรี่ = 0.01/0.99
โอกาสถูกลอตเตอรีคือ 1 ถึง 99 และโอกาสไม่ถูกลอตเตอรีคือ 99 ต่อ 1

6. ผลลัพธ์ของโมเดลลอจิสติกส์และฟังก์ชันลอจิสติกส์มีอะไรบ้าง?

แบบจำลองลอจิสติกส์จะส่งออกข้อมูลบันทึก เช่น อัตราต่อรองของบันทึก และฟังก์ชันลอจิสติกส์แสดงความน่าจะเป็น
โมเดลโลจิสติก = α+1X1+2X2+….+kXk ผลลัพธ์ของสิ่งเดียวกันจะเป็นการบันทึก
ฟังก์ชันโลจิสติก = f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} ) . ผลลัพธ์ในกรณีนี้จะเป็นความน่าจะเป็น

7. จะตีความผลลัพธ์ของแบบจำลองการถดถอยโลจิสติกได้อย่างไร? หรือความหมายของอัลฟ่าและเบต้าในแบบจำลองการถดถอยโลจิสติกคืออะไร?

อัลฟ่าเป็นพื้นฐานในแบบจำลองการถดถอยโลจิสติก เป็นอัตราต่อรองของบันทึกสำหรับกรณีที่แอตทริบิวต์ทั้งหมด (X1, X2,………….Xk) เป็นศูนย์ ในสถานการณ์จริง ความน่าจะเป็นของแอตทริบิวต์ทั้งหมดที่เป็นศูนย์นั้นต่ำมาก ในอีกความหมายหนึ่ง อัลฟ่าคืออัตราต่อรองของบันทึก ตัวอย่างเช่น เมื่อไม่มีการพิจารณาคุณลักษณะใดๆ
เบต้าคือค่าที่อัตราต่อรองของบันทึกเปลี่ยนแปลงโดยหน่วยที่เปลี่ยนแปลงในแอตทริบิวต์เฉพาะโดยคงแอตทริบิวต์อื่นๆ ทั้งหมดให้คงที่หรือไม่เปลี่ยนแปลง (ตัวแปรควบคุม)

8. อัตราต่อรองคืออะไร?

อัตราต่อรองคืออัตราส่วนของอัตราต่อรองระหว่างสองกลุ่ม ตัวอย่างเช่น สมมติว่าเรากำลังพยายามตรวจสอบประสิทธิภาพของยา เราให้ยานี้แก่กลุ่ม 'การแทรกแซง' และให้ยาหลอกแก่กลุ่ม 'ควบคุม'
อัตราต่อรอง (OR) = (อัตราต่อรองของกลุ่มแทรกแซง)/(อัตราต่อรองของกลุ่มควบคุม)
การตีความ
ถ้า odds ratio = 1 แสดงว่าไม่มีความแตกต่างระหว่างกลุ่มแทรกแซงและกลุ่มควบคุม
หากอัตราต่อรองมากกว่า 1 กลุ่มควบคุมจะดีกว่ากลุ่มแทรกแซง
หากอัตราต่อรองน้อยกว่า 1 กลุ่มแทรกแซงจะดีกว่ากลุ่มควบคุม
5 แอปพลิเคชั่นสุดล้ำของแมชชีนเลิร์นนิง

9. สูตรคำนวณอัตราต่อรองคืออะไร?

ในสูตรข้างต้น X ₁ และ X ₀ หมายถึงกลุ่มสองกลุ่มที่แตกต่างกันซึ่งจำเป็นต้องคำนวณอัตราต่อรอง X _{1 i} หมายถึงอินสแตนซ์ ' i ' ในกลุ่ม X ₁ X _{o i} หมายถึงอินสแตนซ์ ' i ' ในกลุ่ม X ₀ หมายถึงสัมประสิทธิ์ของแบบจำลองการถดถอยโลจิสติก โปรดทราบว่าพื้นฐานไม่รวมอยู่ในสูตรนี้

10. เหตุใดจึงไม่สามารถใช้การถดถอยเชิงเส้นแทนการถดถอยโลจิสติกสำหรับการจำแนกประเภทไบนารีไม่ได้

สาเหตุที่ไม่สามารถใช้การถดถอยเชิงเส้นในกรณีของการจำแนกประเภทไบนารีมีดังนี้:
การกระจายเงื่อนไขข้อผิดพลาด : การแจกแจงข้อมูลกรณีการถดถอยเชิงเส้นและการถดถอยโลจิสติกต่างกัน การถดถอยเชิงเส้นถือว่าเงื่อนไขข้อผิดพลาดมีการกระจายตามปกติ ในกรณีของการจำแนกเลขฐานสอง ข้อสันนิษฐานนี้ไม่ถือเป็นจริง
เอาต์พุตโมเดล : ในการถดถอยเชิงเส้น เอาต์พุตจะต่อเนื่อง ในกรณีของการจัดประเภทไบนารี ผลลัพธ์ของค่าต่อเนื่องไม่สมเหตุสมผล สำหรับปัญหาการจำแนกเลขฐานสอง การถดถอยเชิงเส้นอาจทำนายค่าที่ไปได้ไกลกว่า 0 และ 1 หากเราต้องการผลลัพธ์ในรูปของความน่าจะเป็น ซึ่งสามารถจับคู่กับสองคลาสที่ต่างกันได้ ช่วงนั้นควรจำกัดไว้ที่ 0 และ 1 เนื่องจาก แบบจำลองการถดถอยโลจิสติกสามารถแสดงความน่าจะเป็นด้วยฟังก์ชันลอจิสติก/ซิกมอยด์ ซึ่งนิยมใช้มากกว่าการถดถอยเชิงเส้น
ความแปรปรวนของข้อผิดพลาดที่เหลือ : การถดถอยเชิงเส้นถือว่าความแปรปรวนของข้อผิดพลาดแบบสุ่มเป็นค่าคงที่ สมมติฐานนี้ถูกละเมิดด้วยในกรณีของการถดถอยโลจิสติก

11. ขอบเขตการตัดสินใจเป็นเส้นตรงหรือไม่เชิงเส้นในกรณีของแบบจำลองการถดถอยโลจิสติก?

ขอบเขตการตัดสินใจเป็นเส้นที่แยกตัวแปรเป้าหมายออกเป็นคลาสต่างๆ ขอบเขตการตัดสินใจอาจเป็นเส้นตรงหรือไม่เป็นเชิงเส้นก็ได้ ในกรณีของแบบจำลองการถดถอยโลจิสติก ขอบเขตการตัดสินใจจะเป็นเส้นตรง
สูตรแบบจำลองการถดถอยโลจิสติก = α+1X1+2X2+….+kXk นี่แสดงให้เห็นชัดเจนว่าเป็นเส้นตรง การถดถอยโลจิสติกเหมาะสมเฉพาะในกรณีที่เส้นตรงสามารถแยกคลาสต่างๆ ได้ หากเส้นตรงทำไม่ได้ ก็ควรใช้อัลกอริธึมที่ไม่เป็นเชิงเส้นเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น

12. ฟังก์ชันความน่าจะเป็นคืออะไร?

ฟังก์ชันความน่าจะเป็นคือความน่าจะเป็นร่วมกันในการสังเกตข้อมูล ตัวอย่างเช่น สมมติว่ามีการโยนเหรียญ 100 ครั้ง และเราต้องการทราบความน่าจะเป็นที่จะได้หัว 60 ครั้งจากการโยน ตัวอย่างนี้เป็นไปตามสูตรการแจกแจงทวินาม
p = ความน่าจะเป็นของหัวจากการโยนเหรียญเดียว
n = 100 (จำนวนการโยนเหรียญ)
x = 60 (จำนวนหัว – ความสำเร็จ)
nx = 30 (จำนวนหาง)
Pr(X=60 |n = 100, p)
ฟังก์ชันความน่าจะเป็นคือความน่าจะเป็นที่จำนวนหัวที่ได้รับคือ 60 ในการโยนเหรียญ 100 ครั้ง โดยที่ความน่าจะเป็นของหัวที่ได้รับในการโยนเหรียญแต่ละครั้งคือ p ผลการโยนเหรียญตามการแจกแจงแบบทวินาม
สามารถ reframe ได้ดังนี้
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
c = ค่าคงที่
p = พารามิเตอร์ที่ไม่รู้จัก
ฟังก์ชันความน่าจะเป็นให้ความน่าจะเป็นในการสังเกตผลลัพธ์โดยใช้พารามิเตอร์ที่ไม่รู้จัก

13. ตัวประมาณความน่าจะเป็นสูงสุด (MLE) คืออะไร?

MLE จะเลือกชุดของพารามิเตอร์ที่ไม่รู้จัก (ตัวประมาณค่า) ซึ่งเพิ่มฟังก์ชันความน่าจะเป็นสูงสุด วิธีการหา MLE คือการใช้แคลคูลัสและตั้งค่าอนุพันธ์ของฟังก์ชันลอจิสติกเทียบกับพารามิเตอร์ที่ไม่รู้จักให้เป็นศูนย์ และการแก้จะได้ MLE สำหรับแบบจำลองทวินาม สิ่งนี้จะง่าย แต่สำหรับแบบจำลองลอจิสติกส์ การคำนวณนั้นซับซ้อน โปรแกรมคอมพิวเตอร์ใช้สำหรับรับ MLE สำหรับโมเดลโลจิสติกส์
(นี่เป็นอีกแนวทางหนึ่งในการตอบคำถาม)
MLE เป็นวิธีการทางสถิติในการประมาณค่าพารามิเตอร์ของแบบจำลองทางคณิตศาสตร์ MLE และการประมาณค่ากำลังสองธรรมดาให้ผลลัพธ์เดียวกันสำหรับการถดถอยเชิงเส้น หากถือว่าตัวแปรตามมีการกระจายแบบปกติ MLE ไม่ได้ถือเอาอะไรเกี่ยวกับตัวแปรอิสระ

14. วิธีต่างๆ ของ MLE คืออะไร และเมื่อใดจึงจะนิยมใช้แต่ละวิธี

ในกรณีของลอจิสติกส์ถดถอย มีสองแนวทางของ MLE เป็นวิธีการแบบมีเงื่อนไขและไม่มีเงื่อนไข เมธอดแบบมีเงื่อนไขและไม่มีเงื่อนไขคืออัลกอริธึมที่ใช้ฟังก์ชันความน่าจะเป็นต่างกัน สูตรที่ไม่มีเงื่อนไขใช้ความน่าจะเป็นร่วมกันของผลบวก (เช่น การปั่น) และค่าลบ (เช่น การไม่ปั่น) สูตรตามเงื่อนไขคืออัตราส่วนของความน่าจะเป็นของข้อมูลที่สังเกตได้ต่อความน่าจะเป็นของการกำหนดค่าที่เป็นไปได้ทั้งหมด
ควรใช้วิธีการแบบไม่มีเงื่อนไขหากจำนวนพารามิเตอร์ต่ำกว่าเมื่อเทียบกับจำนวนอินสแตนซ์ หากจำนวนของพารามิเตอร์สูงเมื่อเทียบกับจำนวนของอินสแตนซ์ ควรใช้ MLE แบบมีเงื่อนไข นักสถิติแนะนำว่าควรใช้ MLE แบบมีเงื่อนไขเมื่อมีข้อสงสัย MLE แบบมีเงื่อนไขจะให้ผลลัพธ์ที่เป็นกลางเสมอ
เทคนิคการเรียนรู้ด้วยเครื่อง 6 อย่างนี้กำลังปรับปรุงการดูแลสุขภาพ

15. ข้อดีและข้อเสียของวิธีการแบบมีเงื่อนไขและไม่มีเงื่อนไขของ MLE คืออะไร?

เมธอดแบบมีเงื่อนไขไม่ได้ประมาณค่าพารามิเตอร์ที่ไม่ต้องการ วิธีการที่ไม่มีเงื่อนไขจะประมาณค่าของพารามิเตอร์ที่ไม่ต้องการด้วย สูตรที่ไม่มีเงื่อนไขสามารถพัฒนาได้โดยตรงกับความน่าจะเป็นร่วมกัน ไม่สามารถทำได้ด้วยความน่าจะเป็นแบบมีเงื่อนไข หากจำนวนของพารามิเตอร์สูงเมื่อเทียบกับจำนวนของอินสแตนซ์ วิธีการแบบไม่มีเงื่อนไขจะให้ผลลัพธ์ที่มีอคติ ผลลัพธ์แบบมีเงื่อนไขจะเป็นกลางในกรณีดังกล่าว

16. ผลลัพธ์ของโปรแกรม MLE มาตรฐานคืออะไร?

ผลลัพธ์ของโปรแกรม MLE มาตรฐานมีดังนี้:
ค่าความเป็นไปได้สูงสุด : นี่คือค่าตัวเลขที่ได้จากการแทนที่ค่าพารามิเตอร์ที่ไม่รู้จักในฟังก์ชันความน่าจะเป็นด้วยตัวประมาณค่าพารามิเตอร์ MLE
เมทริกซ์ความแปรปรวนร่วม-ความแปรปรวนร่วมโดยประมาณ : เส้นทแยงมุมของเมทริกซ์นี้ประกอบด้วยค่าความแปรปรวนโดยประมาณของการประมาณค่า ML ค่านอกแนวทแยงประกอบด้วยค่าความแปรปรวนร่วมของค่าประมาณของ ML ทั้งคู่

17. ทำไมเราไม่สามารถใช้ Mean Square Error (MSE) เป็นฟังก์ชันต้นทุนสำหรับการถดถอยโลจิสติกได้?

ในการถดถอยโลจิสติก เราใช้ฟังก์ชันซิกมอยด์และทำการแปลงแบบไม่เชิงเส้นเพื่อให้ได้ความน่าจะเป็น การยกกำลังการแปลงที่ไม่เป็นเชิงเส้นนี้จะนำไปสู่การไม่นูนด้วยค่าต่ำสุดเฉพาะที่ การค้นหาค่าต่ำสุดทั่วโลกในกรณีดังกล่าวโดยใช้การลงระดับแบบเกรเดียนท์นั้นเป็นไปไม่ได้ ด้วยเหตุนี้ MSE จึงไม่เหมาะสำหรับการถดถอยโลจิสติก ครอสเอนโทรปีหรือการสูญเสียบันทึกถูกใช้เป็นฟังก์ชันต้นทุนสำหรับการถดถอยโลจิสติก ในฟังก์ชันต้นทุนสำหรับการถดถอยโลจิสติก การคาดการณ์ที่ไม่ถูกต้องอย่างมั่นใจจะถูกลงโทษอย่างหนัก การคาดคะเนที่ถูกต้องมั่นใจได้รางวัลน้อย การปรับฟังก์ชันต้นทุนให้เหมาะสมที่สุด ทำให้เกิดการบรรจบกัน

18. เหตุใดความถูกต้องจึงไม่ใช่ตัววัดที่ดีสำหรับปัญหาการจำแนกประเภท

ความแม่นยำไม่ใช่ตัววัดที่ดีสำหรับปัญหาการจำแนกประเภท เพราะมันให้ความสำคัญเท่ากันทั้งผลบวกลวงและผลลบลวง อย่างไรก็ตาม ปัญหาทางธุรกิจส่วนใหญ่อาจไม่เป็นเช่นนั้น ตัวอย่างเช่น ในกรณีของการทำนายมะเร็ง การประกาศมะเร็งว่าไม่เป็นพิษเป็นภัยนั้นร้ายแรงกว่าการแจ้งผู้ป่วยอย่างผิดๆ ว่าเขาเป็นมะเร็ง ความแม่นยำให้ความสำคัญเท่ากันกับทั้งสองกรณีและไม่สามารถแยกความแตกต่างระหว่างกรณีทั้งสองได้

19. ข้อมูลพื้นฐานในปัญหาการจำแนกมีความสำคัญอย่างไร?

ปัญหาการจำแนกประเภทส่วนใหญ่จัดการกับชุดข้อมูลที่ไม่สมดุล ตัวอย่าง ได้แก่ การเลิกกิจการโทรคมนาคม การลาออกของพนักงาน การพยากรณ์โรคมะเร็ง การตรวจหาการฉ้อโกง การกำหนดเป้าหมายโฆษณาออนไลน์ เป็นต้น ในปัญหาเหล่านี้ จำนวนของคลาสบวกจะต่ำมากเมื่อเปรียบเทียบกับคลาสเชิงลบ ในบางกรณี เป็นเรื่องปกติที่จะมีคลาสบวกที่น้อยกว่า 1% ของกลุ่มตัวอย่างทั้งหมด ในกรณีเช่นนี้ ความแม่นยำ 99% อาจฟังดูดีมาก แต่ในความเป็นจริง อาจไม่เป็นเช่นนั้น
ในที่นี้ ค่าลบคือ 99% และด้วยเหตุนี้ ค่าพื้นฐานจะยังคงเหมือนเดิม หากอัลกอริทึมคาดการณ์อินสแตนซ์ทั้งหมดว่าเป็นค่าลบ ความแม่นยำก็จะ 99% ด้วย ในกรณีนี้ แง่บวกทั้งหมดจะถูกคาดการณ์อย่างไม่ถูกต้อง ซึ่งเป็นสิ่งสำคัญมากสำหรับธุรกิจใดๆ แม้ว่าการคาดการณ์เชิงบวกทั้งหมดจะผิดพลาด แต่ก็มีความแม่นยำถึง 99% ดังนั้น ข้อมูลพื้นฐานจึงมีความสำคัญมาก และจำเป็นต้องประเมินอัลกอริธึมที่สัมพันธ์กับข้อมูลพื้นฐาน

20. ผลบวกลวงและผลลบลวงคืออะไร?

ผลบวกเท็จคือกรณีที่ค่าลบถูกคาดการณ์อย่างไม่ถูกต้องว่าเป็นผลบวก ตัวอย่างเช่น การคาดคะเนว่าลูกค้าจะเลิกปั่นทั้งที่จริงแล้วเขาไม่ปั่น
ค่าลบเท็จคือกรณีที่ค่าบวกถูกคาดการณ์ผิดว่าเป็นค่าลบ ตัวอย่างเช่น การคาดคะเนว่าลูกค้าจะไม่ปั่นป่วนเมื่อเขาปั่นจริง

21. อัตราบวกจริง (TPR) อัตราลบจริง (TNR) อัตราบวกเท็จ (FPR) และอัตราลบเท็จ (FNR) คืออะไร?

TPR หมายถึงอัตราส่วนของผลบวกที่คาดการณ์อย่างถูกต้องจากฉลากจริงทั้งหมด พูดง่ายๆ ก็คือ ความถี่ของการทำนายฉลากที่แท้จริงอย่างถูกต้อง
TPR = TP/TP+FN
TNR หมายถึงอัตราส่วนของค่าลบที่คาดการณ์ไว้อย่างถูกต้องจากฉลากเท็จทั้งหมด เป็นความถี่ของการทำนายฉลากปลอมอย่างถูกต้อง
TNR = TN/TN+FP
FPR หมายถึงอัตราส่วนของผลบวกที่คาดการณ์ไว้อย่างไม่ถูกต้องจากฉลากที่แท้จริงทั้งหมด เป็นความถี่ของการทำนายฉลากเท็จอย่างไม่ถูกต้อง
FPR = FP/TN+FP
FNR หมายถึงอัตราส่วนของค่าลบที่คาดการณ์ไว้อย่างไม่ถูกต้องจากฉลากเท็จทั้งหมด เป็นความถี่ของการทำนายฉลากที่แท้จริงอย่างไม่ถูกต้อง
FNR = FN/TP+FN

22. ความแม่นยำและการจดจำคืออะไร?

ความแม่นยำคือสัดส่วนของผลบวกที่แท้จริงจากผลบวกที่คาดการณ์ไว้ กล่าวอีกนัยหนึ่งก็คือความถูกต้องของการทำนาย เป็นที่รู้จักกันว่า 'ค่าพยากรณ์เชิงบวก'
ความแม่นยำ = TP/TP+FP
การเรียกคืนจะเหมือนกับอัตราบวกที่แท้จริง (TPR)
การเรียนรู้ของเครื่อง Unsupervised ทำงานอย่างไร

23. F-measure คืออะไร?

เป็นค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืน ในบางกรณี จะมีการแลกเปลี่ยนระหว่างความแม่นยำและการเรียกคืน ในกรณีเช่นนี้ ค่า F จะลดลง มันจะสูงเมื่อทั้งความแม่นยำและการเรียกคืนสูง ขึ้นอยู่กับกรณีศึกษาทางธุรกิจและเป้าหมายของการวิเคราะห์ข้อมูล ควรเลือกเมตริกที่เหมาะสม
F-measure = 2 X (แม่นยำ X เรียกคืน) / (แม่นยำ+เรียกคืน)

24. ความถูกต้องคืออะไร?

เป็นจำนวนการทำนายที่ถูกต้องจากการคาดการณ์ทั้งหมด
ความแม่นยำ = (TP+TN)/(จำนวนการคาดการณ์ทั้งหมด)

25. ความอ่อนไหวและความจำเพาะคืออะไร?

ความจำเพาะเท่ากับอัตราลบจริงหรือเท่ากับ 1 – อัตราบวกลวง
ความจำเพาะ = TN/TN + FP
ความไวเป็นอัตราบวกที่แท้จริง
ความไว = TP/TP + FN

26. จะเลือกจุดตัดในกรณีของแบบจำลองการถดถอยโลจิสติกได้อย่างไร?

จุดตัดยอดขึ้นอยู่กับวัตถุประสงค์ทางธุรกิจ ต้องเลือกจุดตัดยอด ทั้งนี้ขึ้นอยู่กับเป้าหมายของธุรกิจของคุณ ตัวอย่างเช่น ลองพิจารณาการผิดนัดเงินกู้ หากวัตถุประสงค์ทางธุรกิจคือการลดความสูญเสีย ความจำเพาะก็ต้องสูง หากเป้าหมายคือการเพิ่มผลกำไร ก็เป็นอีกเรื่องที่แตกต่างไปจากเดิมอย่างสิ้นเชิง อาจไม่ใช่กรณีที่ผลกำไรจะเพิ่มขึ้นโดยการหลีกเลี่ยงการให้เงินกู้ยืมแก่กรณีการผิดนัดที่คาดการณ์ไว้ทั้งหมด แต่อาจเป็นกรณีที่ธุรกิจต้องจ่ายเงินให้กู้ยืมแก่กรณีผิดนัดที่มีความเสี่ยงน้อยกว่าเล็กน้อยเพื่อเพิ่มผลกำไร ในกรณีเช่นนี้ จะต้องใช้จุดตัดอื่นซึ่งเพิ่มผลกำไรสูงสุด ในกรณีส่วนใหญ่ ธุรกิจจะดำเนินการภายใต้ข้อจำกัดหลายประการ จุดตัดที่ตรงตามวัตถุประสงค์ทางธุรกิจจะไม่เหมือนกันทั้งที่มีและไม่มีข้อจำกัด ต้องเลือกจุดตัดโดยพิจารณาจากจุดเหล่านี้ทั้งหมด ตามกฎทั่วไป ให้เลือกค่าจุดตัดที่เทียบเท่ากับสัดส่วนของผลบวกในชุดข้อมูล

แมชชีนเลิร์นนิงคืออะไรและเหตุใดจึงสำคัญ

27. การถดถอยโลจิสติกจัดการกับตัวแปรหมวดหมู่อย่างไร?

อินพุตของแบบจำลองการถดถอยโลจิสติกต้องเป็นตัวเลข อัลกอริทึมไม่สามารถจัดการตัวแปรตามหมวดหมู่ได้โดยตรง ดังนั้นจึงต้องแปลงเป็นรูปแบบที่เหมาะสมสำหรับอัลกอริทึมในการประมวลผล ระดับต่างๆ ของตัวแปรตามหมวดหมู่จะได้รับการกำหนดค่าตัวเลขที่ไม่ซ้ำกันซึ่งเรียกว่าตัวแปรจำลอง ตัวแปรจำลองเหล่านี้จัดการโดยตัวแบบการถดถอยโลจิสติกเหมือนกับค่าตัวเลขอื่นๆ

28. เส้นกราฟการตอบสนองสะสม (CRV) คืออะไร?

ในการถ่ายทอดผลลัพธ์ของการวิเคราะห์ไปยังฝ่ายบริหาร จะใช้ 'เส้นกราฟการตอบสนองสะสม' ซึ่งเข้าใจง่ายกว่ากราฟ ROC เส้นโค้ง ROC เป็นเรื่องยากมากสำหรับคนที่อยู่นอกสาขาวิทยาศาสตร์ข้อมูล CRV ประกอบด้วยอัตราบวกที่แท้จริงหรือเปอร์เซ็นต์ของผลบวกที่จำแนกอย่างถูกต้องบนแกน Y และเปอร์เซ็นต์ของประชากรที่เป็นเป้าหมายบนแกน X สิ่งสำคัญคือต้องสังเกตว่าเปอร์เซ็นต์ของประชากรจะถูกจัดอันดับตามแบบจำลองโดยเรียงลำดับจากมากไปหาน้อย (ไม่ว่าจะเป็นความน่าจะเป็นหรือค่าที่คาดหวัง) หากแบบจำลองนั้นดี การกำหนดเป้าหมายส่วนบนสุดของรายการที่ได้รับการจัดอันดับ เปอร์เซนต์เชิงบวกทั้งหมดจะถูกบันทึกไว้ เช่นเดียวกับเส้นโค้ง ROC จะมีเส้นทแยงมุมซึ่งแสดงถึงประสิทธิภาพแบบสุ่ม มาทำความเข้าใจประสิทธิภาพแบบสุ่มนี้เป็นตัวอย่าง สมมติว่า 50% ของรายการเป็นเป้าหมาย คาดว่าจะจับ 50% ของผลบวก ความคาดหวังนี้จับโดยเส้นทแยงมุม ซึ่งคล้ายกับเส้นโค้ง ROC

29. เส้นโค้งการยกคืออะไร?

ลิฟต์คือการปรับปรุงประสิทธิภาพของแบบจำลอง (เพิ่มขึ้นในอัตราที่เป็นบวกจริง) เมื่อเทียบกับประสิทธิภาพแบบสุ่ม ประสิทธิภาพแบบสุ่มหมายถึงหาก 50% ของอินสแตนซ์กำหนดเป้าหมาย คาดว่าอินสแตนซ์จะตรวจพบผลบวก 50% ลิฟต์เปรียบเทียบกับประสิทธิภาพแบบสุ่มของแบบจำลอง หากประสิทธิภาพของแบบจำลองดีกว่าประสิทธิภาพแบบสุ่ม การยกของโมเดลนั้นจะมากกว่า 1
ในกราฟการยก การยกจะถูกพล็อตบนแกน Y และเปอร์เซ็นต์ของประชากร (เรียงลำดับจากมากไปหาน้อย) บนแกน X ที่เปอร์เซ็นต์ที่กำหนดของประชากรเป้าหมาย ควรใช้แบบจำลองที่มีการยกสูง

30. อัลกอริธึมใดดีกว่าในการจัดการการถดถอยโลจิสติกค่าผิดปกติหรือ SVM?

การถดถอยโลจิสติกจะพบขอบเขตเชิงเส้นหากมีอยู่เพื่อรองรับค่าผิดปกติ การถดถอยโลจิสติกจะเปลี่ยนขอบเขตเชิงเส้นเพื่อรองรับค่าผิดปกติ SVM ไม่ไวต่อตัวอย่างแต่ละรายการ จะไม่มีการเปลี่ยนแปลงครั้งใหญ่ในขอบเขตเชิงเส้นเพื่อรองรับค่าผิดปกติ SVM มาพร้อมกับการควบคุมความซับซ้อนในตัว ซึ่งดูแลการปรับให้เหมาะสม สิ่งนี้ไม่เป็นความจริงในกรณีของการถดถอยโลจิสติก

31. คุณจะจัดการกับปัญหาการจำแนกประเภทหลายคลาสโดยใช้การถดถอยโลจิสติกอย่างไร?

วิธีที่มีชื่อเสียงที่สุดในการจัดการกับการจำแนกประเภทหลายคลาสโดยใช้การถดถอยโลจิสติกคือการใช้วิธีการแบบหนึ่งเทียบกับทั้งหมด ภายใต้แนวทางนี้ มีการฝึกอบรมแบบจำลองจำนวนหนึ่งซึ่งเท่ากับจำนวนชั้นเรียน โมเดลทำงานในลักษณะเฉพาะ ตัวอย่างเช่น รุ่นแรกจัดประเภทดาต้าพอยท์ขึ้นอยู่กับว่าเป็นของคลาส 1 หรือคลาสอื่น โมเดลที่สองแบ่ง datapoint เป็นคลาส 2 หรือคลาสอื่น ด้วยวิธีนี้ สามารถตรวจสอบจุดข้อมูลแต่ละจุดได้ในทุกคลาส

32. อธิบายการใช้เส้นโค้ง ROC และ AUC ของ ROC Curve

เส้นโค้ง ROC (Receiver Operation Characteristic) แสดงประสิทธิภาพของแบบจำลองการจำแนกประเภทไบนารี โดยพื้นฐานแล้วจะเป็นเส้นโค้ง TPR เทียบกับ FPR (อัตราบวกจริงเทียบกับอัตราบวกเท็จ) สำหรับค่าเกณฑ์ทั้งหมดตั้งแต่ 0 ถึง 1 ในกราฟ ROC แต่ละจุดในพื้นที่ ROC จะสัมพันธ์กับเมทริกซ์ความสับสนที่แตกต่างกัน เส้นทแยงมุมจากด้านล่างซ้ายไปขวาบนบนกราฟ ROC แสดงถึงการคาดเดาแบบสุ่ม พื้นที่ใต้เส้นโค้ง (AUC) บ่งบอกว่าแบบจำลองลักษณนามนั้นดีเพียงใด หากค่า AUC สูง (ใกล้ 1) แสดงว่าโมเดลทำงานได้อย่างน่าพอใจ ในขณะที่หากค่าต่ำ (ประมาณ 0.5) แสดงว่าโมเดลทำงานไม่ถูกต้องและเพียงคาดเดาแบบสุ่ม

33. คุณจะใช้แนวคิดของ ROC ในการจำแนกประเภทหลายคลาสได้อย่างไร?

แนวคิดของเส้นโค้ง ROC สามารถใช้สำหรับการจำแนกประเภทหลายคลาสได้อย่างง่ายดายโดยใช้วิธีการแบบหนึ่งเทียบกับทั้งหมด ตัวอย่างเช่น สมมติว่าเรามีสามคลาส 'a', 'b' และ 'c' จากนั้นชั้นหนึ่งประกอบด้วยคลาส 'a' (คลาสจริง) และคลาสที่สองประกอบด้วยทั้งคลาส 'b' และ 'c' ร่วมกัน (คลาสเท็จ) ดังนั้น กราฟ ROC จะถูกพล็อต ในทำนองเดียวกัน สำหรับทั้งสามคลาส เราจะพล็อตกราฟ ROC สามเส้น และทำการวิเคราะห์ AUC ของเรา
จนถึงตอนนี้เราได้ครอบคลุมอัลกอริธึม ML พื้นฐานที่สุดสองประการ ได้แก่ การถดถอยเชิงเส้นและการถดถอยโลจิสติก และเราหวังว่าคุณจะพบว่าแหล่งข้อมูลเหล่านี้มีประโยชน์

เรียนรู้หลักสูตร ML จากมหาวิทยาลัยชั้นนำของโลก รับ Masters, Executive PGP หรือ Advanced Certificate Programs เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

วิศวกรการเรียนรู้ของเครื่อง: ตำนานกับความเป็นจริง

ส่วนต่อไปของชุดนี้อิงตาม ML Algorithm ที่สำคัญอีกอย่าง หนึ่ง Clustering อย่าลังเลที่จะโพสต์ข้อสงสัยและคำถามของคุณในส่วนความคิดเห็นด้านล่าง
ร่วมเขียนโดย – Ojas Agarwal

แผนภูมิกำไรสะสมและการเพิ่มคืออะไร

แผนภูมิกำไรและส่วนเพิ่มเป็นแนวทางที่มองเห็นได้เพื่อประเมินประสิทธิภาพของโมเดลการเรียนรู้ของเครื่องหลายๆ แบบในรูปแบบต่างๆ นอกจากจะช่วยคุณในการประเมินความสำเร็จของแบบจำลองการคาดการณ์ของคุณแล้ว ยังแสดงให้เห็นด้วยสายตาว่าอัตราการตอบสนองของกลุ่มเป้าหมายแตกต่างจากกลุ่มที่เลือกแบบสุ่มอย่างไร ไดอะแกรมเหล่านี้มีประโยชน์ในการตั้งค่าองค์กร เช่น การตลาดเป้าหมาย นอกจากนี้ยังอาจนำไปใช้ในด้านอื่นๆ เช่น การสร้างแบบจำลองความเสี่ยง การวิเคราะห์ห่วงโซ่อุปทาน และอื่นๆ กล่าวอีกนัยหนึ่ง แผนภูมิกำไรและการเพิ่มเป็นสองวิธีในการจัดการปัญหาการจัดประเภทที่เกี่ยวข้องกับชุดข้อมูลที่ไม่สมดุล

มีสมมติฐานอะไรบ้างเมื่อใช้การถดถอยโลจิสติก

มีการตั้งสมมติฐานบางอย่างในขณะที่ใช้การถดถอยโลจิสติก หนึ่งในนั้นคือตัวทำนายแบบต่อเนื่องไม่มีค่าที่มีอิทธิพล (ค่ามากหรือค่าผิดปกติ) การถดถอยโลจิสติกซึ่งแบ่งออกเป็นสองคลาส สมมติว่าตัวแปรตามเป็นเลขฐานสอง ในขณะที่การถดถอยโลจิสติกแบบมีคำสั่งกำหนดให้ต้องเรียงลำดับตัวแปรตาม นอกจากนี้ยังสันนิษฐานว่าไม่มีความสัมพันธ์กันอย่างมีนัยสำคัญ (เช่น multicollinearity) ระหว่างตัวทำนาย นอกจากนี้ยังพิจารณาว่าการสังเกตเป็นอิสระจากกัน

ฉันจะได้งานนักวิทยาศาสตร์ข้อมูลได้ไหมถ้าฉันมีความรู้ด้านแมชชีนเลิร์นนิงอย่างยุติธรรม

Data Scientist รวบรวม วิเคราะห์ และตีความข้อมูลปริมาณมหาศาลโดยใช้เทคโนโลยีการวิเคราะห์ที่ซับซ้อน เช่น Machine Learning และ Predictive Modeling จากนั้นผู้นำบริษัทจะใช้สิ่งเหล่านี้ในการตัดสินใจเลือกธุรกิจที่ดีที่สุด ดังนั้น นอกเหนือจากทักษะอื่นๆ เช่น การทำเหมืองข้อมูลและความเข้าใจเกี่ยวกับวิธีการวิจัยทางสถิติแล้ว การเรียนรู้ด้วยเครื่องยังเป็นความสามารถที่สำคัญสำหรับนักวิทยาศาสตร์ข้อมูลอีกด้วย แต่ถ้าคุณต้องการทำงานเป็น Data Scientist คุณต้องคุ้นเคยกับแพลตฟอร์มและเทคโนโลยีบิ๊กดาต้า เช่น Hadoop, Pig, Hive, Spark และอื่นๆ ตลอดจนภาษาการเขียนโปรแกรม เช่น SQL, Python และอื่นๆ