คำถามและคำตอบสัมภาษณ์วิทยาศาสตร์ข้อมูล – 15 คำถามที่พบบ่อยที่สุด

เผยแพร่แล้ว: 2019-07-08

การสัมภาษณ์งานมักจะยุ่งยาก เพื่อที่จะประสบความสำเร็จในการสัมภาษณ์ คุณต้องไม่เพียงมีความรู้เชิงลึกในเชิงลึกเท่านั้น แต่ยังต้องมีความมั่นใจและมีจิตใจที่แข็งแกร่งด้วย โดยเฉพาะอย่างยิ่งหากคุณกำลังเตรียมตัวสำหรับ Data Science – ทำให้ทุกคณะของคุณต้องทดสอบ!

ในระหว่างการสัมภาษณ์ Data Science คุณจะต้องเผชิญหน้ากับคำถามมากมายที่ครอบคลุมหัวข้อที่หลากหลาย ตั้งแต่คำถามวิทยาศาสตร์ข้อมูลพื้นฐานไปจนถึงสถิติ การวิเคราะห์ข้อมูล ML และการเรียนรู้เชิงลึก แต่นั่นไม่ใช่ทั้งหมด – ทักษะที่อ่อนนุ่มของคุณ (การสื่อสาร การทำงานเป็นทีม และอื่นๆ) จะได้รับการทดสอบด้วย

เพื่อความสะดวกในกระบวนการเตรียมการสำหรับคุณ เราได้รวบรวมรายการคำถามสัมภาษณ์ Data Science ที่พบบ่อย 15 ข้อ เราจะเริ่มต้นด้วยพื้นฐานแล้วไปยังหัวข้อและปัญหาขั้นสูง

ดังนั้นโดยไม่ต้องกังวลใจต่อไป มาเริ่มกันเลย!

  1. Data Science คืออะไร? แมชชีนเลิร์นนิงภายใต้การดูแลและไม่ได้รับการดูแลแตกต่างกันอย่างไร

กล่าวง่ายๆ Data Science คือการศึกษาข้อมูล มันเกี่ยวข้องกับการรวบรวมข้อมูลจากแหล่งที่แตกต่างกัน จัดเก็บ ทำความสะอาด และจัดระเบียบ และวิเคราะห์เพื่อค้นหาข้อมูลที่มีความหมายจากมัน Data Science ใช้การผสมผสานระหว่างคณิตศาสตร์ สถิติศาสตร์คอมพิวเตอร์ การเรียนรู้ของเครื่อง การแสดงข้อมูล การวิเคราะห์คลัสเตอร์ และการสร้างแบบจำลองข้อมูล มีจุดมุ่งหมายเพื่อรับข้อมูลเชิงลึกอันมีค่าจากข้อมูลดิบ (ทั้งที่มีโครงสร้างและไม่มีโครงสร้าง) และใช้ข้อมูลเชิงลึกเหล่านั้นเพื่อโน้มน้าวกลยุทธ์ทางธุรกิจและไอทีในเชิงบวก แนวคิดดังกล่าวสามารถช่วยให้ธุรกิจปรับกระบวนการให้เหมาะสม เพิ่มประสิทธิภาพและรายได้ เพิ่มความคล่องตัวให้กับกลยุทธ์ทางการตลาด เพิ่มความพึงพอใจของลูกค้า และอื่นๆ อีกมากมาย

ML ภายใต้การดูแลและไม่ได้รับการดูแล ML แตกต่างกันในด้านต่อไปนี้:

  • ใน ML ภายใต้การดูแล ข้อมูลที่ป้อนจะมีป้ายกำกับ ใน ML ที่ไม่มีผู้ดูแล ข้อมูลที่ป้อนจะไม่มีป้ายกำกับ
  • ในขณะที่ ML ภายใต้การดูแลใช้ชุดข้อมูลการฝึก ML ที่ไม่ได้รับการดูแลจะใช้ชุดข้อมูลที่ป้อนเข้า
  • ML ที่อยู่ภายใต้การดูแลจะใช้เพื่อวัตถุประสงค์ในการคาดการณ์ ในขณะที่ ML ที่ไม่ได้รับการดูแลจะถูกใช้เพื่อวัตถุประสงค์ในการวิเคราะห์
  • ML ภายใต้การดูแลช่วยให้สามารถจำแนกประเภทและการถดถอยได้ อย่างไรก็ตาม ML ที่ไม่มีผู้ดูแลช่วยให้สามารถจำแนกประเภท การประมาณความหนาแน่น และการลดขนาดได้
  1. Python หรือ R – ไหนดีกว่าสำหรับการวิเคราะห์ข้อความ?

เมื่อพูดถึงการวิเคราะห์ข้อความ Python ดูเหมือนจะเป็นตัวเลือกที่เหมาะสมที่สุด เนื่องจากมันมาพร้อมกับไลบรารี Pandas ที่มีโครงสร้างข้อมูลที่เป็นมิตรต่อผู้ใช้และเครื่องมือวิเคราะห์ข้อมูลที่มีประสิทธิภาพสูง นอกจากนี้ Python ยังมีประสิทธิภาพสูงและรวดเร็วสำหรับงานวิเคราะห์ข้อความทุกประเภท สำหรับ R จะเหมาะที่สุดสำหรับแอปพลิเคชันการเรียนรู้ของเครื่อง

  1. ประเภทข้อมูลที่รองรับใน Python มีอะไรบ้าง

Python มีอาร์เรย์ของประเภทข้อมูลในตัว ได้แก่ :

  • บูลีน
  • ตัวเลข (จำนวนเต็ม, ยาว, ทุ่น, เชิงซ้อน)
  • ลำดับ (รายการ สตริง ไบต์ ทูเปิล)
  • ชุด
  • การทำแผนที่ (พจนานุกรม)
  • ไฟล์วัตถุ
  1. อัลกอริธึมการจำแนกประเภทที่แตกต่างกันคืออะไร?

อัลกอริธึมการจำแนกที่สำคัญคือตัวแยกประเภทเชิงเส้น (การถดถอยโลจิสติก ตัวแยกประเภท Naive Bayes) แผนผังการตัดสินใจ ต้นไม้ที่ได้รับการส่งเสริม ฟอเรสต์สุ่ม SVM การประมาณเคอร์เนล โครงข่ายประสาทเทียม และเพื่อนบ้านที่ใกล้ที่สุด

  1. การกระจายแบบปกติคืออะไร?

โดยปกติ ข้อมูลจะถูกแจกจ่ายในรูปแบบต่างๆ ทั้งโดยเอนเอียงไปทางซ้ายหรือทางขวา หรือในบางกรณี ข้อมูลก็อาจสับสนได้ อย่างไรก็ตาม อาจมีบางกรณีที่ข้อมูลถูกกระจายไปรอบๆ ค่าส่วนกลางโดยไม่มีอคติไปทางซ้ายหรือขวา ทำให้เกิดการกระจายแบบปกติในรูปของเส้นโค้งรูประฆัง

แหล่งที่มา

เส้นโค้งแสดงการกระจายตัวของตัวแปรสุ่มในรูปแบบของเส้นโค้งรูประฆังสมมาตร

  1. การทดสอบ A/B มีความสำคัญอย่างไร?

การทดสอบ A/B เป็นการทดสอบสมมติฐานทางสถิติสำหรับการทดลองแบบสุ่มที่เกี่ยวข้องกับสองตัวแปร – A และ B การทดสอบ A/B ช่วยระบุการเปลี่ยนแปลงหรือการเปลี่ยนแปลงใดๆ ที่ทำกับหน้าเว็บเพื่อเพิ่มผลลัพธ์ที่น่าสนใจสูงสุด เป็นวิธีที่ยอดเยี่ยมในการกำหนดกลยุทธ์การส่งเสริมการขายและการตลาดออนไลน์ที่ดีที่สุดสำหรับธุรกิจ

  1. Selection Bias คืออะไร?

Selection Bias เป็นข้อผิดพลาด 'ที่ใช้งานอยู่' ซึ่งเกิดขึ้นเมื่อผู้วิจัยตัดสินใจเลือกตัวอย่างที่จะทำการศึกษา ในกรณีนี้ ข้อมูลตัวอย่างจะถูกรวบรวมและเตรียมสำหรับการสร้างแบบจำลองข้อมูล แต่มีลักษณะดังกล่าวซึ่งไม่ใช่ตัวแทนที่แท้จริงของประชากรในอนาคตของกรณีต่างๆ ที่แบบจำลองจะพิจารณา ความลำเอียงในการเลือกเกิดขึ้นเมื่อชุดย่อยของข้อมูลตัวอย่างถูกเลือกอย่างเป็นระบบและรวม/แยกออกจากการวิเคราะห์ข้อมูล Selection Bias มีสามประเภท:

  • อคติการสุ่มตัวอย่าง: ข้อผิดพลาดอย่างเป็นระบบที่เกิดขึ้นเมื่อกลุ่มตัวอย่างที่ไม่ใช่แบบสุ่มของชุดข้อมูลทำให้สมาชิกของชุดข้อมูลมีโอกาสน้อยที่จะรวมอยู่ในการศึกษา ส่งผลให้กลุ่มตัวอย่างมีอคติ
  • ช่วงเวลา: เกิดขึ้นเมื่อการทดลองวิเคราะห์ข้อมูลสิ้นสุดก่อนกำหนดด้วยค่าสุดขีด อย่างไรก็ตาม ตัวแปรที่มีค่าความแปรปรวนมากที่สุดสามารถบรรลุค่าสูงสุดได้ (แม้ว่าตัวแปรทั้งหมดจะมีค่าเฉลี่ยใกล้เคียงกัน)
  • การขัดสี: เกิดขึ้นเนื่องจากการลดราคาการขัดสี หรือการสูญเสียผู้เข้าร่วมระหว่างการทดลองใช้ที่สิ้นสุดก่อนจะเสร็จสิ้น
  1. การถดถอยเชิงเส้นคืออะไร? สมมติฐานที่จำเป็นสำหรับการถดถอยเชิงเส้นคืออะไร?

การถดถอยเชิงเส้นเป็นเครื่องมือทางสถิติที่ใช้สำหรับการวิเคราะห์เชิงคาดการณ์ ในวิธีนี้ คะแนนของตัวแปร (เช่น Y) จะถูกคาดการณ์จากคะแนนของตัวแปรอื่น (เช่น X) โดยที่ Y คือตัวแปรเกณฑ์ ในขณะที่ X คือตัวแปรตัวทำนาย

ในการถดถอยเชิงเส้น มีสมมติฐานพื้นฐานสี่ข้อ:

  • มีความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวถดถอย ดังนั้น โมเดลข้อมูลที่สร้างขึ้นจะซิงค์กับข้อมูล
  • ส่วนที่เหลือของข้อมูลเป็นอิสระจากกันและจะแจกจ่าย
  • มีความสัมพันธ์แบบพหุความสัมพันธ์น้อยที่สุดระหว่างตัวแปรอธิบาย
  • มี 'homoscedasticity' ซึ่งหมายความว่าความแปรปรวนรอบเส้นการถดถอยจะเหมือนกันสำหรับค่าทั้งหมดของตัวแปรทำนาย

  1. การตรวจสอบข้ามคืออะไร?

การตรวจสอบข้ามเป็นขั้นตอนการตรวจสอบความถูกต้องของแบบจำลองที่ใช้สำหรับ จุดมุ่งหมายในที่นี้คือการกำหนดชุดข้อมูลการตรวจสอบความถูกต้องเพื่อทดสอบแบบจำลองในขั้นตอนการฝึกอบรมเพื่อจำกัดปัญหาต่างๆ เช่น การใส่มากเกินไป และแน่นอน กำหนดว่าแบบจำลองจะสรุปเป็นชุดข้อมูลอิสระอย่างไร

การตรวจสอบข้าม (CV) เป็นเทคนิคการตรวจสอบแบบจำลองที่ใช้ในการทดสอบประสิทธิภาพของแบบจำลองการเรียนรู้ของเครื่อง นอกจากนี้ยังเป็นวิธีการสุ่มตัวอย่างซ้ำที่ใช้ในการประเมินแบบจำลองในกรณีที่มีข้อมูลจำกัด ในวิธีตรวจสอบไขว้ ส่วนหนึ่งของข้อมูลจะถูกจัดสรรไว้สำหรับการทดสอบและการตรวจสอบ และใช้เพื่อกำหนดว่าผลลัพธ์ของการวิเคราะห์ทางสถิติจะสรุปเป็นชุดข้อมูลอิสระได้อย่างไร

  1. สูตรความน่าจะเป็นทวินามคืออะไร?

การแจกแจงความน่าจะเป็นแบบทวินามพิจารณาความน่าจะเป็นของแต่ละจำนวนที่เป็นไปได้ของความสำเร็จจากจำนวนการทดลอง N สำหรับเหตุการณ์อิสระ โดยแต่ละครั้งมีความน่าจะเป็นที่จะเกิดขึ้นของ π (pi) สูตรสำหรับการแจกแจงความน่าจะเป็นทวินามคือ:

  1. การวิเคราะห์แบบ Univariate, Bivariate และ Multivariate แตกต่างกันอย่างไร

การวิเคราะห์แบบตัวแปรเดียวหมายถึงเทคนิคการวิเคราะห์เชิงสถิติเชิงพรรณนาที่สามารถแยกความแตกต่างได้ตามจำนวนตัวแปรที่เกี่ยวข้อง ณ จุดใดเวลาหนึ่ง (เช่น แผนภูมิวงกลมที่แสดงยอดขายของผลิตภัณฑ์ในพื้นที่เฉพาะ) ตรงกันข้ามกับสิ่งนี้ การวิเคราะห์แบบสองตัวแปรมีวัตถุประสงค์เพื่อทำความเข้าใจและกำหนดความแตกต่างระหว่างสองตัวแปรในแต่ละครั้งเช่นเดียวกับในแผนภาพแบบกระจาย (เช่น ความสัมพันธ์ระหว่างปริมาณการขายและการใช้จ่าย)

การวิเคราะห์หลายตัวแปรเกี่ยวข้องกับการศึกษาตัวแปรมากกว่าสองตัวเพื่อทำความเข้าใจผลกระทบของตัวแปรที่มีต่อการตอบสนอง/ผลลัพธ์

  1. โครงข่ายประสาทเทียมคืออะไร?

พูด ง่ายๆ คือ โครงข่ายประสาทเทียม (ANN) หมายถึงระบบคอมพิวเตอร์ที่ออกแบบตามสมองของมนุษย์ เช่นเดียวกับสมองของมนุษย์ ANNs ประกอบด้วยองค์ประกอบการประมวลผลง่ายๆ มากมาย เรียกว่าเซลล์ประสาทเทียม ซึ่งการทำงานได้รับแรงบันดาลใจจากเซลล์ประสาทในสายพันธุ์สัตว์ ANN สามารถเรียนรู้ผ่านประสบการณ์และสามารถปรับให้เข้ากับอินพุตที่เปลี่ยนแปลง เพื่อให้เครือข่ายสามารถสร้างผลลัพธ์ที่ดีที่สุดโดยไม่ต้องออกแบบเกณฑ์ผลลัพธ์ใหม่

  1. Recurrent Neural Networks (RNN) คืออะไร?

โครงข่ายประสาทเทียมแบบกำเริบ (RNN) เป็นโครงข่ายประสาทเทียมชนิดหนึ่ง ซึ่งการเชื่อมต่อของปมประสาทส่งผลให้เกิดกราฟที่กำกับตามลำดับชั่วขณะ ดังนั้นจึงแสดงพฤติกรรมไดนามิกชั่วคราว เพื่อให้เข้าใจ RNN คุณต้องเข้าใจการทำงานของตาข่าย feedforward ก่อน ในขณะที่ข้อมูลช่องสัญญาณเครือข่าย feedforward เป็นเส้นตรง (โดยไม่ต้องสัมผัสโหนดเดียวกันสองครั้ง) เครือข่ายประสาทที่เกิดซ้ำจะหมุนเวียนข้อมูลผ่านกระบวนการที่เหมือนวนซ้ำ ตรงกันข้ามกับโครงข่ายประสาทฟีดฟอร์เวิร์ด RNN สามารถใช้หน่วยความจำภายในเพื่อประมวลผลลำดับของอินพุตได้ ดังนั้น RNN จึงเหมาะที่สุดสำหรับงานที่ไม่ได้แบ่งกลุ่มหรือเชื่อมต่อ เช่น การรู้จำลายมือและการรู้จำคำพูด
คำถามและคำตอบในการสัมภาษณ์นักวิเคราะห์ข้อมูล 17 อันดับแรก

  1. Back Propagation คืออะไร?

Backpropagation หมายถึงอัลกอริธึมการเรียนรู้ภายใต้การดูแลที่ใช้สำหรับการฝึกอบรมโครงข่ายประสาทเทียมแบบหลายชั้น backpropagation สามารถย้ายข้อผิดพลาดจากจุดสิ้นสุดของเครือข่ายไปยังน้ำหนักทั้งหมดภายในเครือข่าย ซึ่งช่วยให้คำนวณการไล่ระดับสีได้อย่างมีประสิทธิภาพ ค้นหาค่าต่ำสุดของฟังก์ชันข้อผิดพลาดในพื้นที่น้ำหนักโดยใช้เทคนิคการลาดลงระดับ น้ำหนักที่ลดฟังก์ชันข้อผิดพลาดถือเป็นวิธีแก้ปัญหาการเรียนรู้

  • Backpropagation เกี่ยวข้องกับขั้นตอนต่อไปนี้:
  • ส่งต่อข้อมูลการฝึกอบรม
  • คำนวณอนุพันธ์โดยใช้เอาต์พุตและเป้าหมาย
  • Back Propagate สำหรับการคำนวณอนุพันธ์ของข้อผิดพลาด
  • ใช้อนุพันธ์ที่คำนวณไว้ก่อนหน้านี้สำหรับเอาต์พุต
  • กำลังคำนวณมูลค่าน้ำหนักที่อัปเดตและอัปเดตน้ำหนัก
  1. อธิบาย Gradient Descent

ในการทำความเข้าใจ Gradient Descent คุณต้องเข้าใจก่อนว่าการไล่ระดับสีคืออะไร การไล่ระดับสีคือการวัดว่าเอาต์พุตของฟังก์ชันเฉพาะเปลี่ยนแปลงไปมากเพียงใดเมื่อเทียบกับการเปลี่ยนแปลงเล็กน้อยในอินพุต มันวัดการเปลี่ยนแปลงในน้ำหนักทั้งหมดเพื่อตอบสนองต่อการเปลี่ยนแปลงในข้อผิดพลาด ดังนั้น เกรเดียนท์คือความชันของฟังก์ชัน

การไล่ระดับสีแบบไล่ระดับเป็นอัลกอริธึมการปรับให้เหมาะสมที่ช่วยค้นหาค่าของพารามิเตอร์ (สัมประสิทธิ์) ของฟังก์ชัน (f) ที่ลดฟังก์ชันต้นทุน (ต้นทุน) เหมาะที่สุดสำหรับกรณีที่ไม่สามารถคำนวณพารามิเตอร์แบบวิเคราะห์ได้

บทสรุป

ในบันทึกสรุป คุณต้องรู้ว่าไม่มีวิธีเดียวหรือวิธีที่ดีที่สุดในการเตรียมตัวสำหรับการสัมภาษณ์ มันคือทั้งหมดที่เกี่ยวกับฐานความรู้ของคุณ ความมั่นใจและวิธีการของคุณ และโชคเล็กๆ น้อยๆ แม้ว่าคำถามเหล่านี้เป็นเพียงคำถามเล็กๆ น้อยๆ ของ Data Science เราหวังว่าสิ่งนี้จะช่วยให้คุณมีแนวคิดคร่าวๆ เกี่ยวกับประเภทของคำถามที่คุณสามารถถามได้ในการสัมภาษณ์ Data Science ที่กล่าวว่าเตรียมตัวให้ดีและดีที่สุดสำหรับความพยายามของคุณ!

เรียนรู้ หลักสูตรวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

ในการสัมภาษณ์ Data Science มีกี่รอบ?

อาจจำเป็นต้องมีการสัมภาษณ์การเขียนโปรแกรมหนึ่งหรือสองรอบ แต่ทั้งนี้ขึ้นอยู่กับบริษัทที่คุณสมัครทั้งหมด บางบริษัททำให้กระบวนการสัมภาษณ์นานถึงหกรอบ คุณสามารถเตรียมคำตอบสำหรับคำถามแต่ละข้อได้โดยการค้นหาคำถามที่พบบ่อย จัดทำรายการคำถามที่พบบ่อยและยากที่สุด จากนั้นวิเคราะห์คำถามเหล่านั้นก่อนการสัมภาษณ์

อะไรคือคุณสมบัติที่ผู้สัมภาษณ์ด้านวิทยาศาสตร์ข้อมูลมองหา?

ในการสัมภาษณ์ด้านวิทยาศาสตร์ข้อมูล คุณจะต้องรู้มากเกี่ยวกับเลขคณิต สถิติ ภาษาโปรแกรม พื้นฐานข่าวกรองธุรกิจ และแน่นอน เทคนิคการเรียนรู้ของเครื่อง คุณจะถูกขอให้แสดงให้เห็นว่าความสามารถด้านข้อมูลของคุณเกี่ยวข้องกับทางเลือกและกลยุทธ์ของบริษัทอย่างไร ในตลาดปัจจุบัน งานวิทยาศาสตร์ข้อมูลเกือบทุกงานต้องมีการสัมภาษณ์เขียนโค้ด บทบาทของนักวิทยาศาสตร์ด้านข้อมูลรวมถึงการเปิดตัวรหัสการผลิต เช่น ท่อข้อมูลและโมเดลการเรียนรู้ของเครื่อง ในหลายบริษัท สำหรับโครงการในลักษณะนี้ จำเป็นต้องมีความสามารถในการเขียนโปรแกรมที่แข็งแกร่ง ดังนั้นคุณสามารถคาดหวังคำถามเกี่ยวกับ SQL และ Python ในการสัมภาษณ์ได้เช่นกัน

ฉันสามารถรับงานนักวิทยาศาสตร์ข้อมูลผ่าน LinkedIn ได้หรือไม่

เราไม่ควรมองข้ามพลังของ LinkedIn ในทุกวันนี้ LinkedIn เป็นประวัติย่อดิจิทัลของคุณ บริษัทและนายหน้ามองหาผู้สมัครที่สมควรได้รับบน LinkedIn อยู่เสมอ ดังนั้น การสร้างโปรไฟล์ LinkedIn ที่น่าประทับใจ จึงเป็นสิ่งสำคัญสำหรับคุณ มองหางานและสมัครงานใน LinkedIn เพิ่มทักษะที่เกี่ยวข้องให้กับโปรไฟล์ของคุณและเพิ่มความสำเร็จในอาชีพของคุณต่อไป ด้วยวิธีนี้ โอกาสที่คุณจะได้งานด้านวิทยาศาสตร์ข้อมูลที่สมควรได้รับจาก LinkedIn มีสูง