คำถามและคำตอบสัมภาษณ์วิศวกรข้อมูล 28 อันดับแรกสำหรับผู้เริ่มต้นและผู้มีประสบการณ์

เผยแพร่แล้ว: 2020-03-11

เตรียมสัมภาษณ์แต่ไม่รู้จะไปยังไง? คุณสามารถเริ่มต้นด้วยรายการ คำถามและคำตอบในการสัมภาษณ์วิศวกรข้อมูล ของเรา

การสัมภาษณ์วิศวกรข้อมูลเป็นการสัมภาษณ์ ที่ยากที่สุดวิธีหนึ่ง มีอะไรมากมายที่คุณควรรู้ แต่ไม่ต้องกังวลเพราะรายการคำถามสัมภาษณ์ของเราจะช่วยคุณในเรื่องนี้ หลังจากที่คุณอ่านรายการนี้แล้ว คุณจะรู้คำตอบของคำถามสำคัญๆ มากมายที่นายหน้าอาจถาม นอกจากนี้ รายการนี้จะช่วยให้คุณมีแนวคิดว่าคุณควรศึกษาและเรียนรู้อะไรในขณะเตรียมสัมภาษณ์

มาเริ่มกันเลย.

คำถามและคำตอบสัมภาษณ์วิศวกรข้อมูลยอดนิยม

คำถามที่ 1 – วิศวกรรมข้อมูลคืออะไร

วิศวกรรมข้อมูลเป็นแนวทางวิศวกรรมซอฟต์แวร์ในการพัฒนาและออกแบบระบบสารสนเทศ เน้นการรวบรวมและวิเคราะห์ข้อมูล ในขณะที่นักวิทยาศาสตร์ข้อมูลทำงานหลายอย่างด้วยข้อมูลขนาดใหญ่ บางคนต้องรวบรวมข้อมูลทั้งหมดนี้มาก่อน และวิศวกรข้อมูลก็ทำหน้าที่นั้น วิศวกรข้อมูลมีหน้าที่รับผิดชอบในการพัฒนาและบำรุงรักษาฐานข้อมูลด้วย วิศวกรข้อมูลแปลงข้อมูลดิบเป็นข้อมูลที่ใช้งานได้

คำถามที่ 2 – คุณเข้าใจอะไรจากการสร้างแบบจำลองข้อมูล

เมื่อคุณสร้างแบบจำลองข้อมูลสำหรับระบบข้อมูลเพื่อให้คุณสามารถติดตามข้อมูลได้ จะเรียกว่าการสร้างแบบจำลองข้อมูล โมเดลข้อมูลเหล่านี้กลายเป็นตารางในฐานข้อมูล (ฐานข้อมูล) ตัวอย่างเช่น หากคุณต้องการวิเคราะห์พฤติกรรมของลูกค้า ลูกค้าทุกรายในฐานข้อมูลของคุณจะเป็นแบบจำลองข้อมูล เป็นการแสดงแนวคิดของค่าข้อมูลที่เกี่ยวข้องกับกฎ

Q.3 – Hadoop คืออะไร?

Hadoop คือชุดซอฟต์แวร์โอเพ่นซอร์สของยูทิลิตี้ที่ช่วยให้คุณใช้เครือข่ายของคอมพิวเตอร์หลายเครื่องในการแก้ปัญหาที่เกี่ยวข้องกับข้อมูลขนาดใหญ่ มีส่วนประกอบต่างๆ ที่ให้คุณประมวลผลข้อมูลจำนวนมากได้ ผู้พัฒนา Hadoop เป็นรากฐานของ Apache คอลเลกชั่นยูทิลิตี้และส่วนประกอบที่หลากหลายช่วยให้คุณใช้งานแอพพลิเคชั่นบิ๊กดาต้าที่ทรงพลังได้อย่างมีประสิทธิภาพ

คำถามที่ 4 – อะไรคือองค์ประกอบที่แตกต่างกันของ Hadoop?

Hadoop ประกอบด้วยส่วนประกอบหลัก 4 ส่วน ได้แก่ HDFS, MapReduce, YARN และ Hadoop Common

HDFS เป็นระบบไฟล์ที่เก็บข้อมูลทั้งหมดของ Hadoop มีแบนด์วิธสูงเนื่องจากเป็นระบบจัดเก็บข้อมูลแบบกระจาย

MapReduce ประมวลผลข้อมูลจำนวนมาก YARN คือการจัดการทรัพยากรของ Hadoop และจัดสรรทรัพยากรที่จำเป็นตามลำดับ Hadoop Common คือกลุ่มของไลบรารีและยูทิลิตี้ที่คุณสามารถใช้ได้ใน Hadoop

คำถามที่ 5 – HDFS ย่อมาจากอะไร

HDFS เป็นองค์ประกอบ Hadoop HDFS ย่อมาจาก Hadoop Distributed File System

คำถามที่ 6 – NameNode คืออะไร?

NameNode เป็นส่วนหนึ่งของการจัดเก็บข้อมูลใน HDFS และติดตามไฟล์ต่างๆ ที่อยู่ในคลัสเตอร์ NameNodes ไม่เก็บข้อมูล พวกเขาจัดเก็บข้อมูลเมตาของ DataNodes โดยที่ HDFS เก็บข้อมูลจริง

คำถามที่ 7 – ข้อมูลที่ไม่มีโครงสร้างกับข้อมูลที่มีโครงสร้างแตกต่างกันอย่างไร

ระบบจัดเก็บข้อมูลที่ไม่มีโครงสร้างในโครงสร้างไฟล์ที่ไม่มีการจัดการ ในขณะที่ที่เก็บข้อมูลที่มีโครงสร้างคือ DBMS การปรับขนาดสคีมาของข้อมูลที่มีโครงสร้างเป็นสิ่งที่ท้าทาย แต่ก็ค่อนข้างง่ายที่จะทำกับข้อมูลที่ไม่มีโครงสร้าง คุณต้องใช้ ELT (แยก แปลง และโหลด) สำหรับข้อมูลที่มีโครงสร้าง ในทางกลับกัน คุณจะต้องดำเนินการประมวลผลเป็นชุดหรือป้อนข้อมูล

คำถามที่ 8 – สคีมาการออกแบบมีกี่ประเภทใน Data Modelling พวกเขาคืออะไร?

สกีมาการออกแบบมีสองประเภทในการสร้างแบบจำลองข้อมูล ได้แก่ Snowflake schema และ Star schema

คำถามที่ 9 – จะเกิดอะไรขึ้นเมื่อ Block Scanner พบบล็อกข้อมูลที่เสียหาย อธิบาย.

นี่เป็นหนึ่งใน คำถามสัมภาษณ์วิศวกรข้อมูล ยอดนิยม ดังนั้น โปรดเตรียมข้อมูลให้พร้อมก่อนที่ When Block Scanner จะพบบล็อกข้อมูลที่เสียหาย DataNode จะรายงานไปยัง NameNode จากนั้น NameNode จะเริ่มสร้างแบบจำลองของบล็อกที่เสียหายโดยใช้โมเดลที่มีอยู่ หากระบบไม่ลบบล็อคข้อมูลที่เสียหาย ระบบจะสร้างแบบจำลองให้มากที่สุดเท่าที่มีปัจจัยการจำลองแบบ จำนวนการจำลองแบบต้องตรงกัน

คำถามที่ 10 – ตั้งชื่อไฟล์การกำหนดค่า XML ทั้งหมดที่มีอยู่ใน Hadoop

ไฟล์การกำหนดค่า XML ที่มีอยู่ใน Hadoop ได้แก่ HDFS-site, Mapred-site, Yarn-site และ Core-site

คำถามที่ 11 – บล็อกใน HDFS คืออะไร Block Scanner คืออะไร?

ใน Hadoop บล็อกคือหน่วยข้อมูลที่เล็กที่สุด ตัวสแกนบล็อคเป็นส่วนประกอบที่ตรวจสอบและยืนยันบล็อคที่มีอยู่ใน DataNode Hadoop แบ่งไฟล์ข้อมูลขนาดใหญ่ออกเป็นบล็อคข้อมูลขนาดเล็กเพื่อความสะดวกในการจัดเก็บ

คำถามที่ 12- DataNode ส่งข้อความใดไปยัง NameNode

DataNodes ส่งสัญญาณไปยัง NameNodes เพื่อแจ้งให้ทราบว่ากำลังทำงาน ชื่อของสัญญาณเหล่านี้คือ Heartbeat และถ้า DataNodes ไม่สามารถส่งฮาร์ตบีตได้ NameNode จะระบุว่ามันตายและหยุดทำงาน

คำถามที่ 13 – ระบุศูนย์กลาง V ของ Big Data

ข้อมูลขนาดใหญ่ของ V กลางสี่ตัว ได้แก่ Velocity, Variety, Volume และ Veracity

คำถามที่ 14 – COSHH หมายถึงอะไร

COSHH ย่อมาจาก Classification and Optimization-based Schedule สำหรับระบบ Hadoop ที่แตกต่างกัน

คำถามที่ 15 – คุณอธิบาย Star Schema ได้ไหม

สตาร์สคีมามีโครงสร้างคล้ายกับดาวฤกษ์ จึงมีชื่อของมัน ศูนย์กลางของดาวอาจมีตารางข้อเท็จจริงที่มีตารางมิติต่างๆ เชื่อมโยงอยู่ วิศวกรข้อมูลใช้เพื่อสืบค้นชุดข้อมูลจำนวนมาก

คำถามที่ 16 – Snowflake Schema คืออะไร

สคีมาเกล็ดหิมะคือรูปแบบของสตาร์สคีมา ความแตกต่างเพียงอย่างเดียวคือ มันมีมิติเพิ่มเติม และมันก็ได้ชื่อมาจากโครงสร้างที่เหมือนเกล็ดหิมะ มีตารางมิติที่ปรับให้เป็นมาตรฐาน เนื่องจากมีตารางอื่นๆ

คำถามที่ 17- วิธีการหลักของ Reducer ใน Hadoop คืออะไร?

มีวิธีการหลักหลายวิธีใน Reducer อันแรกคือการตั้งค่า () ที่กำหนดค่าพารามิเตอร์ การล้างข้อมูล () ล้างชุดข้อมูลชั่วคราว และเมธอด Reducer รัน reduce () กับทุกงานที่ลดลง

คำถามที่ 18 – FSCK คืออะไร?

FSCK ย่อมาจาก File System Check เป็นคำสั่งของ HDFS และใช้คำสั่งนี้เพื่อตรวจหาปัญหาและความไม่สอดคล้องกันในไฟล์

คำถามที่ 19 – Hadoop มีหลายโหมดหรือไม่? ถ้าเป็นเช่นนั้นพวกเขาคืออะไร?

ใช่ Hadoop มีโหมดที่แตกต่างกันสามโหมด ได้แก่ โหมดสแตนด์อโลน โหมดกระจายทั้งหมด และโหมดกระจายหลอก

คำถามที่ 20 – YARN ย่อมาจากอะไร?

YARN ย่อมาจาก Yet Another Resource Negotiator

คำถามที่ 21 – คุณรักษาความปลอดภัยให้กับ Hadoop ได้อย่างไร

เพื่อจุดประสงค์นี้ คุณจะต้องเปิดใช้การเข้ารหัสเมื่อไม่ได้ใช้งานและอยู่ระหว่างการส่ง คุณจะต้องใช้เวอร์ชันที่ปลอดภัยของโปรโตคอลที่คุณใช้ใน Hadoop คุณจะอนุญาตให้ SASL ปกป้องข้อมูล RPC คุณสามารถเปิดใช้งาน SASL ผ่านคุณสมบัติ hadoop.rpc.protection

คุณจะรักษาความปลอดภัยช่องทางการตรวจสอบเช่นกัน ลูกค้าสามารถใช้การประทับเวลาของช่องทางการรับรองความถูกต้องเพื่อรับตั๋วบริการ ซึ่งคุณสามารถใช้สำหรับการตรวจสอบตนเองได้

คำถามที่ 22 – คุณช่วยอธิบายเกี่ยวกับ HDFS (ระบบไฟล์แบบกระจาย Hadoop) ได้ไหม

Hadoop สามารถทำงานกับระบบไฟล์แบบกระจายเช่น FS, HFTP และ S3 ระบบไฟล์ของ Google เป็นพื้นฐานสำหรับ HDFS และสามารถทำงานบนระบบขนาดเล็กกลุ่มใหญ่ได้

คำถามที่ 23 – Snowflake และ Star Schema แตกต่างกันอย่างไร

ใน Star schema คุณมีโอกาสสูงที่ข้อมูลจะซ้ำซ้อน ซึ่งไม่ใช่กรณีของ Snowflake schema การออกแบบ DB ของ Star schema นั้นตรงไปตรงมามากกว่า Snowflake การรวมสคีมา Snowflake ที่ซับซ้อนทำให้การประมวลผลคิวบ์ช้าลง ซึ่งไม่เกิดขึ้นกับสคีมาแบบสตาร์

Q.24 – การเต้นของหัวใจใน Hadoop คืออะไร?

ใน Hadoop มีโหนดสองประเภทคือ NameNode และ DataNode NameNode มีหน้าที่ในการจัดเก็บข้อมูลเมตาของ DataNodes และติดตามสถานะของพวกเขา DataNodes ส่งสัญญาณไปยัง NameNode เพื่อแจ้งให้ทราบว่าพวกเขายังมีชีวิตอยู่และกำลังทำงานอยู่ สัญญาณนี้คือการเต้นของหัวใจ

Q.25 – คุณเข้าใจอะไรใน Big Data?

เมื่อคุณมีข้อมูลที่ไม่มีโครงสร้างและมีโครงสร้างจำนวนมากซึ่งคุณไม่สามารถประมวลผลด้วยวิธีการทั่วไปได้ จะเรียกว่าข้อมูลขนาดใหญ่ บิ๊กดาต้าเป็นสาขาของการวิเคราะห์และการใช้ชุดข้อมูลที่มีความซับซ้อนสูงในการรวบรวมข้อมูล วิธีการวิเคราะห์ข้อมูลแบบเดิมใช้ไม่ได้ผลกับข้อมูลที่ซับซ้อนจำนวนมากเช่นนี้ ในข้อมูลขนาดใหญ่ วิศวกรข้อมูลมีหน้าที่วิเคราะห์ข้อมูลดิบและแปลงเป็นข้อมูลที่ใช้งานได้

คำถามที่ 26 – วิศวกรข้อมูลควรรู้วิชาและภาษาการเขียนโปรแกรมใดบ้าง

วิศวกรข้อมูลควรรู้การวิเคราะห์แนวโน้ม, การเรียนรู้ของเครื่อง, SQL, Hive QL, ความน่าจะเป็น, การถดถอย และพีชคณิตเชิงเส้น วิศวกรข้อมูลสามารถรู้วิชาอื่นๆ มากมาย แต่สิ่งเหล่านี้เป็นสิ่งที่จำเป็น

คำถามที่ 27 – DAS และ NAS ใน Hadoop แตกต่างกันอย่างไร

นี่เป็นคำถามสัมภาษณ์วิศวกรข้อมูลยอดนิยมข้อหนึ่ง ดังนั้นโปรดใส่ใจกับคำตอบเป็นพิเศษ DAS ย่อมาจาก Direct Attached Storage และ NAS ย่อมาจาก Network Attached Storage ความจุของ NAS คือ 10^9 ถึง 10^12 ในไบต์ ในทางกลับกัน DAS มีความจุ 10^9 ไบต์ ค่าใช้จ่ายในการจัดการของ NAS นั้นน้อยกว่า DAS ด้วย

คำถามที่ 28 – ระยะห่างระหว่างโหนดใน Hadoop หมายถึงอะไร คุณจะคำนวณมันอย่างไร?

ใน Hadoop ระยะห่างระหว่างสองโหนดจะเท่ากับผลรวมของความยาวไปยังโหนดที่ใกล้ที่สุด คุณสามารถใช้ getDistance() เพื่อค้นหาระยะห่างระหว่างสองโหนดใน Hadoop

เรียนรู้ หลักสูตรวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

บทสรุป

ด้วยความช่วยเหลือของคำถามสัมภาษณ์เหล่านี้ เรามั่นใจว่าคุณจะเตรียมตัวได้ง่ายทีเดียว การสัมภาษณ์ด้านวิศวกรรมข้อมูลไม่ต้องเครียด พักผ่อนให้เพียงพอก่อนการประชุม หลายคนวิตกกังวลเกินไป

และหากคุณมีคำถามใดๆ เกี่ยวกับวิศวกรรมข้อมูลหรือการสัมภาษณ์ โปรดอย่าลังเลที่จะถามเรา เรายินดีที่จะช่วยเหลือคุณ

งานและความรับผิดชอบของวิศวกรข้อมูลคืออะไร?

สำหรับวิศวกรข้อมูล ความรับผิดชอบหลักของพวกเขาคือการเตรียมข้อมูลเพื่อวัตถุประสงค์ในการวิเคราะห์หรือการดำเนินงาน ในฐานะที่เป็นส่วนหนึ่งของอุตสาหกรรมไอที วิศวกรเหล่านี้สร้างไปป์ไลน์ข้อมูลที่เชื่อมต่อข้อมูลจากระบบต้นทางหลายระบบ พวกเขารวม รวบรวม และทำให้ข้อมูลบริสุทธิ์ก่อนที่จะจัดโครงสร้างเพื่อใช้ในแอปพลิเคชันการวิเคราะห์ ทีมวิเคราะห์ของบริษัทส่วนใหญ่ประกอบด้วยวิศวกรข้อมูลและนักวิทยาศาสตร์ข้อมูล ที่ทำให้ข้อมูลเข้าถึงได้มากขึ้นและเพิ่มสภาพแวดล้อมของข้อมูลขนาดใหญ่ของบริษัท วิศวกรให้ข้อมูลในรูปแบบที่ใช้งานได้แก่นักวิทยาศาสตร์ด้านข้อมูล ซึ่งใช้ข้อมูลดังกล่าวเพื่อดำเนินการค้นหาและอัลกอริทึมสำหรับการวิเคราะห์เชิงคาดการณ์ การเรียนรู้ของเครื่อง และแอปพลิเคชันการทำเหมืองข้อมูล

ทักษะที่จำเป็นในการทำงานเป็นวิศวกรข้อมูลมีอะไรบ้าง?

ความรู้เกี่ยวกับการพัฒนาและการจัดการระบบฐานข้อมูลเป็นสิ่งจำเป็นสำหรับวิศวกรข้อมูล พวกเขาควรจะคล่องแคล่วในภาษาโปรแกรมเช่น SQL, Python, R และอื่น ๆ และควรมีความเข้าใจพื้นฐานเกี่ยวกับการเรียนรู้ของเครื่องและอัลกอริธึม วิศวกรข้อมูลควรรู้เกี่ยวกับโซลูชันคลังสินค้าและเครื่องมือ ETL (Extract, Transfer, Load) วิทยาศาสตร์ข้อมูลเป็นสาขาวิชาที่มีการทำงานร่วมกันอย่างสูงและวิศวกรข้อมูลร่วมมือกับผู้มีส่วนได้ส่วนเสียที่หลากหลาย ตั้งแต่นักวิเคราะห์ข้อมูลไปจนถึงหัวหน้าเจ้าหน้าที่เทคโนโลยี ดังนั้นทักษะที่อ่อนนุ่ม เช่น ทักษะการสื่อสารที่ดีและทักษะความร่วมมือสูง ควรเป็นส่วนหนึ่งของทักษะทั้งหมดของวิศวกรข้อมูล

วิศวกรรมข้อมูลเป็นเส้นทางอาชีพที่ดีหรือไม่? วิศวกรข้อมูลทำรายได้โดยเฉลี่ยเท่าไหร่?

ตามรายงานงานด้านเทคนิคของ Dice 2020 วิศวกรรมข้อมูลเป็นตัวเลือกอาชีพที่เติบโตเร็วที่สุดในด้านเทคโนโลยีในปี 2019 โดยมีจำนวนโอกาสที่มีเพิ่มขึ้น 50% เมื่อเทียบเป็นรายปี กำลังได้รับความสำคัญในโลกของเทคโนโลยีและกลายเป็นทางเลือกอาชีพที่ร่ำรวยเมื่อความต้องการการจัดการข้อมูลเติบโตขึ้น ด้วยเงินเดือนระดับเริ่มต้นที่ ₹4,57,532 ค่าจ้างของวิศวกรข้อมูลเพิ่มขึ้นตามประสบการณ์ที่เพิ่มขึ้นหลายปี วิศวกรข้อมูลที่มีประสบการณ์ 1-4 ปีจะได้รับเงินเดือนเฉลี่ย ₹7,20,395 ในขณะที่วิศวกรข้อมูลระดับกลางที่มีประสบการณ์ 5-9 ปีและวิศวกรข้อมูลที่มีประสบการณ์ซึ่งมีประสบการณ์ 10-19 ปีจะได้รับรายได้รวมเฉลี่ย₹ 12,94,336 และ ₹18,67,992 ตามลำดับ