35 ต้องรู้คำถามและคำตอบในการสัมภาษณ์ Big Data 2022: สำหรับ Freshers & ผู้มีประสบการณ์

เผยแพร่แล้ว: 2021-01-05

เข้าร่วมการสัมภาษณ์ข้อมูลขนาดใหญ่และสงสัยว่าคำถามและการอภิปรายทั้งหมดคืออะไร? ก่อนเข้าร่วมการสัมภาษณ์ Big Data ควรมีแนวคิดเกี่ยวกับประเภทของคำถามสัมภาษณ์ Big Data เพื่อที่คุณจะได้เตรียมคำตอบสำหรับคำถามเหล่านั้น

เพื่อช่วยคุณ ฉันได้สร้างคำถามสัมภาษณ์ข้อมูลขนาดใหญ่และคำแนะนำคำตอบเพื่อทำความเข้าใจเชิงลึกและเจตนาที่แท้จริงของคำถามสัมภาษณ์ข้อมูลขนาดใหญ่

คุณจะไม่เชื่อว่าโปรแกรมนี้เปลี่ยนอาชีพของนักเรียนได้อย่างไร

เราอยู่ในยุคของข้อมูลขนาดใหญ่และการวิเคราะห์ ด้วยข้อมูลที่ขับเคลื่อนทุกสิ่งรอบตัวเรา ทำให้ความต้องการผู้เชี่ยวชาญด้านข้อมูลทักษะสูงเพิ่มขึ้นอย่างกะทันหัน องค์กรต่างๆ มักจะมองหาบุคคลที่มีทักษะสูง ซึ่งสามารถช่วยให้พวกเขาเข้าใจข้อมูลที่มีอยู่มากมาย

คำถามสัมภาษณ์ข้อมูลขนาดใหญ่

คีย์เวิร์ดในที่นี้คือ 'ความชำนาญ' และด้วยเหตุนี้ การสัมภาษณ์ Big Data จึงไม่ใช่เรื่องล้อเล่นจริงๆ มีคำถามสัมภาษณ์ Big Data ที่สำคัญบางข้อที่คุณต้องรู้ก่อนเข้าร่วม สิ่งเหล่านี้จะช่วยคุณค้นหาทางผ่าน

คำถามถูกจัดเรียงตามลำดับที่จะช่วยให้คุณหยิบขึ้นมาจากพื้นฐานและไปถึงระดับที่ค่อนข้างสูง

คำถามและคำตอบในการสัมภาษณ์ข้อมูลขนาดใหญ่

1. กำหนด Big Data และอธิบาย Vs ของ Big Data

นี่เป็นหนึ่งในคำถามสัมภาษณ์เบื้องต้นเกี่ยวกับ Big Data ที่สำคัญที่สุด คำตอบนี้ค่อนข้างตรงไปตรงมา:

บิ๊กดาต้าสามารถกำหนดเป็นชุดของชุดข้อมูลที่ไม่มีโครงสร้างหรือกึ่งโครงสร้างที่ซับซ้อนซึ่งมีศักยภาพในการให้ข้อมูลเชิงลึกที่นำไปปฏิบัติได้


หลักสูตรระยะสั้นที่ดีที่สุด

สี่ Vs ของ Big Data คือ -
ปริมาณ – พูดถึงปริมาณข้อมูล
วาไรตี้ – พูดถึงรูปแบบข้อมูลต่างๆ
ความเร็ว – พูดถึงความเร็วที่เพิ่มขึ้นเรื่อยๆ ของข้อมูลที่กำลังเติบโต
ความถูกต้อง พูดถึงระดับความถูกต้องของข้อมูลที่มีอยู่

บทช่วยสอน Big Data สำหรับผู้เริ่มต้น: ทั้งหมดที่คุณต้องรู้

2. Hadoop เกี่ยวข้องกับ Big Data อย่างไร?

เมื่อเราพูดถึง Big Data เราพูดถึง Hadoop นี่เป็นอีกหนึ่งคำถามในการสัมภาษณ์ Big Data ที่คุณจะต้องเจอในการสัมภาษณ์อย่างแน่นอน

Hadoop เป็นเฟรมเวิร์กโอเพนซอร์ซสำหรับการจัดเก็บ ประมวลผล และวิเคราะห์ชุดข้อมูลที่ไม่มีโครงสร้างที่ซับซ้อนเพื่อให้ได้ข้อมูลเชิงลึกและข่าวกรอง

3. กำหนด HDFS และ YARN และพูดคุยเกี่ยวกับส่วนประกอบที่เกี่ยวข้อง

ตอนนี้เราอยู่ในโซน Hadoop แล้ว คำถามสัมภาษณ์ Big Data ครั้งต่อไปที่คุณอาจเผชิญก็จะวนเวียนอยู่รอบๆ เช่นเดียวกัน

HDFS เป็นหน่วยจัดเก็บข้อมูลเริ่มต้นของ Hadoop และมีหน้าที่จัดเก็บข้อมูลประเภทต่างๆ ในสภาพแวดล้อมแบบกระจาย

HDFS มีองค์ประกอบสองส่วนดังต่อไปนี้:

NameNode – นี่คือโหนดหลักที่มีข้อมูลเมตาดาต้าสำหรับบล็อคข้อมูลทั้งหมดใน HDFS
DataNode – โหนดเหล่านี้เป็นโหนดที่ทำหน้าที่เป็นโหนดรองและมีหน้าที่ในการจัดเก็บข้อมูล
YARN ย่อมาจาก Yet Another Resource Negotiator มีหน้าที่จัดการทรัพยากรและจัดเตรียมสภาพแวดล้อมการดำเนินการสำหรับกระบวนการดังกล่าว
สององค์ประกอบหลักของ YARN คือ -
ResourceManager – รับผิดชอบในการจัดสรรทรัพยากรให้กับ NodeManager ตามลำดับตามความต้องการ
NodeManager – ทำงานบน DataNode ทุกอัน
7 โครงการบิ๊กดาต้าที่น่าสนใจที่คุณต้องระวัง

4. คุณหมายถึงอะไรโดยฮาร์ดแวร์สินค้าโภคภัณฑ์?

นี่เป็นอีกหนึ่งคำถามในการสัมภาษณ์ Big Data ที่คุณมักจะพบมากที่สุดในการสัมภาษณ์ใดๆ ที่คุณเข้าร่วม

Commodity Hardware หมายถึงทรัพยากรฮาร์ดแวร์ขั้นต่ำที่จำเป็นในการรันเฟรมเวิร์ก Apache Hadoop ฮาร์ดแวร์ใดๆ ที่รองรับข้อกำหนดขั้นต่ำของ Hadoop เรียกว่า 'ฮาร์ดแวร์สินค้าโภคภัณฑ์'

5. กำหนดและอธิบายคำว่า FSCK

FSCK ย่อมาจาก Filesystem Check เป็นคำสั่งที่ใช้เรียกใช้รายงานสรุป Hadoop ที่อธิบายสถานะของ HDFS จะตรวจสอบเฉพาะข้อผิดพลาดและไม่แก้ไข คำสั่งนี้สามารถดำเนินการได้ทั้งระบบหรือชุดย่อยของไฟล์

6. จุดประสงค์ของคำสั่ง JPS ใน Hadoop คืออะไร?

คำสั่ง JPS ใช้สำหรับทดสอบการทำงานของ Hadoop daemons ทั้งหมด มันทดสอบ daemons โดยเฉพาะเช่น NameNode, DataNode, ResourceManager, NodeManager และอื่นๆ
(ในการสัมภาษณ์ Big Data คุณมักจะพบคำถามหนึ่งคำถามเกี่ยวกับ JPS และความสำคัญของ JPS)
Big Data: ต้องรู้จักเครื่องมือและเทคโนโลยี

7. ตั้งชื่อคำสั่งต่างๆ สำหรับการเริ่มต้นและปิด Hadoop Daemons

นี่เป็นหนึ่งในคำถามสัมภาษณ์ Big Data ที่สำคัญที่สุดที่จะช่วยให้ผู้สัมภาษณ์วัดความรู้เกี่ยวกับคำสั่งของคุณ

ในการเริ่มภูตทั้งหมด:
./sbin/start-all.sh

ในการปิดภูตทั้งหมด:
./sbin/stop-all.sh

8. เหตุใดเราจึงต้องใช้ Hadoop สำหรับ Big Data Analytics

คำถามสัมภาษณ์ Hadoop นี้จะทดสอบความตระหนักของคุณเกี่ยวกับแง่มุมที่ใช้งานได้จริงของ Big Data และ Analytics

ในกรณีส่วนใหญ่ Hadoop ช่วยในการสำรวจและวิเคราะห์ชุดข้อมูลขนาดใหญ่และไม่มีโครงสร้าง Hadoop นำเสนอความสามารถในการจัดเก็บ การประมวลผล และการรวบรวมข้อมูลที่ช่วยในการวิเคราะห์

9. อธิบายคุณสมบัติต่าง ๆ ของ Hadoop

อยู่ในคำถามและคำตอบในการสัมภาษณ์ Big Data มากมาย คำตอบที่ดีที่สุดคือ –

โอเพ่นซอร์ส – Hadoop เป็นแพลตฟอร์มโอเพ่นซอร์ส อนุญาตให้เขียนหรือแก้ไขรหัสใหม่ตามความต้องการของผู้ใช้และการวิเคราะห์
ความสามารถใน การปรับขนาด – Hadoop รองรับการเพิ่มทรัพยากรฮาร์ดแวร์ให้กับโหนดใหม่
การกู้คืนข้อมูล – Hadoop ติดตามการจำลองซึ่งช่วยให้สามารถกู้คืนข้อมูลในกรณีที่เกิดความล้มเหลว
Data Locality – หมายความว่า Hadoop จะย้ายการคำนวณไปยังข้อมูล ไม่ใช่ในทางกลับกัน ด้วยวิธีนี้ กระบวนการทั้งหมดจะเร็วขึ้น

10. กำหนดหมายเลขพอร์ตสำหรับ NameNode, Task Tracker และ Job Tracker

NameNode – พอร์ต 50070
ตัวติดตามงาน – พอร์ต 50060
ติดตามงาน – พอร์ต 50030

11. คุณหมายถึงอะไรโดยการจัดทำดัชนีใน HDFS?

HDFS จัดทำดัชนีบล็อคข้อมูลตามขนาด จุดสิ้นสุดของบล็อกข้อมูลจะชี้ไปยังที่อยู่ของตำแหน่งที่เก็บบล็อกข้อมูลส่วนถัดไป DataNodes จัดเก็บบล็อกของข้อมูลในขณะที่ NameNode จัดเก็บบล็อกข้อมูลเหล่านี้
การประยุกต์ใช้ Big Data ใน Pop-Culture

12. Edge Nodes ใน Hadoop คืออะไร?

โหนดขอบหมายถึงโหนดเกตเวย์ซึ่งทำหน้าที่เป็นส่วนต่อประสานระหว่างคลัสเตอร์ Hadoop และเครือข่ายภายนอก โหนดเหล่านี้เรียกใช้แอปพลิเคชันไคลเอ็นต์และเครื่องมือการจัดการคลัสเตอร์ และใช้เป็นพื้นที่จัดเตรียมด้วย โหนดขอบจำเป็นต้องมีความสามารถในการจัดเก็บข้อมูลระดับองค์กร และโหนดขอบเดียวมักจะเพียงพอสำหรับคลัสเตอร์ Hadoop หลายคลัสเตอร์

13. เครื่องมือการจัดการข้อมูลใดบ้างที่ใช้กับ Edge Nodes ใน Hadoop

คำถามสัมภาษณ์ Big Data นี้มีจุดมุ่งหมายเพื่อทดสอบความตระหนักของคุณเกี่ยวกับเครื่องมือและกรอบการทำงานต่างๆ

Oozie, Ambari, Pig และ Flume เป็นเครื่องมือจัดการข้อมูลทั่วไปที่ทำงานร่วมกับ Edge Nodes ใน Hadoop

14. อธิบายวิธีการหลักของตัวลดขนาด

มีสามวิธีหลักของตัวลด พวกเขาเป็น-

ตั้งค่า () – ใช้เพื่อกำหนดค่าพารามิเตอร์ต่างๆ เช่น ขนาดฮีป แคชแบบกระจาย และข้อมูลอินพุต
ลด () – พารามิเตอร์ที่ถูกเรียกหนึ่งครั้งต่อคีย์กับงานลดที่เกี่ยวข้อง
cleanup() – ล้างไฟล์ชั่วคราวทั้งหมดและเรียกเฉพาะเมื่อสิ้นสุดงานตัวลดขนาดเท่านั้น

15. พูดคุยเกี่ยวกับป้ายหลุมศพต่างๆ ที่ใช้เพื่อจุดประสงค์ในการลบใน HBase

คำถามสัมภาษณ์ Big Data นี้จะเจาะลึกความรู้ของคุณเกี่ยวกับ HBase และการทำงาน
มีเครื่องหมายหลุมฝังศพหลักสามอันที่ใช้สำหรับการลบใน HBase พวกเขาเป็น-

Family Delete Marker – สำหรับการทำเครื่องหมายคอลัมน์ทั้งหมดของตระกูลคอลัมน์
Version Delete Marker – สำหรับการทำเครื่องหมายเวอร์ชันเดียวของคอลัมน์เดียว
เครื่องหมายลบคอลัมน์ – สำหรับการทำเครื่องหมายเวอร์ชันทั้งหมดของคอลัมน์เดียว
วิศวกรข้อมูลขนาดใหญ่: ตำนานกับความเป็นจริง

16. Big Data จะเพิ่มมูลค่าให้กับธุรกิจได้อย่างไร?

หนึ่งในคำถามสัมภาษณ์ข้อมูลขนาดใหญ่ที่พบบ่อยที่สุด ในสถานการณ์ปัจจุบัน Big Data คือทุกสิ่ง หากคุณมีข้อมูล แสดงว่าคุณมีเครื่องมือที่ทรงพลังที่สุดพร้อมใช้ Big Data Analytics ช่วยให้ธุรกิจต่างๆ สามารถแปลงข้อมูลดิบให้เป็นข้อมูลเชิงลึกที่มีความหมายและนำไปปฏิบัติได้ ซึ่งสามารถกำหนดกลยุทธ์ทางธุรกิจของตนได้ การมีส่วนร่วมที่สำคัญที่สุดของ Big Data ต่อธุรกิจคือการตัดสินใจทางธุรกิจที่ขับเคลื่อนด้วยข้อมูล บิ๊กดาต้าช่วยให้องค์กรสามารถตัดสินใจโดยใช้ข้อมูลที่จับต้องได้และข้อมูลเชิงลึก

คำถามสัมภาษณ์ข้อมูลขนาดใหญ่

นอกจากนี้ Predictive Analytics ยังช่วยให้บริษัทต่างๆ สามารถสร้างคำแนะนำและกลยุทธ์ทางการตลาดที่เหมาะกับผู้ซื้อแต่ละคน เครื่องมือและเทคโนโลยี Big Data ร่วมกันช่วยเพิ่มรายได้ เพิ่มความคล่องตัวในการดำเนินธุรกิจ เพิ่มผลิตภาพ และเพิ่มความพึงพอใจของลูกค้า ในความเป็นจริง ใครก็ตามที่ไม่ได้ใช้ประโยชน์จาก Big Data ในวันนี้ กำลังสูญเสียโอกาสมากมาย

17. คุณจะปรับใช้โซลูชัน Big Data อย่างไร

คุณสามารถปรับใช้โซลูชัน Big Data ได้ในสามขั้นตอน:

  • การนำเข้า ข้อมูล – นี่เป็นขั้นตอนแรกในการปรับใช้โซลูชัน Big Data คุณเริ่มต้นด้วยการรวบรวมข้อมูลจากหลายแหล่ง ไม่ว่าจะเป็นแพลตฟอร์มโซเชียลมีเดีย ไฟล์บันทึก เอกสารทางธุรกิจ สิ่งที่เกี่ยวข้องกับธุรกิจของคุณ สามารถดึงข้อมูลผ่านการสตรีมตามเวลาจริงหรือในชุดงาน
  • การจัดเก็บข้อมูล – เมื่อดึงข้อมูลแล้ว คุณต้องจัดเก็บข้อมูลในฐานข้อมูล อาจเป็น HDFS หรือ HBase แม้ว่าที่เก็บข้อมูล HDFS จะสมบูรณ์แบบสำหรับการเข้าถึงตามลำดับ แต่ HBase นั้นเหมาะอย่างยิ่งสำหรับการเข้าถึงการอ่าน/เขียนแบบสุ่ม
  • การประมวลผลข้อมูล – ขั้นตอนสุดท้ายในการปรับใช้โซลูชันคือการประมวลผลข้อมูล โดยปกติ การประมวลผลข้อมูลจะทำผ่านเฟรมเวิร์ก เช่น Hadoop, Spark, MapReduce, Flink และ Pig เป็นต้น

18. NFS แตกต่างจาก HDFS อย่างไร?

Network File System (NFS) เป็นระบบจัดเก็บไฟล์แบบกระจายที่เก่าแก่ที่สุดระบบหนึ่ง ในขณะที่ Hadoop Distributed File System (HDFS) ได้รับความสนใจเมื่อเร็วๆ นี้หลังจากการเพิ่มขึ้นของ Big Data

ตารางด้านล่างเน้นให้เห็นความแตกต่างที่โดดเด่นที่สุดบางส่วนระหว่าง NFS และ HDFS:

NFS HDFS
สามารถจัดเก็บและประมวลผลข้อมูลปริมาณน้อยได้ ได้รับการออกแบบมาอย่างชัดเจนเพื่อจัดเก็บและประมวลผล Big Data
ข้อมูลถูกเก็บไว้ในฮาร์ดแวร์เฉพาะ ข้อมูลถูกแบ่งออกเป็นบล็อคข้อมูลที่แจกจ่ายบนไดรฟ์ภายในเครื่องของฮาร์ดแวร์
ในกรณีที่ระบบล้มเหลว คุณไม่สามารถเข้าถึงข้อมูลได้ ข้อมูลสามารถเข้าถึงได้แม้ในกรณีที่ระบบล้มเหลว
เนื่องจาก NFS ทำงานบนเครื่องเดียว จึงไม่มีโอกาสเกิดความซ้ำซ้อนของข้อมูล HDFS ทำงานบนคลัสเตอร์ของเครื่อง ดังนั้นโปรโตคอลการจำลองแบบจึงอาจนำไปสู่ข้อมูลซ้ำซ้อน

19. แสดงรายการสิทธิ์ไฟล์ต่างๆ ใน ​​HDFS สำหรับไฟล์หรือระดับไดเรกทอรี

หนึ่งในคำถามสัมภาษณ์ข้อมูลขนาดใหญ่ทั่วไป ระบบไฟล์แบบกระจายของ Hadoop (HDFS) มีสิทธิ์เฉพาะสำหรับไฟล์และไดเรกทอรี HDFS มีผู้ใช้สามระดับ ได้แก่ เจ้าของ กลุ่ม และอื่นๆ สำหรับแต่ละระดับผู้ใช้ มีการอนุญาตสามแบบ:

  • อ่าน (ร)
  • เขียน (ญ)
  • ดำเนินการ(x).

สิทธิ์ทั้งสามนี้ทำงานเฉพาะสำหรับไฟล์และไดเร็กทอรี

สำหรับไฟล์ –

  • สิทธิ์ r สำหรับอ่านไฟล์
  • สิทธิ์ w ใช้สำหรับเขียนไฟล์

แม้ว่าจะมีการอนุญาตดำเนินการ (x) แต่คุณไม่สามารถเรียกใช้ไฟล์ HDFS ได้

สำหรับไดเร็กทอรี -

  • สิทธิ์ r แสดงรายการเนื้อหาของไดเร็กทอรีเฉพาะ
  • สิทธิ์ w สร้างหรือลบไดเร็กทอรี
  • สิทธิ์ X ใช้สำหรับเข้าถึงไดเร็กทอรีย่อย

20. อธิบายอย่างละเอียดเกี่ยวกับกระบวนการที่เขียนทับปัจจัยการจำลองแบบใน HDFS

ใน HDFS มีสองวิธีในการเขียนทับปัจจัยการจำลองแบบ - แบบไฟล์และแบบไดเร็กทอรี

บนพื้นฐานของไฟล์

ในวิธีนี้ ปัจจัยการจำลองแบบจะเปลี่ยนไปตามไฟล์โดยใช้ Hadoop FS shell คำสั่งต่อไปนี้ใช้สำหรับสิ่งนี้:

$hadoop fs – setrep –w2/my/test_file

ที่นี่ test_file อ้างถึงชื่อไฟล์ซึ่งปัจจัยการจำลองแบบจะถูกตั้งค่าเป็น 2

บนพื้นฐานไดเรกทอรี

เมธอดนี้จะเปลี่ยนปัจจัยการจำลองแบบตามไดเร็กทอรี ดังนั้นปัจจัยการจำลองแบบสำหรับไฟล์ทั้งหมดภายใต้ไดเร็กทอรีเฉพาะจะเปลี่ยนแปลงไป คำสั่งต่อไปนี้ใช้สำหรับสิ่งนี้:

$hadoop fs –setrep –w5/my/test_dir

ที่นี่ test_dir หมายถึงชื่อของไดเร็กทอรีที่ปัจจัยการจำลองแบบและไฟล์ทั้งหมดที่อยู่ในนั้นจะถูกตั้งค่าเป็น 5

21. ตั้งชื่อสามโหมดที่คุณสามารถเรียกใช้ Hadoop

หนึ่งในคำถามที่พบบ่อยที่สุดในการสัมภาษณ์ข้อมูลขนาดใหญ่ สามโหมดคือ:

  • โหมดสแตนด์อโลน – นี่คือโหมดเริ่มต้นของ Hadoop ที่ใช้ระบบไฟล์ในเครื่องสำหรับการดำเนินการอินพุตและเอาต์พุต จุดประสงค์หลักของโหมดสแตนด์อโลนคือการดีบัก ไม่รองรับ HDFS และยังขาดการกำหนดค่าแบบกำหนดเองที่จำเป็นสำหรับไฟล์ mapred-site.xml, core-site.xml และ hdfs-site.xml
  • โหมดกระจายหลอก – หรือที่รู้จักในชื่อคลัสเตอร์โหนดเดียว โหมดกระจายหลอกมีทั้ง NameNode และ DataNode ภายในเครื่องเดียวกัน ในโหมดนี้ Hadoop daemons ทั้งหมดจะทำงานบนโหนดเดียว ดังนั้นโหนด Master และ Slave จะเหมือนกัน
  • โหมดกระจายอย่างสมบูรณ์ – โหมดนี้เรียกว่าคลัสเตอร์หลายโหนดซึ่งหลายโหนดทำงานพร้อมกันเพื่อดำเนิน งาน Hadoop ที่นี่ Hadoop daemons ทั้งหมดทำงานบนโหนดที่ต่างกัน ดังนั้นโหนด Master และ Slave จึงทำงานแยกกัน

22. อธิบาย “การใส่มากเกินไป”

Overfitting หมายถึงข้อผิดพลาดในการสร้างแบบจำลองที่เกิดขึ้นเมื่อฟังก์ชันมีความพอดี (ได้รับอิทธิพล) จากชุดข้อมูลที่มีจำกัด การใส่มากเกินไปส่งผลให้เกิดโมเดลที่ซับซ้อนมากเกินไปซึ่งทำให้ยากต่อการอธิบายลักษณะเฉพาะหรือลักษณะเฉพาะในข้อมูลที่มีอยู่ เนื่องจากส่งผลเสียต่อความสามารถในการวางนัยทั่วไปของแบบจำลอง จึงเป็นความท้าทายในการกำหนดผลหารเชิงคาดการณ์ของแบบจำลองที่มีการปรับมากเกินไป โมเดลเหล่านี้ไม่สามารถดำเนินการได้เมื่อนำไปใช้กับข้อมูลภายนอก (ข้อมูลที่ไม่ใช่ส่วนหนึ่งของข้อมูลตัวอย่าง) หรือชุดข้อมูลใหม่

Overfitting เป็นหนึ่งในปัญหาที่พบบ่อยที่สุดในการเรียนรู้ของเครื่อง โมเดลจะถือว่าใส่มากเกินไปเมื่อทำงานได้ดีกว่าในชุดการฝึก แต่ล้มเหลวอย่างน่าสังเวชในชุดทดสอบ อย่างไรก็ตาม มีหลายวิธีในการป้องกันปัญหาการใส่มากเกินไป เช่น การตรวจสอบความถูกต้อง การตัดแต่งกิ่ง การหยุดก่อนกำหนด การทำให้เป็นมาตรฐาน และการประกอบ

23. การเลือกคุณสมบัติคืออะไร?

การเลือกคุณลักษณะหมายถึงกระบวนการแยกเฉพาะคุณลักษณะที่จำเป็นจากชุดข้อมูลเฉพาะ เมื่อข้อมูลถูกดึงมาจากแหล่งที่ต่างกัน ข้อมูลบางอย่างอาจไม่มีประโยชน์ตลอดเวลา – ความต้องการทางธุรกิจที่ต่างกันจะต้องการข้อมูลเชิงลึกที่ต่างกัน นี่คือที่มาของการเลือกคุณสมบัติเพื่อระบุและเลือกเฉพาะคุณสมบัติที่เกี่ยวข้องกับความต้องการทางธุรกิจเฉพาะหรือขั้นตอนของการประมวลผลข้อมูล

เป้าหมายหลักของการเลือกคุณลักษณะคือการลดความซับซ้อนของโมเดล ML เพื่อให้การวิเคราะห์และการตีความง่ายขึ้น การเลือกคุณสมบัติช่วยเพิ่มความสามารถในการวางนัยทั่วไปของแบบจำลองและขจัดปัญหาของมิติข้อมูล ดังนั้นจึงป้องกันความเป็นไปได้ของการจัดวางมากเกินไป ดังนั้น การเลือกคุณลักษณะจะช่วยให้เข้าใจข้อมูลภายใต้การศึกษาได้ดีขึ้น ปรับปรุงประสิทธิภาพการทำนายของแบบจำลอง และลดเวลาในการคำนวณได้อย่างมาก

การเลือกคุณสมบัติสามารถทำได้โดยใช้สามเทคนิค:

  • วิธีการกรอง

ในวิธีนี้ คุณลักษณะที่เลือกจะไม่ขึ้นอยู่กับตัวแยกประเภทที่กำหนด เทคนิคการจัดอันดับตัวแปรใช้เพื่อเลือกตัวแปรเพื่อการจัดลำดับ ในระหว่างกระบวนการจัดประเภท เทคนิคการจัดอันดับแบบแปรผันจะพิจารณาถึงความสำคัญและประโยชน์ของคุณลักษณะ การทดสอบ Chi-Square, Variance Threshold และ Information Gain คือตัวอย่างบางส่วนของวิธีการกรอง

  • วิธีการห่อ

ในวิธีนี้ อัลกอริธึมที่ใช้สำหรับการเลือกเซ็ตย่อยของคุณลักษณะมีอยู่เป็น 'wrapper' รอบอัลกอริธึมการเหนี่ยวนำ อัลกอริธึมการเหนี่ยวนำทำงานเหมือนกับ 'กล่องดำ' ที่สร้างตัวแยกประเภทซึ่งจะนำไปใช้ในการจำแนกคุณสมบัติเพิ่มเติม ข้อเสียเปรียบหลักหรือข้อจำกัดของวิธีการห่อคือเพื่อให้ได้ชุดย่อยของคุณลักษณะ คุณต้องดำเนินการคำนวณจำนวนมาก อัลกอริธึมทางพันธุกรรม การเลือกคุณสมบัติตามลำดับ และการกำจัดคุณสมบัติแบบเรียกซ้ำ เป็นตัวอย่างของวิธีการห่อ

  • วิธีการฝังตัว

วิธีการแบบฝังรวมสิ่งที่ดีที่สุดของทั้งสองโลก – รวมถึงคุณลักษณะที่ดีที่สุดของตัวกรองและวิธีการห่อหุ้ม ในวิธีนี้ การเลือกตัวแปรจะทำได้ในระหว่างกระบวนการฝึกอบรม ซึ่งจะทำให้คุณสามารถระบุคุณลักษณะที่แม่นยำที่สุดสำหรับรุ่นที่กำหนดได้ L1 Regularization Technique และ Ridge Regression เป็นสองตัวอย่างที่นิยมของวิธีการฝังตัว

24. กำหนด “ค่าผิดปกติ”

ค่าผิดปกติหมายถึงจุดข้อมูลหรือการสังเกตที่อยู่ในระยะผิดปกติจากค่าอื่นในตัวอย่างแบบสุ่ม กล่าวอีกนัยหนึ่ง ค่าผิดปกติคือค่าที่อยู่ห่างไกลจากกลุ่ม ไม่ได้อยู่ในคลัสเตอร์หรือกลุ่มใดในชุดข้อมูล การมีอยู่ของค่าผิดปกติมักจะส่งผลต่อพฤติกรรมของโมเดล ซึ่งอาจทำให้กระบวนการฝึกอบรมของอัลกอริธึม ML เข้าใจผิดได้ ผลกระทบด้านลบบางประการของค่าผิดปกติ ได้แก่ เวลาฝึกอบรมนานขึ้น โมเดลที่ไม่ถูกต้อง และผลลัพธ์ที่ไม่ดี

อย่างไรก็ตาม ค่าผิดปกติในบางครั้งอาจมีข้อมูลที่มีค่า นี่คือเหตุผลที่พวกเขาต้องได้รับการตรวจสอบอย่างละเอียดและรับการรักษาตามนั้น

25. ตั้งชื่อเทคนิคการตรวจหาค่าผิดปกติ

อีกครั้งหนึ่งในคำถามสัมภาษณ์ข้อมูลขนาดใหญ่ที่สำคัญที่สุด วิธีการตรวจหาค่าผิดปกติหกวิธีมีดังนี้

  • การ วิเคราะห์มูลค่า สูงสุด – วิธีนี้กำหนดส่วนท้ายทางสถิติของการกระจายข้อมูล วิธีการทางสถิติ เช่น 'z-scores' ในข้อมูลที่ไม่แปรผัน เป็นตัวอย่างที่สมบูรณ์แบบของการวิเคราะห์ค่าสุดขั้ว
  • แบบจำลองความน่าจะเป็นและทางสถิติ – วิธีการนี้จะกำหนด 'กรณีที่ไม่น่าจะเป็นไปได้' จาก 'แบบจำลองความน่าจะเป็น' ของข้อมูล ตัวอย่างที่ดีคือการเพิ่มประสิทธิภาพของแบบจำลองส่วนผสมแบบเกาส์เซียนโดยใช้
  • โมเดลเชิงเส้น – วิธีการนี้จำลองข้อมูลเป็นมิติที่ต่ำกว่า โมเดลตามความใกล้เคียง – ในแนวทางนี้ อินสแตนซ์ข้อมูลที่แยกออกจากกลุ่มข้อมูลจะถูกกำหนดโดยคลัสเตอร์ ความหนาแน่น หรือโดยการวิเคราะห์เพื่อนบ้านที่ใกล้ที่สุด
  • โมเดลข้อมูล-ทฤษฎี – วิธีการนี้พยายามตรวจหาค่าผิดปกติเนื่องจากอินสแตนซ์ข้อมูลที่ไม่ถูกต้องซึ่งเพิ่มความซับซ้อนของชุดข้อมูล
  • การตรวจจับ ค่าผิดปกติของมิติสูง – วิธีการนี้จะระบุช่องว่างย่อยสำหรับค่าผิดปกติตามการวัดระยะทางในมิติที่สูงขึ้น

26. อธิบาย Rack Awareness ใน Hadoop

Rack Awareness เป็นหนึ่งในคำถามสัมภาษณ์ข้อมูลขนาดใหญ่ที่เป็นที่นิยม การรับรู้ Rach เป็นอัลกอริธึมที่ระบุและเลือก DataNodes ให้ใกล้เคียงกับ NameNode ตามข้อมูลแร็ค มันถูกนำไปใช้กับ NameNode เพื่อกำหนดวิธีการวางบล็อคข้อมูลและแบบจำลอง ในระหว่างกระบวนการติดตั้ง สมมติฐานเริ่มต้นคือโหนดทั้งหมดอยู่ในชั้นวางเดียวกัน

การรับรู้แร็คช่วยให้:

  • ปรับปรุงความน่าเชื่อถือของข้อมูลและการเข้าถึงข้อมูล
  • ปรับปรุงประสิทธิภาพของคลัสเตอร์
  • ปรับปรุงแบนด์วิดท์เครือข่าย
  • รักษาปริมาณการไหลในชั้นวางให้มากที่สุดและเมื่อทำได้
  • ป้องกันการสูญหายของข้อมูลในกรณีที่แร็คล้มเหลวโดยสมบูรณ์

27. คุณสามารถกู้คืน NameNode เมื่อมันล่มได้หรือไม่? ถ้าเป็นเช่นนั้นอย่างไร?

ใช่ เป็นไปได้ที่จะกู้คืน NameNode เมื่อมันไม่ทำงาน นี่คือวิธีที่คุณสามารถทำได้:

  • ใช้ FsImage (แบบจำลองข้อมูลเมตาของระบบไฟล์) เพื่อเปิดใช้ NameNode ใหม่
  • กำหนดค่า DataNodes พร้อมกับไคลเอนต์เพื่อให้สามารถรับทราบและอ้างอิง NameNode ที่เริ่มต้นใหม่
  • เมื่อ NameNode ที่สร้างขึ้นใหม่เสร็จสิ้นการโหลดจุดตรวจสอบสุดท้ายของ FsImage (ซึ่งขณะนี้ได้รับรายงานการบล็อกเพียงพอจาก DataNodes) กระบวนการโหลด ก็จะพร้อมที่จะเริ่มให้บริการไคลเอ็นต์

อย่างไรก็ตาม กระบวนการกู้คืนของ NameNode สามารถทำได้สำหรับคลัสเตอร์ที่มีขนาดเล็กกว่าเท่านั้น สำหรับคลัสเตอร์ Hadoop ขนาดใหญ่ กระบวนการกู้คืนมักจะใช้เวลานานมาก จึงเป็นงานที่ท้าทายทีเดียว

28. ตั้งชื่อพารามิเตอร์การกำหนดค่าของกรอบงาน MapReduce

พารามิเตอร์การกำหนดค่าในกรอบงาน MapReduce ประกอบด้วย:

  • รูปแบบการป้อนข้อมูล
  • รูปแบบเอาต์พุตของข้อมูล
  • ตำแหน่งอินพุตของงานในระบบไฟล์แบบกระจาย
  • ตำแหน่งเอาต์พุตของงานในระบบไฟล์แบบกระจาย
  • คลาสที่มีฟังก์ชันแผนที่
  • คลาสที่มีฟังก์ชันลด
  • ไฟล์ JAR ที่มีคลาส mapper, reducer และ driver

29. แคชแบบกระจายคืออะไร? ประโยชน์ของมันคืออะไร?

คู่มือคำถามและคำตอบสำหรับการสัมภาษณ์ Big Data จะไม่สมบูรณ์หากไม่มีคำถามนี้ แคชแบบกระจายใน Hadoop เป็นบริการที่นำเสนอโดยกรอบงาน MapReduce ที่ใช้สำหรับการแคชไฟล์ หากไฟล์ถูกแคชไว้สำหรับงานเฉพาะ Hadoop จะทำให้พร้อมใช้งานบน DataNodes แต่ละรายการทั้งในหน่วยความจำและในระบบที่งานแผนที่และย่อนั้นดำเนินการพร้อมกัน วิธีนี้ช่วยให้คุณเข้าถึงและอ่านไฟล์แคชได้อย่างรวดเร็วเพื่อเติมคอลเล็กชัน (เช่น อาร์เรย์ แฮชแมป ฯลฯ) ในโค้ด

แคชแบบกระจายมีประโยชน์ดังต่อไปนี้:

  • มันแจกจ่ายไฟล์ข้อความ/ข้อมูลแบบอ่านอย่างเดียวที่เรียบง่าย และประเภทที่ซับซ้อนอื่นๆ เช่น jars ไฟล์เก็บถาวร ฯลฯ
  • ติดตามการประทับเวลาการแก้ไขของไฟล์แคชซึ่งเน้นไฟล์ที่ไม่ควรแก้ไขจนกว่างานจะดำเนินการสำเร็จ

30. SequenceFile ใน Hadoop คืออะไร?

ใน Hadoop ไฟล์ SequenceFile คือไฟล์แฟลตที่มีคู่คีย์-ค่าไบนารี มักใช้ในรูปแบบ MapReduce I/O เอาต์พุตของแผนที่จะถูกจัดเก็บไว้ภายในเป็น SequenceFile ซึ่งจัดเตรียมคลาสตัวอ่าน ตัวเขียน และตัวเรียงลำดับ

มีสามรูปแบบ SequenceFile:

  • บันทึกคีย์-ค่าที่ไม่บีบอัด
  • บันทึกเร็กคอร์ดคีย์-ค่าที่บีบอัด (บีบอัดเฉพาะ 'ค่า')
  • บล็อกเร็กคอร์ดคีย์-ค่าที่บีบอัด (ที่นี่ ทั้งคีย์และค่าจะถูกรวบรวมใน 'บล็อก' แยกกัน แล้วจึงบีบอัด)

31. อธิบายบทบาทของ JobTracker

หนึ่งในคำถามสัมภาษณ์ข้อมูลขนาดใหญ่ทั่วไป ฟังก์ชันหลักของ JobTracker คือการจัดการทรัพยากร ซึ่งหมายถึงการจัดการ TaskTrackers เป็นหลัก นอกจากนี้ JobTracker ยังติดตามความพร้อมใช้งานของทรัพยากรและจัดการการจัดการวงจรชีวิตของงาน (ติดตามความคืบหน้าของงานและความทนทานต่อข้อผิดพลาด)

คุณสมบัติที่สำคัญบางประการของ JobTracker คือ:

  • เป็นกระบวนการที่ทำงานบนโหนดแยกต่างหาก (ไม่ใช่บน DataNode)
  • มันสื่อสารกับ NameNode เพื่อระบุตำแหน่งข้อมูล
  • มันติดตามการดำเนินการของปริมาณงาน MapReduce
  • จะจัดสรรโหนด TaskTracker ตามช่องที่มีอยู่
  • มันตรวจสอบแต่ละ TaskTracker และส่งรายงานงานโดยรวมให้กับลูกค้า
  • ค้นหาโหนด TaskTracker ที่ดีที่สุดในการทำงานเฉพาะบนโหนดเฉพาะ

32. ตั้งชื่อรูปแบบอินพุตทั่วไปใน Hadoop

Hadoop มีรูปแบบอินพุตทั่วไปสามรูปแบบ:

  • รูปแบบการป้อนข้อความ – นี่คือรูปแบบการป้อนข้อมูลเริ่มต้นใน Hadoop
  • รูปแบบอินพุตไฟล์ตามลำดับ – รูปแบบอินพุตนี้ใช้เพื่ออ่านไฟล์ตามลำดับ
  • รูปแบบอินพุตคีย์-ค่า – รูปแบบอินพุตนี้ใช้สำหรับไฟล์ข้อความธรรมดา (ไฟล์ที่แบ่งเป็นบรรทัด)

33. Data Locality ใน Hadoop คืออะไร?

หนึ่งในคำถามสัมภาษณ์ข้อมูลขนาดใหญ่ที่สำคัญ ใน HDFS ชุดข้อมูลจะถูกจัดเก็บเป็นบล็อกใน DataNodes ในคลัสเตอร์ Hadoop เมื่องาน MapReduce กำลังดำเนินการ Mapper แต่ละรายการจะประมวลผลบล็อคข้อมูล (Input Splits) หากไม่มีข้อมูลในโหนดเดียวกันกับที่ Mapper ดำเนินการงาน ข้อมูลจะต้องถูกคัดลอกจาก DataNode ที่ซึ่งมันอาศัยอยู่บนเครือข่ายไปยัง Mapper DataNode

เมื่องาน MapReduce มี Mappers มากกว่าร้อยรายการ และ Mapper DataNode แต่ละตัวพยายามคัดลอกข้อมูลจาก DataNode อื่นในคลัสเตอร์พร้อมๆ กัน จะนำไปสู่ความแออัดของเครือข่าย ซึ่งจะส่งผลเสียต่อประสิทธิภาพโดยรวมของระบบ นี่คือจุดที่ Data Locality เข้าสู่สถานการณ์จำลอง แทนที่จะย้ายข้อมูลจำนวนมากไปยังการคำนวณ Data Locality จะย้ายการคำนวณข้อมูลใกล้กับตำแหน่งที่ข้อมูลจริงอยู่บน DataNode ซึ่งช่วยปรับปรุงประสิทธิภาพโดยรวมของระบบโดยไม่ทำให้เกิดความล่าช้าโดยไม่จำเป็น

34. อะไรคือขั้นตอนในการบรรลุการรักษาความปลอดภัยใน Hadoop?

ใน Hadoop นั้น Kerberos ซึ่งเป็นโปรโตคอลการพิสูจน์ตัวตนเครือข่าย ถูกใช้เพื่อให้เกิดความปลอดภัย Kerberos ได้รับการออกแบบมาเพื่อให้การรับรองความถูกต้องสำหรับแอปพลิเคชันไคลเอนต์/เซิร์ฟเวอร์ผ่านการเข้ารหัสลับคีย์

เมื่อคุณใช้ Kerberos เพื่อเข้าถึงบริการ คุณต้องดำเนินการสามขั้นตอน ซึ่งแต่ละขั้นตอนเกี่ยวข้องกับการแลกเปลี่ยนข้อความกับเซิร์ฟเวอร์ ขั้นตอนมีดังนี้:

  • การ ตรวจสอบสิทธิ์ – นี่เป็นขั้นตอนแรกที่ลูกค้าจะได้รับการตรวจสอบสิทธิ์ผ่านเซิร์ฟเวอร์การตรวจสอบความถูกต้อง หลังจากนั้นจะมีการมอบ TGT (Ticket Granting Ticket) แบบประทับเวลาให้กับลูกค้า
  • การอนุญาต – ในขั้นตอนที่สอง ลูกค้าใช้ TGT เพื่อขอตั๋วบริการจาก TGS (Ticket Granting Server)
  • คำขอบริการ – ในขั้นตอนสุดท้าย ลูกค้าใช้ตั๋วบริการเพื่อรับรองตนเองกับเซิร์ฟเวอร์

35. คุณจะจัดการกับค่าที่หายไปใน Big Data ได้อย่างไร?

คำถามสุดท้ายในคำถามสัมภาษณ์ข้อมูลขนาดใหญ่ของเราและคู่มือคำตอบ ค่าที่หายไปหมายถึงค่าที่ไม่มีอยู่ในคอลัมน์ เกิดขึ้นเมื่อไม่มีค่าข้อมูลสำหรับตัวแปรในการสังเกต หากค่าที่หายไปไม่ได้รับการจัดการอย่างเหมาะสม จะนำไปสู่ข้อมูลที่ผิดพลาดซึ่งจะสร้างผลลัพธ์ที่ไม่ถูกต้อง ดังนั้น ขอแนะนำอย่างยิ่งให้จัดการค่าที่หายไปอย่างถูกต้องก่อนประมวลผลชุดข้อมูล โดยปกติ ถ้าจำนวนของค่าที่หายไปมีน้อย ข้อมูลก็จะลดลง แต่ถ้ามีค่าที่หายไปเป็นจำนวนมาก การใส่ข้อมูลเป็นแนวทางปฏิบัติที่แนะนำ

ในสถิติ มีหลายวิธีในการประมาณค่าที่หายไป สิ่งเหล่านี้รวมถึงการถดถอย การใส่ข้อมูลหลายค่า การลบรายการ/คู่ การประมาณความน่าจะเป็นสูงสุด และบูตสแตรป Bayesian โดยประมาณ

บทสรุป

เราหวังว่า คู่มือคำถามและคำตอบของ Big Data จะเป็นประโยชน์ เราจะอัปเดตคู่มืออย่างสม่ำเสมอเพื่อให้คุณอัปเดต

หากคุณสนใจที่จะทราบข้อมูลเพิ่มเติมเกี่ยวกับ Big Data โปรดดูที่ PG Diploma in Software Development Specialization in Big Data program ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 7 กรณี ครอบคลุมภาษาและเครื่องมือในการเขียนโปรแกรม 14 รายการ เวิร์กช็อป ความช่วยเหลือด้านการเรียนรู้และจัดหางานอย่างเข้มงวดมากกว่า 400 ชั่วโมงกับบริษัทชั้นนำ

เรียนรู้ หลักสูตรการพัฒนาซอฟต์แวร์ ออนไลน์จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม Executive PG โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

เป็นผู้นำการปฏิวัติเทคโนโลยีที่ขับเคลื่อนด้วยข้อมูล

การเรียนรู้มากกว่า 400 ชั่วโมง 14 ภาษาและเครื่องมือ สถานะศิษย์เก่า IIIT-B
โปรแกรมประกาศนียบัตรขั้นสูงด้าน Big Data จาก IIIT Bangalore