วิศวกรข้อมูลขนาดใหญ่: ตำนานกับความเป็นจริง
เผยแพร่แล้ว: 2018-05-07ข้อมูลที่มีอยู่กับองค์กรเพิ่มขึ้นทุกนาทีที่ผ่านไป ข้อมูลนี้อยู่ในรูปแบบ ขนาด และประเภทที่หลากหลาย ดังนั้นจึงยากต่อการศึกษาอย่างยิ่ง นับประสาการวิเคราะห์อย่างมีประสิทธิภาพ เพื่อช่วยในเรื่องนั้น มีวิศวกรข้อมูลขนาดใหญ่! เหล่านี้คือผู้ที่รับผิดชอบในการแปลง Big Data ที่ไม่มีประโยชน์ให้เป็น Big Data ที่มีประโยชน์ ซึ่งนักวิทยาศาสตร์ด้านข้อมูลสามารถศึกษาและวิเคราะห์เพิ่มเติมได้
วิศวกรข้อมูลขนาดใหญ่สามารถเรียกได้ว่าเป็นการผสมผสานระหว่างนักวิทยาศาสตร์ข้อมูลและวิศวกร องค์กรใด ๆ ที่จัดการกับข้อมูลขนาดใหญ่โดยค่าเริ่มต้นจำเป็นต้องมีวิศวกรข้อมูลขนาดใหญ่

โดยทั่วไปแล้ว บทบาทของวิศวกรข้อมูลขนาดใหญ่ต้องการให้พวกเขาทำงานหนึ่งทักษะ (หรือมากกว่า) ต่อไปนี้:
สารบัญ
การวิเคราะห์ข้อมูล
- Hadoop, MapReduce, IBM Biginsights, Hortonworks และ MapR เป็นเครื่องมือบางส่วนที่วิศวกร Big Data คาดว่าจะมีคำสั่งให้ทำการวิเคราะห์ข้อมูล วิศวกรส่วนใหญ่มักจะมีประสบการณ์กับ MapReduce เพียงอย่างเดียว (เนื่องจากเป็นโปรแกรมที่เก่าที่สุด และส่วนอื่นๆ ยังค่อนข้างใหม่) แต่อัลกอริธึมพื้นฐานทำให้ง่ายต่อการเรียนรู้เทคโนโลยีใหม่อย่างรวดเร็วและมีประสิทธิภาพ
- การทำเหมืองข้อมูลเป็นส่วนสำคัญของการวิเคราะห์ข้อมูล วิศวกร Big Data ทำงานเกี่ยวกับเทคโนโลยีเช่น Mahout เพื่อทำงานที่เกี่ยวข้องกับ Data Mining ความรับผิดชอบอันดับแรกของวิศวกรข้อมูลขนาดใหญ่คือการกลั่นกรองข้อมูล ก่อนที่เขาจะทำความสะอาดได้ ดังนั้นพวกเขาจึงต้องเชี่ยวชาญกับ Mahout หรือเครื่องมือขุดข้อมูลอื่นๆ
- การวิเคราะห์ทางสถิติก็มีบทบาทสำคัญเช่นกัน และคาดว่าวิศวกรข้อมูลขนาดใหญ่จะต้องควบคุม R, SPSS, SAS และ MATLAB เป็นต้น
- วิศวกรบิ๊กดาต้าเป็นวิศวกรที่สิ้นสุดวัน พวกเขาต้องรอบรู้กับพื้นฐานของการเขียนโปรแกรม ทักษะการเขียนโปรแกรมที่แข็งแกร่งส่วนใหญ่จะจำเป็นเฉพาะสำหรับการใช้งานอัลกอริธึมแบบกำหนดเอง/เฉพาะ
คลังข้อมูล
- คลังข้อมูลหมายถึงการยกข้อมูลไปยังคลังสินค้า ด้วยเหตุนี้ วิศวกรข้อมูลขนาดใหญ่จึงถูกคาดหวังให้มีความรู้เกี่ยวกับ MySQL, MS SQL Server, Oracle หรือฐานข้อมูลเชิงสัมพันธ์ใดๆ เครื่องมือเหล่านี้ช่วยให้วิศวกรข้อมูลขนาดใหญ่ที่โดดเด่นสามารถจัดการกับข้อมูลเชิงสัมพันธ์ที่มีอยู่กับองค์กรของตนได้อย่างราบรื่น
- ทุกวันนี้ ไม่ใช่ข้อมูลทั้งหมดที่มีโครงสร้างและสัมพันธ์กัน ข้อมูลส่วนใหญ่กับองค์กรเหล่านี้ไม่สัมพันธ์กัน ดังนั้น ความรู้เกี่ยวกับฐานข้อมูลที่ไม่สัมพันธ์กัน เช่น NoSQL, HBase, HDFS, Cassandra, CouchDB เป็นต้น ก็มีประโยชน์สำหรับวิศวกรข้อมูลขนาดใหญ่เช่นกัน
การเก็บรวบรวมข้อมูล
- การเก็บรวบรวมข้อมูลเป็นหนึ่งในงานหลักของวิศวกรข้อมูลขนาดใหญ่ พวกเขาจำเป็นต้องทำงานกับ Data API เช่น อินเทอร์เฟซ RESTful เพื่อดึงข้อมูลจากคลังข้อมูล สำหรับสิ่งนี้ พวกเขาจำเป็นต้องลงมือปฏิบัติกับภาษาสคริปต์บางภาษา
- นอกจากนี้ วิศวกร Big Data ต้องเป็นผู้เชี่ยวชาญใน SQL และการสร้างแบบจำลองข้อมูล สิ่งนี้มีประโยชน์อย่างยิ่งในขณะที่รวบรวมข้อมูล การสร้างแบบจำลองข้อมูลช่วยให้วิศวกรข้อมูลขนาดใหญ่สามารถมองเห็นข้อมูลและการพึ่งพาซึ่งกันและกันได้อย่างชัดเจน
การแปลงข้อมูลและการทำความสะอาด
- เมื่อรวบรวมข้อมูลแล้ว หน้าที่หลักของวิศวกรข้อมูลขนาดใหญ่คือการแปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสมกับนักวิทยาศาสตร์ข้อมูล สำหรับเครื่องมือ ETL ที่หลากหลายเช่น Informatica, DataStage, Redpoint และ SSIS ความเชี่ยวชาญในเครื่องมือเหล่านี้ช่วยให้วิศวกร Big Data สามารถแปลงข้อมูลที่รวบรวมไว้ก่อนหน้านี้ได้อย่างมีประสิทธิภาพ
- เมื่อข้อมูลถูกแปลง ข้อมูลจะถูกล้างจากความผิดปกติและความไม่สอดคล้องกันทั้งหมด เป็นสิ่งสำคัญเนื่องจากข้อมูลนี้จะถูกวิเคราะห์เพิ่มเติมโดย Data Scientist และการวิเคราะห์ของเขาจะดีพอๆ กับข้อมูลที่เขาได้รับเท่านั้น
Big Data Engineering เป็นสาขาที่ค่อนข้างใหม่กว่าและมีโอกาสเพิ่มขึ้นทุกวัน วิศวกร Big Data เป็นผู้เชี่ยวชาญในทักษะที่เราได้พูดคุยกันก่อนหน้านี้ อย่างไรก็ตาม ไม่ใช่วิศวกร Big Data ทุกคนที่รู้ทักษะเหล่านี้ทั้งหมด ทุกบทบาทมีความแตกต่างกัน ดังนั้นบางคนจึงอาจต้องการความรู้เฉพาะด้านในด้านใดด้านหนึ่งมากกว่าส่วนอื่นๆ อย่างไรก็ตาม สำหรับผู้เชี่ยวชาญในทักษะเหล่านี้ มักจะไม่ท้าทายเกินไปที่จะแปลทักษะเหล่านั้นไปยังด้านอื่นๆ ตอนนี้เราอยู่ในหน้าเดียวกันเกี่ยวกับความรับผิดชอบและงานของวิศวกรข้อมูลขนาดใหญ่
นักวิทยาศาสตร์ข้อมูล: ตำนานกับความเป็นจริงก้าวไปอีกขั้นและไขตำนานที่แพร่หลายเกี่ยวกับชีวิต งาน และคุณสมบัติของพวกเขา:
ตำนาน #1: วันปกติของนักวิทยาศาสตร์ข้อมูลและวิศวกรข้อมูลขนาดใหญ่ไม่แตกต่างกันมากนัก
ถ้าคุณได้ติดตามซีรีส์ของเรา คุณจะรู้ดีขึ้น นักวิทยาศาสตร์ข้อมูลคือผู้ที่ค้นหาแนวโน้ม ความหมาย และรูปแบบในข้อมูล และพยายามกำหนดข้อมูลเชิงลึกที่นำไปปฏิบัติได้จริง ซึ่งช่วยปรับปรุงการทำงานขององค์กร ในทางกลับกัน วิศวกรบิ๊กดาต้า เห็นได้ชัดว่าทำงานกับข้อมูลก่อนที่จะวิเคราะห์ เขามีหน้าที่รับผิดชอบในการทำความสะอาดข้อมูลและนำเสนอต่อนักวิทยาศาสตร์ข้อมูลในรูปแบบที่บริสุทธิ์ที่สุด

ตำนาน #2: วิศวกร Big Data มีค่ามากกว่านักวิทยาศาสตร์ข้อมูล (หรือในทางกลับกัน)
บทบาทงานทั้งสองนี้มีความสำคัญต่อการทำงานขององค์กร หากไม่มีวิศวกรบิ๊กดาต้าที่มีประสิทธิภาพ นักวิทยาศาสตร์ด้านข้อมูลจะประสบปัญหาในการให้ผลลัพธ์ที่ดี ในทำนองเดียวกัน หากไม่มีผู้เชี่ยวชาญด้าน Data Scientist องค์กรจะไม่มีทางรู้ว่าจะทำอย่างไรกับข้อมูลของตน ดังนั้นเราจึงไม่สามารถจัดตำแหน่งงานเหล่านี้ตามความสำคัญ เนื่องจากท้ายที่สุดแล้ว โปรไฟล์ทั้งสองนี้เป็นเสาหลักของทีมวิทยาศาสตร์ข้อมูลที่ประสบความสำเร็จ
การประยุกต์ใช้ Big Data ใน Pop-Cultureตำนาน #3: วิศวกรข้อมูลขนาดใหญ่จำเป็นเฉพาะในธุรกิจขนาดใหญ่เท่านั้น
เช่นเดียวกับที่เรากล่าวไว้ก่อนหน้านี้ หากองค์กรของคุณเกี่ยวข้องกับ Big Data คุณต้องมีวิศวกร Big Data ทุกวันนี้ องค์กรไม่ว่าจะเล็กหรือใหญ่ มีข้อมูลลูกค้าเป็นเทราไบต์ ไม่มีบริษัทใด โดยไม่คำนึงถึงโดเมนของพวกเขา ที่ไม่สามารถปรับปรุงฟังก์ชันการทำงานด้วยการทำความเข้าใจบิ๊กดาต้าของตนได้ เนื่องจากเครื่องมือและเทคโนโลยีรอบ ๆ บิ๊กดาต้ามีราคาถูกลงและเข้าถึงได้มากขึ้น SMEs จำนวนมากขึ้นเรื่อยๆ กำลังใช้เส้นทางบิ๊กดาต้าและแต่งตั้งวิศวกรและนักวิทยาศาสตร์บิ๊กดาต้าเพื่อช่วยให้พวกเขานำหน้าอยู่เสมอ

ตำนาน #4: วิศวกรข้อมูลขนาดใหญ่ต้องเป็นโปรแกรมเมอร์ผู้เชี่ยวชาญ
วิศวกร Big Data ต้องเป็นผู้เชี่ยวชาญในการจัดการข้อมูลมากกว่าการเขียนโปรแกรมหลัก บ่อยครั้งคุณจะพบว่าวิศวกร Big Data ทำงานกับไลบรารีหรือเฟรมเวิร์กที่เหมาะกับกรณีของพวกเขา สิ่งเหล่านี้มาแบบสำเร็จรูปและใช้สำหรับการเขียนโปรแกรมยกของหนักเป็นส่วนใหญ่ ยังคงแนะนำว่าวิศวกร Big Data มีความเข้าใจที่ชัดเจนเกี่ยวกับพื้นฐานของการเขียนโปรแกรม สิ่งนี้จะช่วยให้พวกเขาปรับแต่ง/แก้ไขอัลกอริทึม/เฟรมเวิร์ก/ไลบรารีใดๆ ขึ้นอยู่กับกรณีการใช้งานเฉพาะของพวกเขา นอกจากนี้ จำเป็นต้องมีความรู้เกี่ยวกับภาษาสคริปต์ เนื่องจากวิศวกรข้อมูลขนาดใหญ่เหล่านี้มีหน้าที่ในการดึงข้อมูลจากโกดังและทำความสะอาดซึ่งจำเป็นต้องเขียนสคริปต์
ความเชื่อผิดๆ #5: จำเป็นต้องมีวิศวกร Big Data ในบริษัทเทคโนโลยีเท่านั้น
ทุกวันนี้ องค์กรต่างๆ ใช้ข้อมูลเพื่อทุกสิ่ง รวมถึงการกำหนดเป้าหมายลูกค้าให้ดีขึ้น ข้อมูลเชิงลึกโดยละเอียดเกี่ยวกับข้อมูลลูกค้าช่วยให้องค์กรสามารถจัดทำแคมเปญการตลาดที่ประสบความสำเร็จได้ วิศวกรข้อมูลขนาดใหญ่จำเป็นสำหรับองค์กรทั้งด้านเทคโนโลยีและที่ไม่ใช่เทคโนโลยี เกือบทุกองค์กรสามารถทำงานได้ดีขึ้นและมีประสิทธิภาพมากขึ้นหากพวกเขาเข้าถึงข้อมูลที่ถูกต้อง
Big Data: ต้องรู้จักเครื่องมือและเทคโนโลยี
ห่อ
ด้วยเหตุนี้เราจึงมาถึงจุดสิ้นสุดของตำนานมือปราบของเราในวันนี้ คอยติดตามและเราจะกลับมาพร้อมกับ Mythbusters เพิ่มเติม โปรดแจ้งให้เราทราบหากคุณพบตำนานดังกล่าวที่ต้องจัดการ!
หากคุณสนใจที่จะทราบข้อมูลเพิ่มเติมเกี่ยวกับ Big Data โปรดดูที่ PG Diploma in Software Development Specialization in Big Data program ซึ่งออกแบบมาสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 7 กรณี ครอบคลุมภาษาและเครื่องมือในการเขียนโปรแกรม 14 รายการ เวิร์กช็อป ความช่วยเหลือด้านการเรียนรู้และจัดหางานอย่างเข้มงวดมากกว่า 400 ชั่วโมงกับบริษัทชั้นนำ
เรียนรู้ หลักสูตรการพัฒนาซอฟต์แวร์ ออนไลน์จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

