นักวิทยาศาสตร์ข้อมูล: ตำนานกับความเป็นจริง
เผยแพร่แล้ว: 2018-04-05สิ่งที่ได้รับโมเมนตัมอย่างรวดเร็วมักจะเป็นสิ่งที่ทุกคนพูดถึง และยิ่งมีคนพูดถึงบางสิ่งมากขึ้น ความเข้าใจผิดและตำนานก็กองพะเนินเทินทึกมากขึ้น วิทยาศาสตร์ข้อมูลและการวิเคราะห์เป็นหนึ่งในโดเมนดังกล่าวที่มีเพิ่มขึ้นอย่างต่อเนื่อง และด้วยเหตุนี้ จึงมีตำนานที่เกี่ยวข้องจำนวนมากขึ้นเรื่อยๆ
วันนี้ เราจะมาเปิดโปงความเชื่อผิดๆ เกี่ยวกับชีวิตและผลงานของนักวิทยาศาสตร์ด้านข้อมูล แต่ก่อนที่เราจะพูดถึงเรื่องนั้น ก่อนอื่นเรามาทำความเข้าใจกับชีวิตประจำวันของนักวิทยาศาสตร์ข้อมูลกันก่อน
องค์กรมีข้อมูลจำนวนมากที่พวกเขาเก็บรวบรวมในช่วงเวลาหนึ่งจากแหล่งต่างๆ และในรูปแบบต่างๆ ตอนนี้พวกเขาได้ตัดสินใจที่จะทำอะไรกับมัน พวกเขาต้องการทำให้ข้อมูลของพวกเขานับ พวกเขาหันไปหาใคร?
นักวิทยาศาสตร์ข้อมูล!
ใช่ นักวิทยาศาสตร์ข้อมูลซึ่งคนส่วนใหญ่สับสนว่าเป็นสิ่งมีชีวิตเหนือธรรมชาติ คนเหล่านี้คือหัวใจและจิตวิญญาณของทีมวิเคราะห์ข้อมูลขององค์กร พวกเขาดำรงตำแหน่งสำคัญและถึงแม้มันอาจจะทำให้คุณประหลาดใจ แต่วันปกติของพวกเขาก็เหมือนกับวันธรรมดาของพนักงานปกขาวคนอื่นๆ
สารบัญ
การประชุม การประชุม และการประชุมอื่น ๆ !
นักวิทยาศาสตร์ด้านข้อมูลต้องเข้าร่วมการประชุม ส่วนใหญ่ในแต่ละวัน เพื่อรวบรวมความต้องการ หารือเกี่ยวกับงานที่ทำสำเร็จ และวางแผนงานของวันนั้น นอกจากนี้ยังมีการประชุมภายในที่มีความสำคัญต่อเป้าหมายขององค์กรและเอาชนะปัญหาทางธุรกิจ โดยรวมแล้ว จุดประสงค์ของการประชุมเหล่านี้คือเพื่อให้ได้แนวคิดที่ชัดเจนขึ้นเกี่ยวกับปัญหาที่เกิดขึ้น และทำให้แน่ใจว่าทุกคนในองค์กรมองไปข้างหน้า
กลั่นกรองข้อมูลและทำให้บริสุทธิ์!
ส่วนหนึ่งของวันของพวกเขาไปในการระบุปัญหาในโลกแห่งความเป็นจริงที่องค์กรกำลังเผชิญอยู่และค้นหาวิธีที่จะทำให้ข้อมูลช่วยในการแก้ปัญหาเหล่านั้น ส่วนที่ท้าทายยิ่งกว่านั้นก็มาถึง นั่นคือ การกำหนดประเภทและแหล่งที่มาของข้อมูลที่ต้องการ นักวิทยาศาสตร์ข้อมูลที่มีประสบการณ์จะเลือกข้อมูลจากแหล่งที่เกี่ยวข้องมากที่สุดเสมอ – แหล่งข้อมูลที่มีแนวโน้มว่าจะให้คุณค่า
อย่างไรก็ตาม นี่คือสิ่งที่มาพร้อมกับประสบการณ์และความเชี่ยวชาญ ดังนั้นนักวิทยาศาสตร์ด้านข้อมูลจึงต้องใช้เวลาค่อนข้างมาก
อย่างไรก็ตาม การรวบรวมข้อมูลทำได้เพียงครึ่งเดียว นักวิทยาศาสตร์ข้อมูลยังต้องตรวจสอบให้แน่ใจว่าข้อมูลได้รับการตรวจสอบและทำความสะอาด หากทำงานกับข้อมูลที่ไม่สมบูรณ์ โอกาสในการประสบความสำเร็จจะลดลงอย่างมาก
พื้นฐานพื้นฐานของสถิติสำหรับวิทยาศาสตร์ข้อมูลมาทำมายากลกันเถอะ เราหมายถึงการวิเคราะห์
เมื่อข้อมูลสะอาดหมดจดแล้ว นักวิทยาศาสตร์ข้อมูลจะใช้เวลาที่เหลืออยู่ในการระบุแนวโน้มและรูปแบบจากข้อมูล นี่เป็นอีกแง่มุมหนึ่งที่เป็นปัญหาในงานของนักวิทยาศาสตร์ข้อมูล โดยเฉพาะอย่างยิ่งเนื่องจากไม่มีวิธีการที่กำหนดไว้ในการวิเคราะห์ข้อมูลนี้อย่างมีประสิทธิภาพ บ่อยครั้ง นักวิทยาศาสตร์ข้อมูลต้องการการออกแบบเครื่องมือและอัลกอริธึม หรือปรับแต่งให้เข้ากับเครื่องมือที่มีอยู่ สิ่งนี้ต้องการการเปิดใจและความเต็มใจที่จะทดลอง
สานเรื่อง.
หลังจากวิเคราะห์ชุดข้อมูลแล้ว สิ่งสำคัญที่สุดคือการสร้างภาพข้อมูล นักวิทยาศาสตร์ข้อมูลจำเป็นต้องนำเสนอสิ่งที่ค้นพบต่อหน้าผู้ชมที่ส่วนใหญ่ไม่ใช่เทคโนโลยี เช่นเดียวกับผู้มีส่วนได้ส่วนเสียและนักการตลาดของบริษัท นี่ไม่ใช่งานประจำวันเสมอไป แต่จำเป็นต้องทำบ่อยๆ เพื่อให้สิ่งต่างๆ เคลื่อนไหวได้ ปริมาณงานที่สำคัญของนักวิทยาศาสตร์ข้อมูลในที่นี้เกี่ยวข้องกับการสร้างเทคนิคการแสดงภาพที่ไม่เพียงแต่รวบรวมสาระสำคัญของข้อมูลเท่านั้น แต่ยังนำเสนอทุกอย่างในลักษณะที่น่าพึงพอใจอีกด้วย
บทบาทของนักวิทยาศาสตร์ข้อมูลมีพลวัตอย่างมาก ไม่มีสองวันเหมือนกันสำหรับพวกเขา งานของพวกเขาเกี่ยวข้องกับพวกเขาที่จะมุ่งมั่นและสวมหมวกแห่งความคิดอยู่เสมอ ข้อมูลที่พวกเขาทำงานด้วย ปัญหาที่พวกเขาตั้งใจจะแก้ไข และข้อมูลเชิงลึกที่พวกเขาต้องการค้นหานั้นเปลี่ยนแปลงอยู่ตลอดเวลา นั่นคือสิ่งที่ทำให้บทบาทของนักวิทยาศาสตร์ข้อมูลมีความพิเศษและน่าตื่นเต้น
คู่มือเริ่มต้นสำหรับวิทยาศาสตร์ข้อมูลและการประยุกต์ใช้งานตอนนี้ ให้ก้าวไปข้างหน้าและหักล้างตำนานที่บางครั้งก็ไร้สาระเหล่านี้ให้มากขึ้น: วิดีโอ
วิดีโอยูทูบ
ตำนาน #1: คุณต้องเป็นนักสถิติผู้เชี่ยวชาญที่มี ปริญญาเอก ในสถิติ หรืออย่างน้อยที่สุด คุณต้องมีวุฒิการศึกษาด้านสถิติ
ใช่ การได้รับปริญญาทางสถิติอย่างเป็นทางการจะช่วยให้มั่นใจว่าคุณปฏิบัติตามแนวทางปฏิบัติที่ดีขึ้นในด้านสถิติตั้งแต่วันแรก อย่างไรก็ตาม ให้ม้าของคุณอยู่ที่นั่น ถ้าคุณดูโลกของวิทยาศาสตร์ข้อมูล คุณจะพบผู้คนจาก ภูมิหลังด้านการจัดการ/ไม่ใช่คณิตศาสตร์ มากกว่า "นักวิทยาศาสตร์จรวด" ที่ติดคณิตศาสตร์

ความเชื่อ #2: คุณต้องเป็นโปรแกรมเมอร์ตัวยงจึงจะเก่งด้านวิทยาศาสตร์ข้อมูล ยิ่งฮาร์ดคอร์มากเท่าไหร่ก็ยิ่งดีเท่านั้น
อีกครั้ง เช่นเดียวกับตำนานที่เราพูดคุยกันเมื่อสองสามบรรทัดที่แล้ว สิ่งนี้ก็อิงจากการสันนิษฐานที่ผิดๆ เกี่ยวกับงานของนักวิทยาศาสตร์ข้อมูล ผู้คนคิดว่าการเป็นนักวิทยาศาสตร์ด้านข้อมูลนั้นเกี่ยวข้องกับการเขียนโค้ดและอัลกอริธึม และอื่นๆ แต่ถ้าคุณใส่ใจกับกิจวัตรที่เราได้พูดคุยกันก่อนหน้านี้ คุณจะรู้ว่าไม่มี "การเข้ารหัส" ที่สำคัญที่เกี่ยวข้อง อัลกอริธึมหรือวิธีการส่วนใหญ่พร้อมใช้งานโดยต้องปรับแต่งเพียงเล็กน้อย อย่างไรก็ตาม คุณต้องมีความคิดเชิงตรรกะในการทำเช่นนั้น
เริ่มต้นในวิทยาศาสตร์ข้อมูลด้วย Pythonตำนาน #3: นักวิทยาศาสตร์ด้านข้อมูลไม่ใช่นักวิทยาศาสตร์ในแง่ที่มีความหมายใดๆ ของคำนี้
นักวิทยาศาสตร์ทุกคนเป็นนักวิทยาศาสตร์ข้อมูลโดยปริยาย วิทยาศาสตร์ล้วนมีอยู่ร่วมกับข้อมูลเชิงสังเกตเสมอ หากไม่มีความสามารถในการกลั่นกรอง จัดเรียง โครงสร้าง จำแนก สร้างทฤษฎี และนำเสนอข้อมูล นักวิทยาศาสตร์ไม่สามารถนำความสอดคล้องมาสู่การศึกษาได้ ในทำนองเดียวกัน นักวิทยาศาสตร์ด้านข้อมูลซึ่งไม่ได้เจาะลึกลงไปในหัวใจของข้อมูลก็ไม่สามารถนำเสนอสิ่งที่ค้นพบได้อย่างมีประสิทธิภาพ การควบคุมทางสถิติเป็นพื้นฐานของวิทยาศาสตร์บริสุทธิ์มาโดยตลอด และตอนนี้ การควบคุมเหล่านี้เป็นความรับผิดชอบพื้นฐานของนักวิทยาศาสตร์ข้อมูล ดังนั้น หากนักวิทยาศาสตร์ข้อมูลสังเกตแนวโน้มและรูปแบบพฤติกรรมของลูกค้าขององค์กร และยืนยันสิ่งที่ค้นพบโดยใช้สถิติและการทดลองในโลกแห่งความเป็นจริง พวกเขาเป็นนักวิทยาศาสตร์ที่ธรรมดาและเรียบง่าย
ความเชื่อที่ #4: นักวิทยาศาสตร์ด้านข้อมูลทำงานกับเครื่องมือทางสถิติที่มีราคาแพงและซับซ้อนเพื่อให้งานสำเร็จลุล่วง
โดยพื้นฐานแล้ว งานของนักวิทยาศาสตร์ข้อมูลต้องการให้พวกเขาค้นหาแนวโน้มและรูปแบบที่ซ่อนอยู่ในชุดข้อมูลกว้างๆ สำหรับสิ่งนั้น พวกเขาสามารถใช้เครื่องมือสร้างภาพที่เป็นมิตรต่อผู้ใช้ เครื่องมือข่าวกรองธุรกิจที่ขับเคลื่อนด้วยการค้นหาด้วยตนเอง เครื่องมือสำรวจข้อมูลเชิงโต้ตอบ หรือแม้แต่เครื่องมือง่ายๆ ที่ไม่ต้องการความเชี่ยวชาญทางสถิติมากนัก นักวิเคราะห์ธุรกิจจำนวนมากทั่วโลกสามารถค้นหาข้อมูลเชิงลึกที่ลึกซึ้งได้ แม้กระทั่งจากการสร้างแบบจำลองคุณลักษณะในแอปพลิเคชันสเปรดชีตหลัก
ความเชื่อผิดๆ #5: วิทยาศาสตร์ข้อมูลเป็นเรื่องของการป้อนข้อมูลลงในคลัสเตอร์ Hadoop และการใช้ MapReduce เรียบง่าย!
ถ้าผู้คนพยายามสำรวจก่อนที่จะเผยแพร่ตำนาน เราคงไม่มาที่นี่ หากคุณพูดคุยกับนักวิทยาศาสตร์ด้านข้อมูล คุณจะพบว่าวิทยาศาสตร์ข้อมูลและการวิเคราะห์มีมากกว่า Hadoop และ MapReduce ทั้งสองนี้เป็นเพียงสอง เครื่องมือที่ มีอยู่ มากมาย โครงการวิทยาศาสตร์ข้อมูลที่ประสบความสำเร็จมักใช้อาร์เรย์ของเครื่องมือในขั้นตอนต่างๆ ดังนั้น นักวิทยาศาสตร์ข้อมูลจึงถูกคาดหวังให้อยู่เหนือความก้าวหน้าทางเทคโนโลยีที่สำคัญใดๆ ที่เกิดขึ้นในโดเมนนี้ เพื่อทำการเปลี่ยนเครื่องมือหรือเทคโนโลยีที่เหมาะสมเมื่อใดก็ตามที่จำเป็น เมื่อพูดถึง Data Science รองเท้าเพียงข้างเดียวไม่เหมาะกับทุกคน และไม่มีกระดาน Ouija วิเศษที่จะทำให้จิตวิญญาณของ Data Science พูดคุยกับมนุษย์ปุถุชนได้
ขั้นตอนสำคัญในการเรียนรู้วิทยาศาสตร์ข้อมูล เชื่อฉันเถอะว่าฉันพยายามแล้วเราหวังว่าคุณจะสนุกกับการขยายวิสัยทัศน์ของคุณ! อยู่กับเรา; เราจะกลับมาพร้อมกับ Mythbusters แบบนี้อีก
เป็นปริญญาเอก จำเป็นต้องเป็น Data Scientist หรือไม่?
เรามาแบ่งบทบาทของ Data Scientist ออกเป็นสองส่วนเพื่อให้เข้าใจสิ่งนี้ได้ดีขึ้น:
1. บทบาทของ Applied Data Science - การทำงานกับอัลกอริธึมปัจจุบันและการทำความเข้าใจวิธีทำงานคือจุดสนใจหลักของ Applied Data Science กล่าวอีกนัยหนึ่งก็คือ การนำวิธีการเหล่านี้มารวมเข้ากับโครงการของคุณ คนส่วนใหญ่ที่เกี่ยวข้องกับอาชีพ Data Science อยู่ในหมวดหมู่นี้ ตำแหน่งงานว่างและรายละเอียดงานส่วนใหญ่มักปรากฏให้เห็นในบทบาทนี้
2. บทบาทการวิจัย – หากคุณมีความสนใจในบทบาทการวิจัยคุณอาจต้องใช้ปริญญาเอก บทบาทการวิจัยใน Data Science รวมถึงการสร้างอัลกอริธึมใหม่ตั้งแต่ต้น การค้นคว้าวิจัย การเขียนรายงานทางวิทยาศาสตร์ ฯลฯ
ปัญญาประดิษฐ์จะเข้ามาแทนที่นักวิทยาศาสตร์ข้อมูลในอนาคตอันใกล้นี้หรือไม่?
ในการวิวัฒนาการของ Data Science มีความเป็นไปได้ที่จะบอกว่าในที่สุดปัญญาประดิษฐ์จะเข้ามาแทนที่การดำเนินการของ Data Scientists ด้วยตนเอง อย่างไรก็ตาม คอมพิวเตอร์ไม่สามารถตัดสินใจเองได้ว่าจะล้างข้อมูล พัฒนาแบบจำลองที่มีประสิทธิภาพ ทำงานกับความถูกต้องของแบบจำลอง และอื่นๆ การเลือกเหล่านี้ทำโดยบุคคลที่มีคุณสมบัติที่จำเป็น แม้ว่ากำลังพยายามริเริ่มเพื่อพัฒนาอัลกอริธึมขั้นสูงขึ้นโดยหวังว่าจะลดความต้องการนักวิทยาศาสตร์ข้อมูลลง แต่ก็ไม่น่าจะเกิดขึ้นเร็ว ๆ นี้ แม้จะมีอัลกอริธึมที่ล้ำหน้าที่สุด การรักษาให้บริษัททำงานได้ยังคงต้องการใครสักคนที่มีวิจารณญาณที่ดีและมีความรู้เกี่ยวกับโดเมน
ฉันสามารถเป็นนักวิทยาศาสตร์ข้อมูลเพียงแค่เชี่ยวชาญเครื่องมือ Data Science ได้หรือไม่
เป็นความเข้าใจผิดที่แพร่หลายว่าการรู้วิธีใช้เครื่องมือทางสถิติและไลบรารีทำให้คุณมีคุณสมบัติเป็นนักวิทยาศาสตร์ด้านข้อมูล การทำงานกับเครื่องมือเหล่านี้จะช่วยให้คุณเข้าใจเครื่องมือเหล่านี้ได้ดีขึ้น แต่วิทยาศาสตร์ข้อมูลเป็นชุดทักษะที่รวมความสามารถที่หลากหลาย การเรียนรู้เกี่ยวกับเครื่องมือที่เข้ากันได้เป็นเพียงแง่มุมหนึ่งของกระบวนการ นอกจากการรู้จักเครื่องมืออย่าง Python หรือ R แล้ว ทักษะต่างๆ เช่น การแก้ปัญหา การทำความเข้าใจแนวคิดอย่างละเอียด และข้อมูลเกี่ยวกับแอปพลิเคชันที่ถูกต้องซึ่งจำเป็นสำหรับปัญหาทางธุรกิจก็มีความสำคัญเช่นกัน