เรียนรู้วิทยาศาสตร์ข้อมูล - คู่มือขั้นสูงในการเป็นนักวิทยาศาสตร์ข้อมูล

เผยแพร่แล้ว: 2019-07-04

การเกิดขึ้นของ Big Data ได้ให้กำเนิดหนึ่งในอาชีพที่ร่ำรวยที่สุดแห่งศตวรรษที่ 21 นั่นคือ Data Scientist คำว่า 'นักวิทยาศาสตร์ข้อมูล' เป็นหัวข้อข่าวมาระยะหนึ่งแล้ว

อันที่จริง Data Scientist เป็นหนึ่งในตำแหน่งงาน 3 อันดับแรกใน LinkedIn

ข้อเท็จจริงข้างต้นพูดถึงปริมาณมากเพื่อเสริมความแข็งแกร่งให้กับความจริงที่ว่าผู้เชี่ยวชาญจากภูมิหลังที่หลากหลาย – คณิตศาสตร์, คอมพิวเตอร์, การจัดการ, สถิติ – กำลังมองหาที่จะใช้ประโยชน์จากโอกาสนี้ให้เกิดประโยชน์สูงสุด

แต่เช่นเดียวกับทุกๆ อย่างที่ถูกโยนทิ้งไป คำว่า 'Data Science' และงานของ Data Scientist นั้นส่วนใหญ่คลุมเครือ ดังนั้น ก่อนที่เราจะพูดถึงหัวข้อในมือ เรามาดูกันดีกว่าว่า Data Scientist ทำอะไร

สารบัญ

- Data Scientist ทำอะไร
- จะเป็น Data Scientist ได้อย่างไร – เส้นทางการเรียนรู้

คำว่า Deep Learning และ Machine Learning ต่างกันไหม?
การประมวลผลภาษาธรรมชาติ (NLP) มีความสำคัญในวิทยาศาสตร์ข้อมูลหรือไม่
ผลงานด้านวิทยาศาสตร์ข้อมูลควรมีอะไรบ้าง?

Data Scientist ทำอะไร

พูดง่ายๆ ก็คือ Data Scientist เป็นผู้เชี่ยวชาญมืออาชีพที่เกี่ยวข้องกับ Big Data อย่างกว้างขวาง นักวิทยาศาสตร์ข้อมูลใช้การผสมผสานระหว่างการเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ สถิติ และเครื่องมือวิเคราะห์เพื่อดึงข้อมูลที่มีความหมายจากชุดข้อมูลขนาดใหญ่ ต่างจากเมื่อก่อน เมื่อชุดข้อมูลมีโครงสร้างเป็นส่วนใหญ่ ข้อมูลที่เรามีอยู่ในปัจจุบันนั้นส่วนใหญ่ไม่มีโครงสร้าง โดยธรรมชาติแล้ว Data Scientists จะใช้เวลาอย่างมากในการรวบรวม ทำความสะอาด และแปลงข้อมูลเพื่อให้สามารถวิเคราะห์และตีความข้อมูลได้

บทบาทงานของ Data Scientist เกี่ยวข้องกับการผสมผสานทักษะทางคณิตศาสตร์ สถิติ การวิเคราะห์ และการเขียนโปรแกรม ในวันทำงานปกติ Data Scientist จะมีบทบาทที่หลากหลายตลอดทั้งวัน ตั้งแต่การเป็นวิศวกรซอฟต์แวร์และผู้ขุดข้อมูล ไปจนถึงนักวิเคราะห์ข้อมูลและเครื่องมือแก้ปัญหา นักวิทยาศาสตร์ข้อมูลยังทำหน้าที่เป็นตัวเชื่อมการสื่อสารที่สำคัญระหว่างไอที และโดเมนธุรกิจขององค์กรที่ขับเคลื่อนด้วยข้อมูล เป็นนักวิทยาศาสตร์ข้อมูลที่ช่วยนักวิเคราะห์ธุรกิจให้ใช้ข้อมูลที่ตีความในรูปแบบที่สามารถเพิ่มประสิทธิภาพผลประโยชน์ทางธุรกิจได้

เพื่อความชัดเจน Data Scientists ช่วยให้บริษัทต่างๆ จัดการและตีความข้อมูลเพื่อแก้ปัญหาทางธุรกิจที่ซับซ้อน

หากคุณสามารถนึกภาพตัวเองจัดการกับ Big Data และทำหน้าที่ที่หลากหลายดังกล่าวได้ในอนาคต งานของ Data Scientist คืองานระดับมืออาชีพของคุณ! อย่างไรก็ตาม ในการเป็น Data Scientist ก่อนอื่นคุณต้องได้รับทักษะที่จำเป็นซึ่งมีอยู่ในอาชีพนี้

เช่นเดียวกับที่เรากล่าวไว้ก่อนหน้านี้ Data Science ต้องการทักษะเฉพาะ ดังนั้น ในการเป็น Data Scientist คุณต้องมีทักษะดังต่อไปนี้:

ไหวพริบในการเขียนโปรแกรม

ในการเป็น Data Scientist กฎข้อแรกคือการมีความสามารถที่ไร้ที่ติในการเขียนโปรแกรม ดังนั้น คุณจะต้องมีความรู้ที่ดีเกี่ยวกับภาษาการเขียนโปรแกรมเชิงสถิติทั้งภาษา Python หรือ R หรือ Java และภาษาการสืบค้นฐานข้อมูล เช่น SQL, CQL และอื่นๆ บริษัทต่างๆ ก็เช่นกัน มองหาผู้สมัครที่ควบคุมภาษาโปรแกรมอย่างน้อยสองภาษาหรือมากกว่าสองภาษา

ความรู้เกี่ยวกับแคลคูลัสหลายตัวแปรและพีชคณิตเชิงเส้น

คุณอาจสงสัยว่าทำไม Data Scientist ถึงต้องเชี่ยวชาญเรื่อง Multivariable Calculus & Linear Algebra เป็นเพราะการมีความเข้าใจอย่างถ่องแท้เกี่ยวกับ Multivariable Calculus & Linear Algebra นั้นมีประโยชน์อย่างมากสำหรับองค์กรที่ขับเคลื่อนด้วยข้อมูล ซึ่งแม้แต่การเปลี่ยนแปลงเล็กน้อย/ปรับปรุงในการเพิ่มประสิทธิภาพอัลกอริธึมก็สามารถมอบโอกาสทางธุรกิจที่แปลกใหม่ได้

ทำความคุ้นเคยกับพื้นฐานของสถิติ

งานส่วนใหญ่ของ Data Scientist จำเป็นต้องมีการจัดการด้านสถิติ นักวิทยาศาสตร์ข้อมูลที่ต้องการทุกคนจะต้องมีความรู้เชิงลึกเกี่ยวกับแนวคิดทางสถิติ เช่น สถิติพรรณนา (ค่าเฉลี่ย ค่ามัธยฐาน ช่วง ส่วนเบี่ยงเบนมาตรฐาน ฯลฯ) ทฤษฎีความน่าจะเป็น ทฤษฎีบทเบย์ การวิเคราะห์ข้อมูลเชิงสำรวจ เปอร์เซ็นไทล์และค่าผิดปกติ ตัวแปรสุ่ม ฟังก์ชันการกระจายสะสม (CDF) เพื่อชื่อไม่กี่ ยิ่งคุณเข้าใจแนวคิดเหล่านี้ดีเท่าไร คุณก็จะสามารถคาดการณ์ความถูกต้องของแนวทางทางสถิติได้ดียิ่งขึ้น

ความเข้าใจเรื่องปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่อง (ML)

AI และ ML กินสองส่วนสำคัญของ Data Science และด้วยเหตุนี้ ความเชี่ยวชาญในด้านเหล่านี้จึงเป็นสิ่งจำเป็น น่าแปลกที่ Data Scientist มีไม่มากที่เชี่ยวชาญในแนวคิดและเทคนิค AI และ ML ดังนั้น หากคุณต้องการนำหน้าคู่แข่ง คุณควรทำความเข้าใจแนวคิด AI และ ML รวมถึง Supervised ML, Unsupervised ML, Reinforcement Learning, Natural Language Processing (NLP), Recommendation engine, Outlier detection และ Survival analysis สิ่งอื่น ๆ. นอกจากนี้ หากคุณเชี่ยวชาญเทคนิค ML เช่น แผนผังการตัดสินใจ การถดถอยโลจิสติก k หมายถึงการจัดกลุ่ม อัลกอริธึมตัวแยกประเภท Naive Bayes เป็นต้น คุณสามารถแก้ปัญหา Data Science ได้มากมาย

ความสนใจในการโต้แย้งข้อมูล

นักวิทยาศาสตร์ข้อมูลมักจะจัดการกับชุดข้อมูลขนาดใหญ่ที่ไม่มีโครงสร้าง/กึ่งมีโครงสร้าง ซึ่งเพิ่มขึ้นเรื่อยๆ ทุกนาทีเท่านั้น ด้วยเหตุนี้ พวกเขาจึงต้องใช้ความพยายามอย่างมากในการจัดระเบียบและทำความสะอาดชุดข้อมูลที่ยุ่งเหยิงและซับซ้อน เพื่อให้สามารถวิเคราะห์และตีความได้ง่าย กระบวนการนี้เรียกว่า Data Wrangling สิ่งที่นักวิทยาศาสตร์ข้อมูลทำคือ พวกเขาแปลงด้วยตนเองหรือแมปข้อมูลจากรูปแบบดิบหนึ่งไปเป็นอีกรูปแบบหนึ่งที่สะดวกยิ่งขึ้น เพื่อให้ง่ายต่อการจัดระเบียบข้อมูลและเหมาะสมสำหรับการตีความและวิเคราะห์ ดังนั้น ในฐานะ Data Scientist ที่มีความทะเยอทะยาน คุณต้องรู้วิธีจัดการกับความไม่สมบูรณ์และข้อบกพร่องของข้อมูล

ความรู้เกี่ยวกับการแสดงข้อมูล

สำหรับมืออาชีพที่จัดการด้านธุรกิจของบริษัท เป็นการยากที่จะทำความเข้าใจข้อมูลดิบ นี่คือจุดที่นักวิทยาศาสตร์ข้อมูลทำหน้าที่เป็นตัวเชื่อมที่สำคัญระหว่างไอทีและปีกธุรกิจ หลังจากวิเคราะห์และตีความข้อมูลแล้ว Data Scientists จะแสดงภาพข้อมูลด้วยความช่วยเหลือของเครื่องมือสร้างภาพข้อมูล เช่น Tableau, Matplottlib, ggplot และ d3.js นอกจากนี้ พวกเขายังสื่อสารสิ่งที่ค้นพบกับทั้งเจ้าหน้าที่ด้านเทคนิคและที่ไม่ใช่ฝ่ายเทคนิค เพื่อความสะดวกในการทำความเข้าใจ ด้วยการแสดงข้อมูลด้วยภาพ สมาชิกที่ไม่ใช่ฝ่ายเทคนิคจะเข้าใจได้ง่ายขึ้นว่าพวกเขาจะใช้ข้อมูลเชิงลึกเพื่อเพิ่มประสิทธิภาพการดำเนินธุรกิจและนำหน้าบริษัทคู่แข่งของตนไปก้าวหนึ่งได้อย่างไร

ความรู้สึกของข้อมูลปรีชา

นอกจากจะเป็นเครื่องมือในชีวิตประจำวันที่มีประโยชน์อย่างยิ่งสำหรับ Data Scientists แล้ว Data Intuition ยังเป็นส่วนสำคัญของการสัมภาษณ์งานอีกด้วย ในระหว่างการสัมภาษณ์ นายจ้างจะทดสอบความสามารถทั้งหมดของคุณ ซึ่งรวมถึงความสามารถในการเข้าใจแนวคิดที่เกี่ยวข้องกับ Data Science ด้วยสัญชาตญาณ นี่คือสิ่งที่เราเรียกว่า 'ข้อมูลปรีชาญาณ' แม้ว่าคุณจะต้องมีทักษะทางคณิตศาสตร์ สถิติ และการแสดงภาพที่แข็งแกร่ง คุณก็ควรจะสามารถกำหนดวิธีการและเทคนิคที่จะใช้ในการแก้ปัญหาเฉพาะได้ เครื่องมือที่จะใช้ และอื่นๆ

เมื่อคุณรู้ทักษะที่จำเป็นในการเป็น Data Scientist แล้ว มาดูขั้นตอนที่จะพาคุณไปที่นั่นกัน!

นักวิทยาศาสตร์ข้อมูล: ตำนานกับความเป็นจริง

จะเป็น Data Scientist ได้อย่างไร – เส้นทางการเรียนรู้

เส้นทางสู่การเป็น Data Scientist ค่อนข้างตรงไปตรงมา มันเริ่มต้นจาก จุดเริ่มต้น มาแนะนำคุณกันเถอะ!

เริ่มต้นมันทั้งหมด

ขั้นตอนแรกเกี่ยวข้องกับการทำความเข้าใจว่า Data Science คืออะไร นอกเหนือจากการเรียนรู้แนวคิดพื้นฐานทั้งหมดของ Data Science แล้ว นี่คือขั้นตอนที่คุณเลือกภาษาการเขียนโปรแกรมภาษาแรกของคุณและทำให้สมบูรณ์แบบ สองสามเดือนแรกจะเกี่ยวข้องกับการเข้ารหัสในภาษาที่คุณเลือก เมื่อคุณเชี่ยวชาญการเขียนโปรแกรมในภาษาใดภาษาหนึ่งแล้ว การเรียนรู้ภาษาโปรแกรมอื่น ๆ จะกลายเป็นเรื่องที่สะดวกสบายมากขึ้น

การเรียนรู้พื้นฐานของคณิตศาสตร์และสถิติ

คณิตศาสตร์และสถิติเป็นรากฐานสำหรับอัลกอริทึม ML โดยปกติ คุณจะต้องเรียนรู้แนวคิดพื้นฐานของคณิตศาสตร์และสถิติ เช่น ค่าเฉลี่ย ค่ามัธยฐาน โหมด ความแปรปรวน ความน่าจะเป็นตามเงื่อนไข การทดสอบสมมติฐาน พีชคณิตเชิงเส้น แคลคูลัส สถิติเชิงพรรณนา และสถิติอนุมาน และอื่นๆ

การเรียนรู้แนวคิด ML และการประยุกต์ใช้งาน

หลังจากเชี่ยวชาญแนวคิดทางคณิตศาสตร์และสถิติแล้ว ก็ถึงเวลาที่จะก้าวไปสู่พื้นที่ขั้นสูงมากขึ้น นั่นคือการเรียนรู้ของเครื่อง อัลกอริธึม ML พบแอปพลิเคชันในสถานการณ์จริงมากมาย ตั้งแต่การตรวจจับการฉ้อโกงและเครื่องมือแนะนำไปจนถึงการวิเคราะห์ความคิดเห็นของลูกค้า นอกเหนือจากแนวคิดที่กล่าวถึงก่อนหน้านี้ คุณจะต้องเรียนรู้เกี่ยวกับ Deep Learning, Artificial Neural Networks, Inductive Learning เป็นต้น เมื่อคุณเข้าใจแนวคิด ML เหล่านี้อย่างค่อยเป็นค่อยไป คุณจะต้องทดลองกับแนวคิดเหล่านี้จริง- โมเดลโลกผ่านกลยุทธ์การตรวจสอบต่างๆ

การเรียนรู้เชิงลึกเบื้องต้น

ชุดย่อยของ ML หรือ Deep Learning เกี่ยวข้องกับอัลกอริทึมที่ดึงแรงบันดาลใจจากโครงสร้างและหน้าที่ของโครงข่ายประสาทเทียมที่มีลักษณะคล้ายสมอง ตาข่ายประสาทเทียมเหล่านี้เลียนแบบการทำงานของสมองมนุษย์ โมเดลการเรียนรู้เชิงลึกมีอย่างน้อยสามชั้นซึ่งแต่ละชั้นจะได้รับข้อมูลจากชั้นก่อนหน้าและส่งต่อไปยังชั้นถัดไป คุณต้องเข้าใจการทำงานของ Deep Learning อย่างถ่องแท้ และเพื่อที่จะเข้าใจมัน คุณจะต้องรอบรู้ในการถดถอยเชิงเส้นและลอจิสติกส์

สถาปัตยกรรมการเรียนรู้เชิงลึก

หลังจากได้รับ Deep Learning แล้ว คุณต้องลงลึกเพื่อเรียนรู้เกี่ยวกับสถาปัตยกรรม Deep Learning ขั้นสูง เช่น AlexNet, GoogleNet, recurrent neural networks (RNN) convolutional neural networks (CNN), Region-based CNN (RCNN), SegNet, generative adversarial network (GAN) เป็นต้น เนื่องจากแนวคิดเหล่านี้เป็นแนวคิดที่ค่อนข้างหนักหน่วง คุณจึงต้องอุทิศเวลาสองสามสัปดาห์เพียงเพื่อทำความเข้าใจการทำงานของมัน

วิสัยทัศน์คอมพิวเตอร์

Computer Vision (CV) เป็นโดเมนของการศึกษาทางวิทยาศาสตร์ที่พยายามค้นหาวิธีการและพัฒนาเทคนิคที่จะช่วยให้คอมพิวเตอร์เข้าใจเนื้อหาดิจิทัล เช่น วิดีโอและภาพถ่าย มันเกี่ยวข้องกับ "การได้มา การประมวลผล การวิเคราะห์ และความเข้าใจภาพดิจิทัล" เพื่อให้ได้มาซึ่งข้อมูลเฉพาะทางขั้นสูงจากโลกแห่งความเป็นจริงเพื่อสร้างข้อมูลที่เป็นตัวเลข/สัญลักษณ์เพิ่มเติม ในฐานะที่เป็นหนึ่งในพื้นที่สำรวจที่ร้อนแรงที่สุดในขณะนี้ นักวิทยาศาสตร์ข้อมูลทุกคนที่ต้องการความรู้ที่ดีเกี่ยวกับ Computer Vision

NLP

การประมวลผลภาษาธรรมชาติเป็นองค์ประกอบสำคัญของวิทยาศาสตร์ข้อมูล ดังนั้น Data Scientist ทุกคนจะต้องมีความเข้าใจ NLP และเทคนิคต่างๆ เป็นอย่างดี ในขั้นต้น NLP พยายามที่จะประมวลผล วิเคราะห์ และทำความเข้าใจข้อมูลที่ใช้ภาษาธรรมชาติ (ข้อความ คำพูด ฯลฯ) ผ่านเครื่องมือและอัลกอริทึมที่ซับซ้อน ขณะจัดการกับ NLP คุณจะได้เรียนรู้เกี่ยวกับการดึงข้อมูล (พร้อมกับ Web Scraping) การโต้แย้งข้อความ การรู้จำชื่อเอนทิตี การแท็กคำพูดบางส่วน การแยกวิเคราะห์แบบตื้น การแยกวิเคราะห์การเลือกตั้งและการพึ่งพาอาศัยกัน และการวิเคราะห์อารมณ์และความรู้สึก

สรุปความคิด

ทุกวัน ข้อมูลทั่วโลกเพิ่มขึ้นอย่างต่อเนื่อง และด้วยการขยายขอบเขตสำหรับนวัตกรรมและการสร้างสรรค์ เนื่องจากเทคโนโลยี Big Data และ Data Science ยังคงพัฒนาอย่างต่อเนื่อง กลุ่มงานของ Data Scientists ก็จะเปลี่ยนแปลงไปตามยุคสมัย แล้วคุณจะตามทันได้อย่างไร? โดยการเพิ่มทักษะ Data Science เป็นสาขาแบบไดนามิกที่ยังคงพัฒนาอยู่ ในการเป็น Data Scientist คุณต้องปิดบังความกระหายความรู้และการเรียนรู้อย่างไม่มีเงื่อนไข หากคุณทำเช่นนั้น จะไม่มีอะไรหยุดคุณไม่ให้โดดเด่นในด้าน Data Science

คำว่า Deep Learning และ Machine Learning ต่างกันไหม?

แมชชีนเลิร์นนิงใช้ในแอพมากมายบนโทรศัพท์ของเรา รวมถึงเสิร์ชเอ็นจิ้น ตัวกรองสแปม เว็บไซต์ที่ให้คำแนะนำส่วนบุคคล ซอฟต์แวร์การธนาคารที่ตรวจจับธุรกรรมแปลก ๆ และการรู้จำคำพูด การเรียนรู้เชิงลึกเป็นการเรียนรู้ของเครื่องชนิดหนึ่งที่อัลกอริทึมถูกจัดเป็นชั้นๆ เพื่อสร้าง 'โครงข่ายประสาทเทียม' ที่สามารถเรียนรู้และตัดสินใจได้ด้วยตัวเอง การเรียนรู้เชิงลึกเป็นส่วนย่อยของการเรียนรู้ของเครื่องในทางปฏิบัติ อันที่จริง การเรียนรู้เชิงลึกเป็นการเรียนรู้ของเครื่องประเภทหนึ่งที่ทำงานเหมือนกับการเรียนรู้ของเครื่องแบบดั้งเดิม ด้วยเหตุนี้ ชื่อจึงถูกใช้สลับกันเป็นครั้งคราว แม้ว่าโมเดลแมชชีนเลิร์นนิงอย่างง่ายจะปรับปรุงเมื่อเวลาผ่านไปในทุกงานที่ได้รับ แต่ก็ยังต้องการการดูแลอยู่บ้าง ด้วยการใช้โมเดลการเรียนรู้เชิงลึก อัลกอริธึมสามารถใช้โครงข่ายประสาทเทียมเพื่อประเมินว่าการคาดการณ์ถูกต้องหรือไม่

การประมวลผลภาษาธรรมชาติ (NLP) มีความสำคัญในวิทยาศาสตร์ข้อมูลหรือไม่

ศิลปะและวิทยาศาสตร์ในการรวบรวมข้อมูลจากข้อความและใส่ลงในการคำนวณและอัลกอริธึมเรียกว่าการประมวลผลภาษาธรรมชาติ (NLP) ยังคงเป็นสิ่งที่ต้องมีสำหรับนักวิทยาศาสตร์ด้านข้อมูลทุกคน เนื่องจากมีการแพร่หลายของข้อมูลบนอินเทอร์เน็ตและโซเชียลมีเดีย NLP มีความสำคัญเนื่องจากช่วยแก้ปัญหาความคลุมเครือของภาษา และให้โครงสร้างทางคณิตศาสตร์ที่มีคุณค่าแก่ข้อมูลสำหรับแอปพลิเคชันดาวน์สตรีมที่หลากหลาย เช่น การรู้จำคำพูดและการวิเคราะห์ข้อความ เมื่อต้องเผชิญกับงานวิเคราะห์และสร้างแบบจำลองจากข้อมูลที่เป็นข้อความ จำเป็นต้องทำความคุ้นเคยกับงาน Data Science ขั้นพื้นฐาน

ผลงานด้านวิทยาศาสตร์ข้อมูลควรมีอะไรบ้าง?

พอร์ตโฟลิโอด้านวิทยาศาสตร์ข้อมูลที่แข็งแกร่งมักแสดงความสามารถด้านเทคนิคของผู้สมัคร ความคิดริเริ่มในการพัฒนาหัวข้อการวิจัย ความสามารถในการวิเคราะห์ข้อมูลและสรุปผล ความปรารถนาที่จะทำงานร่วมกับผู้อื่น และความสามารถในการอธิบายผลลัพธ์อย่างชัดเจนแก่ผู้ชมที่ไม่ใช่ด้านเทคนิค โดยทั่วไปผลงานของคุณควรเน้นผลงานที่ดีที่สุดหรือล่าสุดของคุณ แม้ว่าพอร์ตโฟลิโอการวิเคราะห์ข้อมูลมักจะใช้เพื่อแสดงผลงานของคุณ แต่ก็ควรเน้นที่บุคลิกภาพ ความสามารถในการสื่อสาร และแบรนด์ส่วนบุคคลของคุณด้วย