คู่มือเริ่มต้นสำหรับวิทยาศาสตร์ข้อมูลและการประยุกต์ใช้งาน

เผยแพร่แล้ว: 2018-02-24

คำว่า Data, Science หรือ Data Science นั้นไม่เพียงพอต่อการกระตุ้นความรู้สึกกลัวหรือหวาดกลัวในหมู่ผู้อ่าน พูดตามตรง พวกมันน่ารักเกินไปที่จะพูดเกินจริง นับประสาสยดสยอง ไม่เหมือนกับคำต่างๆ เช่น เทสเซลเลชัน ค่าเฉลี่ย k เพื่อนบ้านที่ใกล้ที่สุด k ต้นไม้การขยายขั้นต่ำแบบยุคลิด และอื่นๆ อีกมากเกี่ยวกับคำประเภทนี้ – คำที่คุณ พบกันในการเดินทางของ Data Science
แม้ว่า “วิทยาศาสตร์ข้อมูล” จะไม่ทำให้เกิดความกลัว แต่ก็ไม่ได้อธิบายอะไรเกี่ยวกับภาคสนามด้วย ทุกคนรู้ว่าข้อมูลคืออะไร อย่างน้อยก็ในแง่คนธรรมดา โดยพื้นฐานแล้วข้อมูลเป็นเพียงบิตของข้อมูลดิบ วิทยาศาสตร์สามารถใช้เพื่อหมายถึงกลุ่มของกิจกรรมตามวิธีการทางวิทยาศาสตร์

จากตรรกะนี้ เราสามารถสรุปได้ว่า Data Science เป็นสาขาที่ใช้วิธีการทางวิทยาศาสตร์กับข้อมูลจำนวนมาก แต่เพื่ออะไร? แล้ว Data Science คืออะไร กันแน่ ?
นั่นคือหัวข้อของเราสำหรับการสนทนาในวันนี้ หลังจากอ่านบทความนี้แล้ว คุณจะสามารถตอบคำถามต่อไปนี้ได้:

  • Data Science คืออะไร?
  • ขั้นตอนต่างๆ ของไปป์ไลน์ Data Science มีอะไรบ้าง
  • ฉันจะดู Data Science ในที่ทำงานได้ที่ไหน

สารบัญ

Data Science คืออะไร?

วิกิพีเดีย มารดาของสารานุกรมทั้งหมด กำหนด Data Science เป็นสาขาที่เน้นการดึงความรู้และข้อมูลเชิงลึกจากข้อมูลโดยใช้วิธีการทางวิทยาศาสตร์ อย่างไรก็ตาม สิ่งที่ไม่ได้บอกคุณก็คือ มนุษย์เราเป็นนักวิทยาศาสตร์ด้านข้อมูลโดยกำเนิด ยังไง? มาดูกัน.
คุณกำลังสังเกตโลกรอบตัวคุณไม่ว่าคุณจะทำอะไร ทุกช่วงเวลาที่ตื่นขึ้น คุณกำลังรับรายละเอียดจากสิ่งรอบตัวและป้อนเข้าสู่สมองของคุณ จากนั้นคุณประมวลผลการสังเกตเหล่านี้เป็นข้อมูลและใช้เพื่อทำความเข้าใจสิ่งต่าง ๆ รอบตัวคุณโดยค้นหาความหมายและคาดการณ์สิ่งที่น่าจะเกิดขึ้นต่อไป

เมื่อคุณออกไปทำงานสายเป็นชั่วโมง คุณโทรมาบอกว่าคุณจะทำงานจากที่บ้าน คุณกำลังใช้การสังเกตการจราจรและการหยุดรถในอดีตของคุณในลักษณะที่ทำให้คุณสรุปได้ว่าคุณมีแนวโน้มที่จะเสียเวลาติดอยู่กับการจราจรมากกว่าที่คุณจะได้รับจากการอยู่ในสำนักงาน เมื่อคุณเข้ามาในห้องของคุณและเห็นกระดาษห่อช็อกโกแลตวางอยู่รอบๆ การวิเคราะห์แบบสบายๆ จะบอกคุณว่ามีใครบางคนกำลังกินช็อกโกแลตของคุณอยู่โดยที่คุณไม่ได้อยู่
บทบาทการวิเคราะห์ข้อมูล 4 อันดับแรกที่ควรระวัง

ในกรณีใดกรณีหนึ่งที่กล่าวถึง ถ้าคุณทำการคำนวณและคาดการณ์เหล่านี้ในใจโดยไม่ได้สังเกต แสดงว่าคุณเป็นมนุษย์ธรรมดา ในทางกลับกัน หากคุณบันทึกจุดข้อมูลเหล่านี้ (แน่นอนว่าอยู่ในรูปแบบที่เครื่องอ่านได้) จากนั้นให้ลองสร้างอัลกอริทึม (หรือขั้นตอน) และโปรแกรมคอมพิวเตอร์เพื่อเรียกใช้แอปพลิเคชัน หากผลลัพธ์ของระบบ "สมมุติฐาน" นี้คือ "การจราจรกำลังจะติดขัด" หรือ "เพื่อนร่วมห้องของคุณกินช็อคโกแลตของคุณ" แล้วล่ะก็ บิงโก! คุณเป็นนักวิทยาศาสตร์ข้อมูล

เป็นเรื่องง่าย (ในทางทฤษฎี) เนื่องจากการเปรียบเทียบข้างต้นทำให้ฟังดูเข้าใจ ในตอนท้ายของวัน คุณมีข้อมูล ขั้นตอน อัลกอริธึม และเครื่องมือ คุณเพียงแค่ต้องดึงความรู้จากมัน เพื่อให้ทำได้อย่างมีประสิทธิภาพ มีเวิร์กโฟลว์/ไปป์ไลน์ที่คุณต้องปฏิบัติตาม มาดูกันว่ามีอะไรรวมอยู่ใน Data Science Pipeline ทั่วไปบ้าง

ไปป์ไลน์วิทยาศาสตร์ข้อมูล

ไปป์ไลน์วิทยาศาสตร์ข้อมูลพูดถึงการไหลของกระบวนการทั้งหมด ตั้งแต่การรับข้อมูลที่ต้องการ ไปจนถึงการคำนวณและการทำนายที่แม่นยำ มาดูองค์ประกอบของไปป์ไลน์นี้กัน:

ไปป์ไลน์วิทยาศาสตร์ข้อมูล

รับข้อมูลของคุณ

นี่เป็นสิ่งแรกที่คุณต้องทำเพื่อฝึกฝน Data Science – รับข้อมูล! แจ้งให้ทราบล่วงหน้าเล็กน้อย – มีบางสิ่งที่คุณต้องคำนึงถึงในขณะที่รับข้อมูลของคุณ คุณต้องระบุชุดข้อมูลทั้งหมดของคุณก่อน (อาจมาจากอินเทอร์เน็ตหรือฐานข้อมูลภายใน/ภายนอก) จากนั้นคุณควรแยกข้อมูลให้อยู่ในรูปแบบที่ใช้งานได้ (CSV, XML, JSON เป็นต้น)
นี่คือทักษะและเครื่องมือชั้นยอดในการเป็นนักวิเคราะห์ข้อมูล

ทักษะที่จำเป็น

  • การจัดการฐานข้อมูล: SQL หรือ NoSQL ขึ้นอยู่กับความต้องการและข้อกำหนดของคุณ
  • การสืบค้นฐานข้อมูลเหล่านี้
  • การดึงข้อมูลที่ไม่มีโครงสร้างในรูปแบบวิดีโอ ไฟล์เสียง ข้อความ เอกสาร ฯลฯ
  • พื้นที่เก็บข้อมูลแบบกระจาย: Hadoop, Apache Spark หรือ Apache Flink

ขัด / ทำความสะอาดข้อมูลของคุณ

การทำความสะอาดข้อมูลควรให้ความสำคัญสูงสุด เนื่องจากผลลัพธ์สุดท้ายของระบบของคุณจะดีพอๆ กับข้อมูลที่คุณใส่ลงไปเท่านั้น การทำความสะอาดหมายถึงการลบสิ่งผิดปกติ การเติมค่าว่าง/ค่าที่ขาดหายไป การดูว่าข้อมูลมีความสอดคล้องกันหรือไม่ และสิ่งอื่น ๆ ที่มีลักษณะเช่นนี้

ทักษะที่จำเป็น

  • ภาษาสคริปต์: Python, R, SAS
  • เครื่องมือโต้แย้งข้อมูล: Python Pandas, R
  • การประมวลผลแบบกระจาย: Hadoop, MapReduce/Spark

การสำรวจ (การวิเคราะห์ข้อมูลเชิงสำรวจ)

เมื่อข้อมูลสะอาดแล้ว คุณจะเริ่มเข้าใจว่าข้อมูลของคุณมีรูปแบบใดบ้าง การแสดงภาพข้อมูลและแบบจำลองทางสถิติประเภทต่างๆ ถูกนำมาใช้ในระยะนี้ โดยพื้นฐานแล้ว ระยะนี้มีจุดมุ่งหมายเพื่อให้ได้มาซึ่งความหมายที่ซ่อนอยู่จากข้อมูลของเรา
มีหลายสิ่งหลายอย่างที่เกิดขึ้นในด้านการวิเคราะห์ข้อมูลเชิงสำรวจ หากคุณรู้สึกว่าเป็นสิ่งที่คุณจะเพลิดเพลิน อย่าลืมอ่านบทความของเราในเรื่องเดียวกัน
เพื่อให้ทำงานได้ดีขึ้นในระยะนี้ คุณต้องรู้สึกเสียวซ่า คลั่งไคล้และมองหารูปแบบหรือเทรนด์แปลก ๆ - มองหาบางสิ่งที่นอกกรอบเสมอ อย่างไรก็ตาม ในขณะที่ทำอย่างนั้น อย่าลืมปัญหาที่คุณตั้งเป้าว่าจะแก้ไข อย่าไปนอกกรอบมากเกินไป การวิเคราะห์ข้อมูลเชิงสำรวจเป็นงานศิลปะ และศิลปินควรคำนึงถึงผู้ชมเสมอ

ทักษะที่จำเป็น

  • ไลบรารี Python: Numpy, Matplotlib, Pandas, Scipy
  • ไลบรารี R: GGplot2, Dplyr
  • สถิติอนุมาน
  • การแสดงข้อมูล
  • การออกแบบทดลอง
ขั้นตอนสำคัญในการเรียนรู้ Data Science เชื่อฉันเถอะว่าฉันพยายามแล้ว!

การสร้างแบบจำลอง (แมชชีนเลิร์นนิง)

นี่คือส่วนที่สนุก โมเดลเป็นเพียงกฎทั่วไปในแง่สถิติ โมเดลการเรียนรู้ของเครื่องเป็นเพียงเครื่องมือในชุดเครื่องมือของคุณ คุณสามารถเข้าถึงอัลกอริธึมมากมายพร้อมกรณีการใช้งานและวัตถุประสงค์ที่แตกต่างกัน ซึ่งการวิจัยอย่างง่ายจะนำคุณไปสู่อัลกอริธึมที่เหมาะกับความต้องการทางธุรกิจของคุณ
หลังจากทำความสะอาดข้อมูลและค้นหาคุณสมบัติที่จำเป็น (ในระยะ EDA) การใช้แบบจำลองทางสถิติเป็นเครื่องมือในการทำนายจะช่วยปรับปรุงการตัดสินใจโดยรวมของคุณ แทนที่จะมองย้อนกลับไปเพื่อดูว่า "เกิดอะไรขึ้น" การวิเคราะห์เชิงคาดการณ์มีเป้าหมายที่จะตอบว่า "อะไรต่อไป" และ “เราควรจะทำอย่างไรดี”

ทักษะที่จำเป็น

  • การเรียนรู้ของเครื่อง: อัลกอริธึมการเรียนรู้ภายใต้การดูแล/ไม่ได้ดูแล/การเสริมกำลัง
  • วิธีการประเมินผล
  • ไลบรารีการเรียนรู้ของเครื่อง: Python (Sci-kit Learn) / R (CARET)
  • พีชคณิตเชิงเส้นและแคลคูลัสหลายตัวแปร

การตีความ (การเล่าเรื่องด้วยข้อมูล)

นี่เป็นหนึ่งในงานที่ท้าทายมากขึ้นในท่อ ที่นี่ คุณตั้งเป้าที่จะอธิบายสิ่งที่คุณค้นพบผ่านการสื่อสาร ท้ายที่สุดแล้ว มันคือทั้งหมดที่เกี่ยวกับการเชื่อมต่อกับผู้ชมของคุณ และนั่นคือสิ่งที่ทำให้การเล่าเรื่องเป็นกุญแจสำคัญ
สิ่งที่คุณค้นพบนั้นแทบจะไม่มีประโยชน์เลย หากคุณไม่สามารถถ่ายทอดความสำคัญของมันต่อกลุ่มคนที่ไม่ใช้เทคโนโลยีในสำนักงานของคุณ หรือแม้แต่เจ้านายของคุณได้ แนวปฏิบัติที่ดีที่จะควบคุมสิ่งต่างๆ ได้คือการฝึกซ้อมให้มากๆ ลองวางโครงเรื่องจากสิ่งที่คุณค้นพบและบอกกับคนธรรมดา (ควรเป็นเด็ก) หากพวกเขาเข้าใจ เจ้านายของคุณก็จะเข้าใจเช่นกัน และถ้าพวกเขาไม่ทำ คุณก็รู้ว่าไอน์สไตน์พูดอะไร:

“ถ้าคุณไม่สามารถอธิบายให้เด็ก 6 ขวบฟังได้ แสดงว่าคุณไม่เข้าใจมันด้วยตัวเอง”

ระยะนี้มีจุดมุ่งหมายเพื่อให้ได้มาซึ่งข้อมูลเชิงลึกทางธุรกิจที่แท้จริง ความท้าทายหลักของคุณที่นี่คือการแสดงภาพสิ่งที่คุณค้นพบและแสดงผลในรูปแบบที่สวยงามและเข้าใจได้

ทักษะที่จำเป็น

  • ความรู้เกี่ยวกับโดเมนธุรกิจของคุณ
  • เครื่องมือสร้างภาพข้อมูล: Tableau, D3.JS, Matplotlib, GGplot, Seaborn เป็นต้น
  • การสื่อสาร: ทักษะการนำเสนอ – ทั้งการพูดและการเขียน

นี่ไม่ใช่จุดสิ้นสุดของไปป์ไลน์ของเรา หากคุณต้องการดึงเอาสิ่งที่ดีที่สุดออกจากระบบของคุณอย่างแท้จริง คุณต้องแน่ใจว่าคุณกำลังอัปเดตโมเดลของคุณตามเวลาที่ต้องการ ใน Data Science ขนาดเดียวอาจไม่เหมาะกับทุกคน และคุณจะต้องทบทวนและอัปเดตโมเดลของคุณต่อไป
การจัดการข้อมูล: คุณจะระบุข้อมูลโกหกได้อย่างไร

การประยุกต์ใช้วิทยาศาสตร์ข้อมูล

ตามที่ชัดเจนในตอนนี้ Data Science เป็นคำศัพท์ที่กว้างและการนำไปใช้งานก็เช่นกัน เกือบทุกแอปพลิเคชันบนสมาร์ทโฟนของคุณมีข้อมูล ดังนั้นจึงเป็นเรื่องที่ยุติธรรมที่จะบอกว่าแทบจะเป็นไปไม่ได้เลยที่จะลงรายการแอปพลิเคชันทั้งหมดของวิทยาศาสตร์ข้อมูล เนื่องจากมีอยู่ทั่วไปทุกหนทุกแห่ง
มาดูสาขากว้างๆ ที่ใช้เวทมนตร์ของ Data Science กัน:

1. การค้นหาทางอินเทอร์เน็ต

Google ส่งคืนผลการค้นหา *แม่นยำ* ภายในเสี้ยววินาทีได้อย่างไร วิทยาศาสตร์ข้อมูล!

2. ระบบคำแนะนำ

ตั้งแต่ “คนที่คุณอาจรู้จัก” บน Facebook หรือ LinkedIn ไปจนถึง “ผู้ที่ซื้อผลิตภัณฑ์นี้ก็ชอบ…” ใน Amazon ไปจนถึงเพลย์ลิสต์ที่ดูแลจัดการรายวันของคุณบน Spotify ไปจนถึง “วิดีโอแนะนำ” บน YouTube ทุกอย่างล้วนขับเคลื่อนโดย Data Science

3. ภาพ/คำพูด/การรู้จำอักขระ

นี้สวยมากไปโดยไม่ต้องพูด คิดว่าอะไรคือสมองเบื้องหลัง “สิริ” ถ้าไม่ใช่ Data Science? นอกจากนี้ คุณคิดว่า Facebook รู้จักเพื่อนของคุณอย่างไรเมื่อคุณอัปโหลดรูปภาพกับพวกเขา มันไม่ใช่เวทมนตร์ มันคือวิทยาศาสตร์ – วิทยาศาสตร์ข้อมูล

4. การเล่นเกม

EA Sports, Sony, Nintendo, Zynga และยักษ์ใหญ่อื่นๆ ในโดเมนนี้ ได้นำประสบการณ์การเล่นเกมของคุณไปสู่ระดับใหม่โดยสิ้นเชิง ตอนนี้เกมได้รับการพัฒนาและปรับปรุงโดยใช้อัลกอริธึมการเรียนรู้ของเครื่องเพื่อให้สามารถอัปเกรดเมื่อคุณเลื่อนขึ้นไปสู่ระดับที่สูงขึ้น

5. เว็บไซต์เปรียบเทียบราคา

เว็บไซต์เหล่านี้ขับเคลื่อนด้วยข้อมูล สำหรับพวกเขา ยิ่งสนุก ข้อมูลถูกดึงจากเว็บไซต์ที่เกี่ยวข้องโดยใช้ API PriceGrabber, PriceRunner, Junglee, Shopzilla เป็นเว็บไซต์ดังกล่าว

เริ่มต้นในวิทยาศาสตร์ข้อมูลด้วย Python

ห่อ…

หากคุณมาจากพื้นเพด้านเทคโนโลยีและมีข้อมูลเพียงเล็กน้อย Data Science คือสิ่งที่คุณต้องการ ส่วนที่ดีที่สุด? มีหลายสิ่งให้ทำและสำรวจในและรอบๆ Data Science เป็นคำศัพท์เฉพาะที่ครอบคลุมเครื่องมือและเทคโนโลยีจำนวนมาก การเรียนรู้สิ่งใดสิ่งหนึ่งจะทำให้คุณเป็นสินทรัพย์ในตลาด Data Science ที่เพิ่มมากขึ้นเรื่อยๆ upGrad เปิดสอนหลักสูตรต่างๆ เกี่ยวกับ Data Science เพื่อให้คุณก้าวล้ำหน้าอยู่เสมอ อย่าลืมตรวจสอบพวกเขา!

ขอบเขตของ Data Science ในอุตสาหกรรมต่างๆ ในอินเดียคืออะไร?

วิทยาศาสตร์ข้อมูลมีผลกระทบอย่างมากในหลายอุตสาหกรรมในอินเดีย ทุกอุตสาหกรรมที่ระบุไว้ด้านล่างนี้ต้องอาศัยวิทยาศาสตร์ข้อมูลเป็นอย่างมาก และมอบโอกาสที่ยอดเยี่ยมให้กับนักวิทยาศาสตร์ข้อมูล

1. Healthcare : เป็นคำที่เข้าใจได้ทุกอย่างเกี่ยวกับยา ผู้ป่วย และโรคต่างๆ วิทยาศาสตร์ข้อมูลเริ่มมีบทบาทสำคัญในอุตสาหกรรมนี้ ตั้งแต่การวินิจฉัยที่มีประสิทธิภาพมากขึ้นไปจนถึงการวิจัยทางการแพทย์
2. การธนาคารและการประกันภัย - การประเมินความเสี่ยงและการตรวจจับการฉ้อโกง: ธนาคารจะรวบรวมโปรไฟล์ลูกค้า การสมัครและค่าใช้จ่ายก่อนหน้านี้ ตลอดจนข้อมูลส่วนบุคคลอื่นๆ ที่หลากหลาย โดยเฉพาะอย่างยิ่งสำหรับสินเชื่อและการประกันภัย นี่คือที่มาของวิทยาศาสตร์ข้อมูล เนื่องจากช่วยลดความซับซ้อนของกระบวนการและแยกแยะระหว่างผู้ที่มีความเสี่ยงต่ำกับผู้ที่มีความเสี่ยงสูง
3. การตลาดและการโฆษณา - ด้วยข้อมูลทั้งหมดที่ปลายนิ้วของคุณ คุณสามารถวิเคราะห์และกำหนดได้ว่ากลุ่มเป้าหมายของคุณควรเป็นใคร เพื่อทำการตลาดบริการหรือผลิตภัณฑ์ของคุณอย่างมีประสิทธิภาพ
4. อุตสาหกรรมการบิน - วิทยาศาสตร์ข้อมูลใช้ในภาคการบินเพื่อวิเคราะห์เส้นทางและเส้นทางของเครื่องบิน

Data Scientists จะใช้ทักษะของตนแก้ปัญหาทางธุรกิจได้อย่างไร?

Data Scientist ต้องใช้กลยุทธ์ที่แตกต่างออกไปเพื่อแก้ปัญหาความท้าทายทางธุรกิจ ทั้งนี้ขึ้นอยู่กับความต้องการของบริษัท การใช้แบบจำลองทางคณิตศาสตร์และวิทยาการคอมพิวเตอร์แบบผสม นักวิทยาศาสตร์ด้านข้อมูลสามารถรวบรวมข้อมูลเชิงลึกที่นำไปปฏิบัติได้จากข้อมูลและช่วยตัดสินใจได้ดีขึ้น การประยุกต์ใช้วิทยาศาสตร์ข้อมูลเพื่อแก้ปัญหาความท้าทายทางธุรกิจในโลกแห่งความเป็นจริง ได้แก่ การปรับปรุงคุณภาพผลิตภัณฑ์ การวางตำแหน่งโฆษณาดิจิทัลโดยอัตโนมัติ การเพิ่มการสร้างรายได้โดยการคาดการณ์อุปสงค์และโอกาสในการเติบโต กระบวนการจัดหางานอัตโนมัติ การกำหนดราคาในตลาดที่มีพลวัตท่ามกลางกรณีการใช้งานอื่นๆ

อนาคตของวิทยาศาสตร์ข้อมูลคืออะไร?

อนาคตของวิทยาศาสตร์ข้อมูลนั้นน่าตื่นเต้นมากด้วยขอบเขตการใช้งานที่กว้างขวางในเกือบทุกสาขา บริษัทดิจิทัลเนทีฟที่ดีที่สุดบางแห่ง เช่น Google, Amazon, Facebook และอื่นๆ ได้ทุ่มเงินลงทุนจำนวนมากในด้านข้อมูล การเพิ่มขึ้นของเทคโนโลยีที่เกิดขึ้นใหม่ร่วมกับการวิจัยอย่างต่อเนื่องจะนำไปสู่การใช้งานที่เป็นนวัตกรรมและกรณีการใช้งานในอนาคต จากมุมมองด้านอาชีพ วิทยาศาสตร์ข้อมูลมีคำมั่นสัญญามากมาย