กรอบงานวิทยาศาสตร์ข้อมูล: 7 ขั้นตอนยอดนิยมสำหรับการตัดสินใจทางธุรกิจที่ดีขึ้น
เผยแพร่แล้ว: 2019-12-26วิทยาศาสตร์ข้อมูลเป็นสาขากว้างใหญ่ที่ครอบคลุมเทคนิคและวิธีการต่างๆ ที่ดึงข้อมูลและช่วยให้เข้าใจถึงข้อมูลจำนวนมาก นอกจากนี้ การตัดสินใจที่ขับเคลื่อนด้วยข้อมูล สามารถส่งมอบมูลค่าทางธุรกิจมหาศาล ดังนั้น กรอบงานวิทยาศาสตร์ข้อมูล จึงกลายเป็นจอกศักดิ์สิทธิ์ของธุรกิจเทคโนโลยีสมัยใหม่ โดยแสดง 7 ขั้นตอนอย่างกว้างๆ เพื่อรวบรวมข้อมูลเชิงลึกที่มีความหมาย เหล่านี้รวมถึง: ถาม, ได้รับ, ดูดซึม, วิเคราะห์, ตอบ, ให้คำแนะนำ, และดำเนินการ ต่อไปนี้คือภาพรวมของแต่ละขั้นตอนเหล่านี้และแนวคิดสำคัญบางส่วนที่เกี่ยวข้องกับวิทยาศาสตร์ข้อมูล
สารบัญ
กรอบงานวิทยาศาสตร์ข้อมูล: ขั้นตอน
1. การถามคำถาม: จุดเริ่มต้นของกรอบงานวิทยาศาสตร์ข้อมูล
เช่นเดียวกับการศึกษาทางวิทยาศาสตร์ทั่วไป Data Science เริ่มต้นด้วยชุดคำถาม นักวิทยาศาสตร์ด้านข้อมูลเป็นบุคคลที่มีความอยากรู้อยากเห็นและมีความสามารถในการคิดเชิงวิพากษ์ซึ่งตั้งคำถามกับสมมติฐานและระบบที่มีอยู่ ข้อมูลช่วยให้พวกเขาตรวจสอบข้อกังวลและค้นหาคำตอบใหม่ได้ ดังนั้น ความคิดที่อยากรู้อยากเห็นนี้จึงเริ่มต้นกระบวนการดำเนินการตามหลักฐาน
2. การได้มา: การรวบรวมข้อมูลที่จำเป็น
หลังจากถามคำถาม นักวิทยาศาสตร์ด้านข้อมูลจะต้องรวบรวมข้อมูลที่จำเป็นจากแหล่งต่างๆ และหลอมรวมเพิ่มเติมเพื่อให้มีประโยชน์ พวกเขาปรับใช้กระบวนการต่างๆ เช่น วิศวกรรมคุณลักษณะ เพื่อกำหนดอินพุตที่จะสนับสนุนอัลกอริทึมของการทำเหมืองข้อมูล การเรียนรู้ของเครื่อง และการจดจำรูปแบบ เมื่อกำหนดคุณสมบัติแล้ว ข้อมูลสามารถดาวน์โหลดจากโอเพ่นซอร์สหรือได้มาโดยการสร้างกรอบงานเพื่อบันทึกหรือวัดข้อมูล
3. การดูดซึม: การแปลงข้อมูลที่รวบรวม
จากนั้นจึงจำเป็นต้องล้างข้อมูลที่รวบรวมไว้เพื่อการใช้งานจริง โดยปกติ จะเกี่ยวข้องกับการจัดการค่าที่หายไปและไม่ถูกต้อง และการจัดการกับค่าผิดปกติที่อาจเกิดขึ้น ข้อมูลที่ไม่ดีไม่สามารถให้ผลลัพธ์ที่ดีได้ ไม่ว่าการสร้างแบบจำลองข้อมูลจะแข็งแกร่งเพียงใด การล้างข้อมูลเป็นสิ่งสำคัญ เนื่องจากคอมพิวเตอร์ใช้แนวคิดเชิงตรรกะของ "ขยะเข้า ขยะออก" พวกเขาประมวลผลแม้กระทั่งข้อมูลที่ไม่ได้ตั้งใจและไร้สาระเพื่อสร้างผลลัพธ์ที่ไม่พึงประสงค์และไร้สาระ
ข้อมูลรูปแบบต่างๆ
ข้อมูลอาจมาในรูปแบบที่มีโครงสร้างหรือไม่มีโครงสร้าง ข้อมูลที่มีโครงสร้างตามปกติจะอยู่ในรูปแบบของตัวแปรที่ไม่ต่อเนื่องหรือข้อมูลตามหมวดหมู่ โดยมีความเป็นไปได้จำกัด (เช่น เพศ) หรือตัวแปรต่อเนื่อง รวมถึงข้อมูลตัวเลข เช่น จำนวนเต็มหรือจำนวนจริง (เช่น เงินเดือนและอุณหภูมิ) กรณีพิเศษอื่นอาจเป็นตัวแปรไบนารีที่มีค่าเพียงสองค่า เช่น ใช่/ไม่ใช่ และ จริง/เท็จ
การแปลงข้อมูล
บางครั้ง นักวิทยาศาสตร์ด้านข้อมูลอาจต้องการปกปิดข้อมูลตัวเลขหรือแปลงเป็นตัวแปรที่ไม่ต่อเนื่องเพื่อซิงโครไนซ์กับอัลกอริธึม ตัวอย่างเช่น อุณหภูมิที่เป็นตัวเลขอาจถูกแปลงเป็นตัวแปรตามหมวดหมู่ เช่น ร้อน ปานกลาง และเย็น สิ่งนี้เรียกว่า 'binning' กระบวนการอื่นที่เรียกว่า 'การเข้ารหัส' สามารถใช้ในการแปลงข้อมูลที่เป็นหมวดหมู่เป็นตัวเลขได้
4. การวิเคราะห์: การทำเหมืองข้อมูล
เมื่อได้ข้อมูลที่ต้องการและหลอมรวมแล้ว กระบวนการค้นหาความรู้ก็เริ่มต้นขึ้น การวิเคราะห์ข้อมูลเกี่ยวข้องกับฟังก์ชันต่างๆ เช่น Data Mining และ Exploratory Data Analysis (EDA) การวิเคราะห์เป็นหนึ่งในขั้นตอนที่สำคัญที่สุดของ กรอบ งาน วิทยาศาสตร์ข้อมูล
การทำเหมืองข้อมูล
การทำเหมืองข้อมูลเป็นจุดตัดของสถิติ ปัญญาประดิษฐ์ การเรียนรู้ของเครื่อง และระบบฐานข้อมูล มันเกี่ยวข้องกับการค้นหารูปแบบในชุดข้อมูลขนาดใหญ่และการจัดโครงสร้างและสรุปข้อมูลที่มีอยู่ก่อนเป็นข้อมูลที่เป็นประโยชน์ การทำเหมืองข้อมูลไม่เหมือนกับการดึงข้อมูล (การค้นหาเว็บหรือค้นหาชื่อในสมุดโทรศัพท์ ฯลฯ) แต่เป็นกระบวนการที่เป็นระบบซึ่งครอบคลุมเทคนิคต่างๆ ที่เชื่อมโยงจุดต่างๆ ระหว่างจุดข้อมูล
การวิเคราะห์ข้อมูลเชิงสำรวจ (EDA)
EDA เป็นกระบวนการอธิบายและแสดงข้อมูลโดยใช้สถิติสรุปและเทคนิคการสร้างภาพข้อมูล ก่อนสร้างแบบจำลองใดๆ สิ่งสำคัญคือต้องทำการวิเคราะห์ดังกล่าวเพื่อทำความเข้าใจข้อมูลให้ครบถ้วน การวิเคราะห์เชิงสำรวจประเภทพื้นฐานบางประเภท ได้แก่ การเชื่อมโยง การจัดกลุ่ม การถดถอย และการจำแนกประเภท ให้เราเรียนรู้เกี่ยวกับพวกเขาทีละคน
สมาคม
การเชื่อมโยงหมายถึงการระบุรายการที่เกี่ยวข้อง ตัวอย่างเช่น ในชุดข้อมูลธุรกรรมซูเปอร์มาร์เก็ต อาจมีผลิตภัณฑ์บางอย่างที่ซื้อร่วมกัน ความสัมพันธ์ทั่วไปอาจเป็นเรื่องของขนมปังและเนย ข้อมูลนี้สามารถใช้ในการตัดสินใจในการผลิต เพิ่มยอดขายผ่านข้อเสนอ 'คำสั่งผสม' ฯลฯ

การจัดกลุ่ม
การทำคลัสเตอร์เกี่ยวข้องกับการแบ่งกลุ่มข้อมูลออกเป็นกลุ่มตามธรรมชาติ อัลกอริทึมจะจัดระเบียบข้อมูลและกำหนดศูนย์คลัสเตอร์ตามเกณฑ์เฉพาะ เช่น ชั่วโมงเรียนและเกรดของชั้นเรียน ตัวอย่างเช่น ชั้นเรียนอาจแบ่งออกเป็นกลุ่มหรือกลุ่มตามธรรมชาติ ได้แก่ Shirkers (นักเรียนที่ไม่ได้เรียนนานและได้เกรดต่ำ) Keen Learners (ผู้ที่ใช้เวลาเรียนเป็นเวลานานและได้เกรดสูง) และ Masterminds (กลุ่มนั้น ที่ได้คะแนนสูงทั้งๆ ที่ไม่ได้เรียนเป็นเวลานาน)
การถดถอย
การถดถอยเกิดขึ้นเพื่อหาจุดแข็งของความสัมพันธ์ระหว่างตัวแปรทั้งสอง หรือที่เรียกว่าการวิเคราะห์เชิงคาดการณ์เชิงสาเหตุ ประกอบด้วยการทำนายตัวเลขโดยใส่เส้น (y=mx+b) หรือเส้นโค้งเข้ากับชุดข้อมูล เส้นถดถอยยังจะช่วยในการตรวจจับค่าผิดปกติ – จุดข้อมูลที่เบี่ยงเบนไปจากการสังเกตอื่นๆ ทั้งหมด สาเหตุอาจเป็นการป้อนข้อมูลที่ไม่ถูกต้องหรือแยกกลไกโดยสิ้นเชิง
ในตัวอย่างห้องเรียน นักเรียนบางคนในกลุ่ม 'ผู้บงการ' อาจมีภูมิหลังมาก่อนในวิชานี้ หรืออาจป้อนชั่วโมงเรียนและเกรดที่ไม่ถูกต้องในแบบสำรวจ ค่าผิดปกติมีความสำคัญในการระบุปัญหาเกี่ยวกับข้อมูลและพื้นที่ที่เป็นไปได้ในการปรับปรุง
การจำแนกประเภท
การจัดประเภทหมายถึงการกำหนดคลาสหรือป้ายกำกับให้กับข้อมูลใหม่สำหรับชุดคุณลักษณะและแอตทริบิวต์ที่กำหนด กฎเฉพาะจะถูกสร้างขึ้นจากข้อมูลในอดีตเพื่อเปิดใช้งานเหมือนกัน Decision Tree เป็นวิธีการจำแนกประเภททั่วไป สามารถทำนายได้ว่านักเรียนเป็น Shirker, Keen Learner หรือ Mastermind โดยอิงจากคะแนนสอบและชั่วโมงเรียน ตัวอย่างเช่น นักเรียนที่เรียนน้อยกว่า 3 ชั่วโมงและได้คะแนน 75% อาจถูกระบุว่าเป็นเชอร์เกอร์
5. การตอบคำถาม: การออกแบบตัวแบบข้อมูล
กรอบงานวิทยาศาสตร์ข้อมูล จะไม่สมบูรณ์หากไม่มีการสร้างแบบจำลองที่ช่วยเสริมกระบวนการตัดสินใจ การสร้างแบบจำลองช่วยในการแสดงความสัมพันธ์ระหว่างจุดข้อมูลสำหรับการจัดเก็บในฐานข้อมูล การจัดการกับข้อมูลในสภาพแวดล้อมทางธุรกิจจริงอาจเป็นเรื่องที่โกลาหลมากกว่าการใช้สัญชาตญาณ ดังนั้น การสร้างแบบจำลองที่เหมาะสมจึงมีความสำคัญสูงสุด นอกจากนี้ โมเดลควรได้รับการประเมิน ปรับแต่ง และปรับปรุงเป็นครั้งคราวเพื่อให้ได้ระดับประสิทธิภาพที่ต้องการ
6. คำแนะนำ: แนะนำการตัดสินใจทางเลือก
ขั้นตอนต่อไปคือการใช้ข้อมูลเชิงลึกที่ได้รับจากแบบจำลองข้อมูลเพื่อให้คำแนะนำ ซึ่งหมายความว่าบทบาทของนักวิทยาศาสตร์ข้อมูลมีมากกว่าแค่ตัวเลขและการวิเคราะห์ข้อมูล งานส่วนใหญ่คือการให้คำแนะนำที่สามารถนำไปปฏิบัติได้จริงแก่ฝ่ายบริหารเกี่ยวกับสิ่งที่อาจเป็นการปรับปรุงผลกำไรและส่งมอบมูลค่าทางธุรกิจ การให้คำปรึกษารวมถึงการประยุกต์ใช้เทคนิคต่างๆ เช่น การเพิ่มประสิทธิภาพ การจำลอง การตัดสินใจภายใต้ความไม่แน่นอน เศรษฐศาสตร์โครงการ เป็นต้น
7. การดำเนินการ: การเลือกขั้นตอนที่ต้องการ
หลังจากประเมินข้อเสนอแนะโดยพิจารณาจากสถานการณ์ทางธุรกิจและความชอบแล้ว ฝ่ายบริหารอาจเลือกการดำเนินการเฉพาะหรือชุดของการดำเนินการที่จะนำไปใช้ ความเสี่ยงทางธุรกิจสามารถลดลงได้ในระดับที่ดีโดยการตัดสินใจที่ได้รับการสนับสนุนจากวิทยาศาสตร์ข้อมูล
เรียนรู้ หลักสูตรวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว
บทสรุป
วิทยาศาสตร์ข้อมูลมีการใช้งานที่หลากหลายในโลกที่นำเทคโนโลยีในปัจจุบัน โครงร่างข้างต้นของ กรอบงานวิทยาศาสตร์ข้อมูล จะทำหน้าที่เป็นแผนที่นำทางสำหรับการนำวิทยาศาสตร์ข้อมูลไปใช้กับธุรกิจของคุณ!
หากคุณอยากรู้เกี่ยวกับการเรียนรู้วิทยาศาสตร์ข้อมูลเพื่อก้าวไปสู่ความก้าวหน้าทางเทคโนโลยีอย่างรวดเร็ว ให้ตรวจสอบประกาศนียบัตร PG ด้านวิทยาศาสตร์ข้อมูลของ upGrad & IIIT-B
NumPy ถือเป็นเฟรมเวิร์กหรือไม่
แพ็คเกจ NumPy ใน Python เป็นแกนหลักของการคำนวณทางวิทยาศาสตร์ ใช่ NumPy เป็นเฟรมเวิร์กและโมดูล Python สำหรับการคำนวณทางวิทยาศาสตร์ มันมาพร้อมกับออบเจ็กต์อาร์เรย์หลายมิติประสิทธิภาพสูงและสิ่งอำนวยความสะดวกสำหรับการจัดการ NumPy เป็นอ็อบเจ็กต์อาร์เรย์ N-dimensional อันทรงพลังสำหรับ Python ที่ใช้พีชคณิตเชิงเส้น
ในวิทยาศาสตร์ข้อมูล binning แบบ unsupervised คืออะไร?
Binning หรือ discretization จะแปลงตัวแปรแบบต่อเนื่องหรือตัวเลขให้เป็นลักษณะเฉพาะ Unsupervised binning เป็นการจัดเรียงแบบ binning โดยที่ตัวแปรตัวเลขหรือตัวแปรต่อเนื่องจะถูกแปลงเป็นถังขยะตามหมวดหมู่โดยไม่ต้องคำนึงถึง class label ที่ตั้งใจไว้
อัลกอริธึมการจำแนกและการถดถอยในวิทยาศาสตร์ข้อมูลแตกต่างกันอย่างไร
วิธีการเรียนรู้ของเราจะฝึกฟังก์ชันเพื่อแปลอินพุตเป็นเอาต์พุตในงานจำแนกประเภท โดยที่ค่าเอาต์พุตจะเป็นป้ายกำกับแยกชั้น ในทางกลับกัน ปัญหาการถดถอย ระบุถึงการจับคู่ของอินพุตกับเอาต์พุต โดยที่เอาต์พุตเป็นจำนวนจริงต่อเนื่อง อัลกอริธึมบางตัวได้รับการออกแบบมาโดยเฉพาะสำหรับปัญหารูปแบบการถดถอย เช่น ตัวแบบการถดถอยเชิงเส้น ในขณะที่อื่นๆ เช่น Logistic Regression ได้รับการออกแบบมาสำหรับงานการจำแนกประเภท การทำนายสภาพอากาศ การทำนายราคาบ้าน และปัญหาการถดถอยอื่นๆ อาจแก้ไขได้โดยใช้อัลกอริธึมการถดถอย อัลกอริทึมการจำแนกประเภทอาจใช้เพื่อแก้ไขปัญหาต่างๆ เช่น การระบุอีเมลสแปม การรู้จำคำพูด และการระบุเซลล์มะเร็ง เป็นต้น