แนวคิดพื้นฐานของวิทยาศาสตร์ข้อมูล: แนวคิดทางเทคนิคที่มือใหม่ทุกคนควรรู้

เผยแพร่แล้ว: 2020-11-12

Data Science เป็นสาขาที่ช่วยในการดึงข้อมูลเชิงลึกที่มีความหมายจากข้อมูลโดยใช้ทักษะการเขียนโปรแกรม ความรู้ในโดเมน และความรู้ทางคณิตศาสตร์และสถิติ ช่วยวิเคราะห์ข้อมูลดิบและค้นหารูปแบบที่ซ่อนอยู่

ดังนั้น บุคคลควรมีความชัดเจนเกี่ยวกับ แนวคิดทางสถิติ การเรียนรู้ของเครื่อง และภาษาโปรแกรม เช่น Python หรือ R เพื่อให้ประสบความสำเร็จในด้านนี้ ในบทความนี้ ผมจะแบ่งปัน แนวคิดพื้นฐานของ Data Science ที่ควรรู้ก่อนเข้าสู่ภาคสนาม

บทความนี้จะช่วยให้คุณเข้าใจ Data Science มากขึ้นโดยการสำรวจแนวคิดพื้นฐานของ Data Science

อ่าน: งานวิทยาศาสตร์ข้อมูลที่จ่ายสูงสุดในอินเดีย

สารบัญ

แนวคิดทางสถิติที่จำเป็นสำหรับวิทยาศาสตร์ข้อมูล
- 1. สถิติพรรณนา
- 2. ความน่าจะเป็น
- 3. การลดมิติ
- 4. แนวโน้มกลาง
- 5. การทดสอบสมมติฐาน
- 6. การทดสอบความสำคัญ
- 7. ทฤษฎีการสุ่มตัวอย่าง
- 8. สถิติเบย์
การเรียนรู้ของเครื่องและการสร้างแบบจำลองข้อมูล
ไลบรารีพื้นฐานที่ใช้ใน Data Science
บทสรุป
วิทยาศาสตร์ข้อมูลคืออะไร?
ความสำคัญของแมชชีนเลิร์นนิงใน Data Science คืออะไร?
อาชีพใดที่ผู้เรียนวิทยาศาสตร์ข้อมูลสามารถเลือกได้

แนวคิดทางสถิติที่จำเป็นสำหรับวิทยาศาสตร์ข้อมูล

สถิติเป็นส่วนสำคัญของวิทยาศาสตร์ข้อมูล สถิติเป็นสาขากว้างที่มีการใช้งานมากมาย นักวิทยาศาสตร์ข้อมูลต้องรู้สถิติเป็นอย่างดี สามารถอนุมานได้จากข้อเท็จจริงที่ว่าสถิติช่วยในการตีความและจัดระเบียบข้อมูล สถิติเชิงพรรณนาและความรู้เกี่ยวกับความน่าจะเป็นเป็น แนวคิดด้านวิทยาศาสตร์ข้อมูลที่ ต้อง รู้

ด้านล่างนี้คือ แนวคิดพื้นฐานของสถิติ ที่นักวิทยาศาสตร์ข้อมูลควรรู้:

1. สถิติพรรณนา

สถิติเชิงพรรณนาช่วยในการวิเคราะห์ข้อมูลดิบเพื่อค้นหาคุณสมบัติหลักและที่จำเป็นจากข้อมูลนั้น สถิติเชิงพรรณนาเสนอวิธีการแสดงข้อมูลเป็นภาพเพื่อนำเสนอในรูปแบบที่อ่านง่ายและมีความหมาย แตกต่างจากสถิติอนุมานเนื่องจากช่วยให้เห็นภาพข้อมูลในรูปแบบแผนภาพได้อย่างมีความหมาย ในทางกลับกัน สถิติอนุมานช่วยในการค้นหาข้อมูลเชิงลึกจากการวิเคราะห์ข้อมูล

2. ความน่าจะเป็น

ความน่าจะเป็นเป็นสาขาทางคณิตศาสตร์ที่กำหนดความน่าจะเป็นของเหตุการณ์ใดๆ ในการทดลองสุ่ม ตัวอย่างเช่น การโยนเหรียญทำนายความน่าจะเป็นที่จะได้ลูกบอลสีแดงจากถุงใส่ลูกบอลสี ความน่าจะเป็นคือตัวเลขที่มีค่าอยู่ระหว่าง 0 ถึง 1 ยิ่งค่าสูง เหตุการณ์ก็มีแนวโน้มที่จะเกิดขึ้นมากขึ้น

ความน่าจะเป็นมีหลายประเภท ขึ้นอยู่กับประเภทของเหตุการณ์ เหตุการณ์อิสระคือเหตุการณ์สองเหตุการณ์ขึ้นไปของเหตุการณ์ที่ไม่ขึ้นต่อกัน ความน่าจะเป็นแบบมีเงื่อนไขคือความน่าจะเป็นของเหตุการณ์ใดๆ ที่มีความสัมพันธ์กับเหตุการณ์อื่น

3. การลดมิติ

การลดมิติหมายถึงการลดขนาดของชุดข้อมูลเพื่อแก้ไขปัญหามากมายที่ไม่มีอยู่ในข้อมูลมิติที่ต่ำกว่า เนื่องจากมีหลายปัจจัยในชุดข้อมูลที่มีมิติข้อมูลสูงและนักวิทยาศาสตร์จำเป็นต้องสร้างตัวอย่างเพิ่มเติมสำหรับคุณลักษณะทุกชุดรวมกัน

สิ่งนี้จะเพิ่มความซับซ้อนของการวิเคราะห์ข้อมูล ดังนั้น แนวคิดในการลดขนาดมิติสามารถแก้ไขปัญหาเหล่านี้ทั้งหมด และให้ประโยชน์ที่เป็นไปได้มากมาย เช่น ความซ้ำซ้อนที่น้อยลง การคำนวณที่รวดเร็ว และข้อมูลที่จะจัดเก็บน้อยลง

4. แนวโน้มกลาง

แนวโน้มศูนย์กลางของชุดข้อมูลเป็นค่าเดียวที่อธิบายข้อมูลทั้งหมดโดยการระบุค่าส่วนกลาง มีหลายวิธีในการวัดแนวโน้มศูนย์กลาง:

ค่าเฉลี่ย: เป็นค่าเฉลี่ยของคอลัมน์ชุดข้อมูล
ค่ามัธยฐาน: เป็นค่ากลางในชุดข้อมูลที่สั่ง
โหมด: ค่าที่เกิดซ้ำมากที่สุดในคอลัมน์ชุดข้อมูล
ความเบ้: มันวัดความสมมาตรของการกระจายข้อมูลและกำหนดว่ามีหางยาวด้านใดด้านหนึ่งหรือทั้งสองด้านของการแจกแจงแบบปกติ
Kurtosis: กำหนดว่าข้อมูลมีการแจกแจงแบบปกติหรือมีก้อย

5. การทดสอบสมมติฐาน

การทดสอบสมมติฐานคือการทดสอบผลการสำรวจ สมมติฐานมีสองประเภทเป็นส่วนหนึ่งของการทดสอบสมมติฐาน ได้แก่ สมมติฐานว่างและสมมติฐานสำรอง สมมติฐานว่างเป็นข้อความทั่วไปที่ไม่เกี่ยวข้องกับปรากฏการณ์ที่สำรวจ สมมติฐานสำรองเป็นข้อความที่ขัดแย้งกันของสมมติฐานว่าง

6. การทดสอบความสำคัญ

การทดสอบที่มีนัยสำคัญคือชุดการทดสอบที่ช่วยทดสอบความถูกต้องของสมมติฐานที่อ้างถึง ด้านล่างนี้คือการทดสอบบางส่วนที่ช่วยในการยอมรับหรือปฏิเสธสมมติฐานว่าง

การทดสอบค่า P: เป็นค่าความน่าจะเป็นที่ช่วยพิสูจน์ว่าสมมติฐานว่างนั้นถูกต้องหรือไม่ ถ้า p-value > a แสดงว่า Null Hypothesis ถูกต้อง ถ้า p-value < a แสดงว่า Null Hypothesis เป็นเท็จ และเราปฏิเสธมัน ในที่นี้ 'a' คือค่าที่มีนัยสำคัญซึ่งเกือบเท่ากับ 0.5
Z-Test: Z-test เป็นอีกวิธีหนึ่งในการทดสอบคำสั่ง Null Hypothesis ใช้เมื่อค่าเฉลี่ยของประชากรสองกลุ่มแตกต่างกัน และทราบความแปรปรวนของประชากรทั้งสอง หรือขนาดของกลุ่มตัวอย่างมีขนาดใหญ่
การทดสอบ T: การทดสอบ t คือการทดสอบทางสถิติที่ดำเนินการเมื่อไม่ทราบความแปรปรวนของประชากรหรือเมื่อขนาดของตัวอย่างมีขนาดเล็ก

7. ทฤษฎีการสุ่มตัวอย่าง

การสุ่มตัวอย่างเป็นส่วนหนึ่งของสถิติที่เกี่ยวข้องกับการรวบรวมข้อมูล การวิเคราะห์ข้อมูล และการตีความข้อมูลของข้อมูลที่รวบรวมจากกลุ่มประชากรแบบสุ่ม มีการสุ่มตัวอย่างน้อยเกินไปและเทคนิคการสุ่มตัวอย่างมากเกินไปในกรณีที่เราพบว่าข้อมูลไม่ดีพอที่จะได้รับการตีความ การสุ่มตัวอย่างต่ำเกินไปเกี่ยวข้องกับการลบข้อมูลที่ซ้ำซ้อน และการสุ่มตัวอย่างเกินเป็นเทคนิคการเลียนแบบตัวอย่างข้อมูลที่มีอยู่ตามธรรมชาติ

8. สถิติเบย์

เป็นวิธีทางสถิติที่ยึดตามทฤษฎีบทเบย์ ทฤษฎีบทเบย์กำหนดความน่าจะเป็นของเหตุการณ์ขึ้นอยู่กับเงื่อนไขก่อนหน้าที่เกี่ยวข้องกับเหตุการณ์ ดังนั้น สถิติเบย์จึงกำหนดความน่าจะเป็นจากผลลัพธ์ก่อนหน้า ทฤษฎีบทเบย์ยังกำหนดความน่าจะเป็นแบบมีเงื่อนไข ซึ่งก็คือความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นโดยพิจารณาว่าเงื่อนไขบางอย่างเป็นจริง

อ่าน: เงินเดือนนักวิทยาศาสตร์ข้อมูลในอินเดีย

การเรียนรู้ของเครื่องและการสร้างแบบจำลองข้อมูล

การเรียนรู้ของเครื่องเป็นการฝึกเครื่องตามชุดข้อมูลเฉพาะโดยใช้แบบจำลอง โมเดลที่ผ่านการฝึกอบรมนี้จะทำให้การคาดการณ์ในอนาคต การสร้างแบบจำลองแมชชีนเลิร์นนิงมีสองประเภท ได้แก่ มีการควบคุมดูแลและไม่อยู่ภายใต้การควบคุม การเรียนรู้ภายใต้การดูแลทำงานกับข้อมูลที่มีโครงสร้างซึ่งเราคาดการณ์ตัวแปรเป้าหมาย แมชชีนเลิร์นนิงที่ไม่ได้รับการดูแลจะทำงานกับข้อมูลที่ไม่มีโครงสร้างซึ่งไม่มีฟิลด์เป้าหมาย

แมชชีนเลิร์นนิงภายใต้การดูแลมีสองเทคนิค: การจำแนกและการถดถอย เทคนิคการสร้างแบบจำลองการจัดหมวดหมู่จะใช้เมื่อเราต้องการให้เครื่องทำนายหมวดหมู่ ในขณะที่เทคนิคการถดถอยจะกำหนดตัวเลข ตัวอย่างเช่น การทำนายยอดขายรถยนต์ในอนาคตเป็นเทคนิคการถดถอยและการทำนายการเกิดโรคเบาหวานในกลุ่มตัวอย่างเป็นการจำแนกประเภท

ด้านล่างนี้คือคำศัพท์สำคัญบางส่วนที่เกี่ยวข้องกับแมชชีนเลิร์นนิงที่วิศวกรแมชชีนเลิร์นนิ่งและนักวิทยาศาสตร์ข้อมูลทุกคนควรรู้:

การเรียนรู้ด้วยเครื่อง : การเรียนรู้ของเครื่องเป็นส่วนย่อยของปัญญาประดิษฐ์ที่เครื่องเรียนรู้จากประสบการณ์ก่อนหน้านี้ และใช้สิ่งนั้นเพื่อคาดการณ์สำหรับอนาคต
โมเดลแมชชีนเลิร์นนิง: โมเดล แมชชีนเลิร์นนิงถูกสร้างขึ้นเพื่อฝึกเครื่องจักรโดยใช้การแทนค่าทางคณิตศาสตร์ จากนั้นจึงทำการคาดคะเน
อัลกอริทึม: อัลกอริทึมคือชุดของกฎที่ใช้สร้างแบบจำลองการเรียนรู้ของเครื่อง
การถดถอย: การถดถอยเป็นเทคนิคที่ใช้ในการกำหนดความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตาม มีเทคนิคการถดถอยหลายอย่างที่ใช้สำหรับการสร้างแบบจำลองในการเรียนรู้ของเครื่องตามข้อมูลที่เรามี การถดถอยเชิงเส้นเป็นเทคนิคการถดถอยพื้นฐาน
การถดถอยเชิงเส้น: เป็นเทคนิคการถดถอยพื้นฐานที่สุดที่ใช้ในการเรียนรู้ของเครื่อง ใช้กับข้อมูลที่มีความสัมพันธ์เชิงเส้นตรงระหว่างตัวทำนายและตัวแปรเป้าหมาย ดังนั้นเราจึงคาดการณ์ตัวแปรเป้าหมาย Y ตามตัวแปรอินพุต X ซึ่งทั้งคู่มีความเกี่ยวข้องเชิงเส้น สมการด้านล่างแสดงถึงการถดถอยเชิงเส้น:

Y=mX + c โดยที่ m และ c คือสัมประสิทธิ์

มีเทคนิคการถดถอยอื่นๆ อีกมาก เช่น การถดถอยโลจิสติก การถดถอยแนวสัน การถดถอยแบบลาสโซ่ การถดถอยพหุนาม เป็นต้น

การจัดประเภท: การจัดประเภทเป็นประเภทของการสร้างแบบจำลองการเรียนรู้ของเครื่องที่คาดการณ์ผลลัพธ์ในรูปแบบของหมวดหมู่ที่กำหนดไว้ล่วงหน้า ไม่ว่าผู้ป่วยจะเป็นโรคหัวใจหรือไม่ก็ตาม เป็นตัวอย่างหนึ่งของเทคนิคการจำแนกประเภท
ชุดการฝึก: ชุด การฝึกเป็นส่วนหนึ่งของชุดข้อมูล ซึ่งใช้ในการฝึกโมเดลการเรียนรู้ของเครื่อง
ชุดทดสอบ: เป็นส่วนหนึ่งของชุดข้อมูลและมีโครงสร้างเดียวกับชุดฝึกอบรมและทดสอบประสิทธิภาพของโมเดลการเรียนรู้ของเครื่อง
คุณลักษณะ: เป็นตัวแปรทำนายหรือตัวแปรอิสระในชุดข้อมูล
เป้าหมาย: เป็นตัวแปรตามในชุดข้อมูลซึ่งค่าที่คาดการณ์โดยโมเดลการเรียนรู้ของเครื่อง
Overfitting: Overfitting เป็นเงื่อนไขที่นำไปสู่การ overspecialization ของแบบจำลอง มันเกิดขึ้นในกรณีของชุดข้อมูลที่ซับซ้อน
การทำให้เป็นมาตรฐาน : นี่คือเทคนิคที่ใช้ในการทำให้โมเดลง่ายขึ้นและเป็นวิธีแก้ปัญหาสำหรับการใส่มากเกินไป

ไลบรารีพื้นฐานที่ใช้ใน Data Science

Python เป็นภาษาที่ใช้กันมากที่สุดใน Data Science เนื่องจากเป็นภาษาการเขียนโปรแกรมที่หลากหลายที่สุดและมีแอพพลิเคชั่นมากมาย R เป็นอีกภาษาหนึ่งที่ใช้โดย Data Scientists แต่ Python นั้นใช้กันอย่างแพร่หลายกว่า Python มีไลบรารี่จำนวนมากที่ทำให้ชีวิตของ Data Scientist เป็นเรื่องง่าย ดังนั้น Data Scientist ทุกคนจึงควรรู้จัก Library เหล่านี้

ด้านล่างนี้คือไลบรารี่ที่ใช้มากที่สุดใน Data Science:

NumPy: เป็นไลบรารีพื้นฐานที่ใช้สำหรับการคำนวณเชิงตัวเลข ส่วนใหญ่จะใช้สำหรับการวิเคราะห์ข้อมูล
Pandas: เป็นห้องสมุดที่ต้องรู้จักซึ่งใช้สำหรับการล้างข้อมูล การจัดเก็บข้อมูล และอนุกรมเวลา
SciPy: เป็นไลบรารี python อีกตัวหนึ่งที่ใช้ในการแก้สมการเชิงอนุพันธ์และพีชคณิตเชิงเส้น
Matplotlib: เป็นไลบรารีการสร้างภาพข้อมูลที่ใช้ในการวิเคราะห์ความสัมพันธ์ กำหนดค่าผิดปกติโดยใช้พล็อตแบบกระจาย และเพื่อแสดงภาพการกระจายข้อมูล
TensorFlow: ใช้สำหรับการคำนวณประสิทธิภาพสูงที่ลดข้อผิดพลาดลง 50% ใช้สำหรับคำพูด การตรวจจับภาพ อนุกรมเวลา และการตรวจจับวิดีโอ
Scikit-Learn: ใช้เพื่อปรับใช้โมเดลแมชชีนเลิร์นนิงภายใต้การดูแลและไม่ได้รับการดูแล
Keras: มันทำงานได้อย่างง่ายดายบน CPU และ GPU และรองรับเครือข่ายประสาทเทียม
Seaborn: เป็นไลบรารีการแสดงภาพข้อมูลอีกไลบรารีหนึ่งที่ใช้สำหรับกริดแบบหลายพล็อต ฮิสโตแกรม สแกตเตอร์พล็อต แผนภูมิแท่ง ฯลฯ

ต้องอ่าน: อาชีพใน Data Science

บทสรุป

โดยรวมแล้ว Data Science เป็นสาขาที่ผสมผสานวิธีการทางสถิติ เทคนิคการสร้างแบบจำลอง และความรู้ด้านการเขียนโปรแกรม ในอีกด้านหนึ่ง นักวิทยาศาสตร์ข้อมูลต้องวิเคราะห์ข้อมูลเพื่อรับข้อมูลเชิงลึกที่ซ่อนอยู่ จากนั้นจึงนำอัลกอริธึมต่างๆ มาใช้เพื่อสร้างโมเดลการเรียนรู้ของเครื่อง ทั้งหมดนี้ทำได้โดยใช้ภาษาการเขียนโปรแกรมเช่น Python หรือ R

หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ลองดูโปรแกรม Executive PG ของ IIIT-B & upGrad ใน Data Science ซึ่งสร้างขึ้นสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1 -on-1 พร้อมที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

วิทยาศาสตร์ข้อมูลคืออะไร?

วิทยาศาสตร์ข้อมูลรวมหลายด้านเข้าด้วยกัน เช่น สถิติ เทคนิคทางวิทยาศาสตร์ ปัญญาประดิษฐ์ (AI) และการวิเคราะห์ข้อมูล นักวิทยาศาสตร์ข้อมูลใช้วิธีต่างๆ ในการประเมินข้อมูลที่ได้รับจากเว็บ โทรศัพท์มือถือ ผู้บริโภค เซ็นเซอร์ และแหล่งข้อมูลอื่นๆ เพื่อรับข้อมูลเชิงลึกที่นำไปดำเนินการได้ วิทยาศาสตร์ข้อมูลเป็นกระบวนการในการเตรียมข้อมูลสำหรับการวิเคราะห์ ซึ่งรวมถึงการทำความสะอาด การแยก และการเปลี่ยนแปลงข้อมูลเพื่อดำเนินการวิเคราะห์ข้อมูลที่ซับซ้อน

ความสำคัญของแมชชีนเลิร์นนิงใน Data Science คืออะไร?

การเรียนรู้ของเครื่องจะวิเคราะห์ข้อมูลจำนวนมหาศาลอย่างชาญฉลาด โดยพื้นฐานแล้วการเรียนรู้ของเครื่องจะทำให้กระบวนการวิเคราะห์ข้อมูลเป็นไปโดยอัตโนมัติและสร้างการคาดคะเนตามข้อมูลในแบบเรียลไทม์โดยไม่จำเป็นต้องมีปฏิสัมพันธ์กับมนุษย์ ตัวแบบข้อมูลจะถูกสร้างขึ้นและฝึกฝนโดยอัตโนมัติเพื่อคาดการณ์ตามเวลาจริง วงจรชีวิตวิทยาศาสตร์ข้อมูลเป็นที่ที่ใช้อัลกอริทึมการเรียนรู้ของเครื่อง ขั้นตอนปกติสำหรับแมชชีนเลิร์นนิงเริ่มต้นจากการที่คุณให้ข้อมูลที่จะศึกษา จากนั้นกำหนดลักษณะเฉพาะของแบบจำลองของคุณและสร้างแบบจำลองข้อมูลอย่างเหมาะสม

อาชีพใดที่ผู้เรียนวิทยาศาสตร์ข้อมูลสามารถเลือกได้

เกือบทุกธุรกิจ ตั้งแต่ค้าปลีก การเงิน และการธนาคาร ต้องการความช่วยเหลือจากผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลเพื่อรวบรวมและวิเคราะห์ข้อมูลเชิงลึกจากชุดข้อมูลของตน คุณสามารถใช้ทักษะด้านวิทยาศาสตร์ข้อมูลเพื่อส่งเสริมอาชีพที่เน้นข้อมูลเป็นหลักได้สองวิธี คุณสามารถเป็นผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลได้โดยการใฝ่หาอาชีพต่างๆ เช่น นักวิเคราะห์ข้อมูล ผู้พัฒนาฐานข้อมูล หรือนักวิทยาศาสตร์ข้อมูล หรือถ่ายโอนไปยังบทบาทที่เปิดใช้งานการวิเคราะห์ เช่น นักวิเคราะห์ธุรกิจที่ใช้งานได้จริง หรือผู้จัดการที่ขับเคลื่อนด้วยข้อมูล