พื้นฐานพื้นฐานของสถิติสำหรับวิทยาศาสตร์ข้อมูล

เผยแพร่แล้ว: 2018-02-27

หากคุณเป็นนักวิทยาศาสตร์ด้านข้อมูลที่มีความทะเยอทะยาน การทำความคุ้นเคยกับแนวคิดหลักของ สถิติสำหรับวิทยาศาสตร์ข้อมูล คุณไม่จำเป็นต้องเป็นปริญญาเอก ในสถิติเพื่อให้เป็นเลิศที่ Data Science แต่คุณจำเป็นต้องรู้มากพอที่จะอธิบายอัลกอริทึมพื้นฐานสองสามอย่างในงานเลี้ยงอาหารค่ำ

ต่อจากนี้ไป เราจะแนะนำข้อกำหนดเบื้องต้นบางประการในเบื้องต้น เกี่ยวกับสถิติสำหรับวิทยาศาสตร์ ข้อมูล

หากคุณเพิ่งเข้าสู่โลกของ Data Science คุณอาจเคยเจอคนที่ระบุว่า “คณิตศาสตร์” เป็นข้อกำหนดเบื้องต้นสำหรับ Data Science พูดตามตรง มันไม่ใช่คณิตศาสตร์ แต่คุณต้อง เรียนรู้สถิติสำหรับวิทยาศาสตร์ข้อมูล

ทุกวันนี้ ไลบรารีอย่าง Tensorflow ซ่อนคณิตศาสตร์ที่ซับซ้อนเกือบทั้งหมดไว้ห่างจากผู้ใช้ ดีสำหรับเรา แต่ก็ยังดีที่จะมีความเข้าใจพื้นฐานเกี่ยวกับหลักการพื้นฐานซึ่งสิ่งเหล่านี้ใช้ได้ผล การมีความเข้าใจที่ดีเกี่ยวกับการวิเคราะห์ข้อมูล สามารถช่วยให้คุณเข้าใจทุกอย่างได้ดีขึ้น

บทความนี้จะช่วยให้คุณมีทฤษฎีบท แนวคิด และสมการบางอย่างที่ไม่เพียงแต่ช่วยคุณในฐานะนักวิทยาศาสตร์ข้อมูล แต่ยังทำให้คุณรู้สึกว่าคุณได้เรียนหลักสูตร Advanced Statistical Computing ครั้งใหญ่

สารบัญ

การกระจายทางสถิติ

นี่อาจเป็นหนึ่งในสิ่งสำคัญที่สุดที่คุณต้องรู้ในขณะที่เตรียมอาวุธ สถิติเบื้องต้นสำหรับ Data Science

  • การกระจายปัวซอง

    สถิติสำหรับวิทยาศาสตร์ข้อมูล การแจกแจงแบบปัวซองเป็นหนึ่งในเครื่องมือที่สำคัญที่สุดในสถิติ ใช้สำหรับคำนวณจำนวนเหตุการณ์ที่น่าจะเกิดขึ้นในช่วงเวลาหนึ่ง ตัวอย่างเช่น จำนวนโทรศัพท์ที่มีแนวโน้มจะเกิดขึ้นในช่วงเวลาหนึ่งๆ
    สัญลักษณ์ที่ดูตลกในสมการนี้ (λ) เรียกว่า แลมบ์ ดา ใช้เพื่อแสดงจำนวนเฉลี่ยของเหตุการณ์ที่เกิดขึ้นต่อช่วงเวลา

    อีกตัวอย่างที่ดีที่การกระจายปัวซองพบว่ามีประโยชน์คือการคำนวณความสูญเสียในการผลิต สมมติว่าเครื่องจักรผลิตแผ่นโลหะและมีข้อบกพร่อง X ต่อหลา ตัวอย่างเช่น สมมติว่าอัตราความผิดพลาดอยู่ที่ 2 ต่อหลาของแผ่นงาน จากนั้นใช้การแจกแจงแบบปัวซอง เราสามารถคำนวณความน่าจะเป็นที่จะเกิดข้อผิดพลาดสองรายการในหนึ่งหลา

  • การกระจายทวินาม

    สถิติสำหรับวิทยาศาสตร์ข้อมูล
    หากคุณเคยพบกับสถิติพื้นฐาน คุณอาจเคยเจอการแจกแจงแบบทวินาม

    สมมติว่าคุณมีการทดลองพลิกเหรียญที่ไม่เอนเอียงสามครั้ง
    คุณบอกความน่าจะเป็นที่เหรียญจะโผล่หัวทั้งสามครั้งได้หรือไม่?

    อย่างแรก จากพื้นฐาน combinatorics เราจะพบว่ามีผลลัพธ์ที่เป็นไปได้แปดแบบเมื่อพลิกเหรียญสามครั้ง ทีนี้ เราสามารถพลอตความน่าจะเป็นของการมี 0,1,2 หรือ 3 หัวได้ พล็อตนั้นจะให้การแจกแจงทวินามที่จำเป็นสำหรับปัญหานี้แก่เรา เมื่อวาดกราฟ คุณจะสังเกตได้ว่ามันดูคล้ายกับเส้นโค้งการแจกแจงปกติทั่วไปมาก ตามทฤษฎีแล้ว ทั้งสองมีความคล้ายคลึงกันมาก ในขณะที่การแจกแจงแบบทวินามใช้สำหรับค่าที่ไม่ต่อเนื่อง (จำนวนจำกัดของการพลิกเหรียญ) การแจกแจงแบบปกติจะดูแลค่าที่ต่อเนื่อง

    มีการแจกแจงจำนวนอื่นนอกเหนือจากที่เราพูดถึงข้างต้น หากคุณเป็นคนสนใจและต้องการติดอาวุธให้ตัวเองให้ดียิ่งขึ้นด้วย สถิติที่จำเป็นสำหรับ Data Scienc e เราขอแนะนำให้คุณอ่านเกี่ยวกับการแจกแจงต่อไปนี้ด้วย:

  • การกระจายทางเรขาคณิต
  • การกระจายแบบไฮเปอร์เรขาคณิต
  • การกระจายเครื่องแบบแบบไม่ต่อเนื่อง
  • การกระจายทวินามเชิงลบ
การวิเคราะห์ข้อมูลเชิงสำรวจและความสำคัญต่อธุรกิจของคุณ

ทฤษฎีบทและอัลกอริทึมบางอย่าง

เมื่อเราพูดถึง สถิติสำหรับวิทยาศาสตร์ข้อมูล เราไม่สามารถละเลยทฤษฎีบทและอัลกอริทึมพื้นฐานที่เป็นรากฐานของไลบรารีจำนวนมากที่คุณจะใช้ในฐานะนักวิทยาศาสตร์ข้อมูล มีอัลกอริธึมการจำแนกประเภท, อัลกอริธึมการจัดกลุ่ม, อัลกอริธึมโครงข่ายประสาทเทียม, แผนผังการตัดสินใจ และอื่นๆ อีกมากมาย ในส่วนนี้ เราจะพูดถึงทฤษฎีบทพื้นฐานสองสามข้อที่คุณควรรู้ และยังช่วยให้คุณเข้าใจทฤษฎีบทที่ซับซ้อนอื่นๆ ได้อย่างง่ายดาย

ทฤษฎีบทเบย์

นี่เป็นหนึ่งในทฤษฎีบททั่วไปที่คุณจะเจอ ถ้าคุณเคยศึกษาอย่างเป็นทางการในด้านวิทยาการคอมพิวเตอร์มาก่อน ในช่วงหลายปีที่ผ่านมามีหนังสือหลายเล่มที่กล่าวถึงทฤษฎีบทเบย์และแนวความคิดอย่างประณีตบรรจงมากเกินไป

ทฤษฎีบทเบย์ช่วยลดความซับซ้อนของแนวคิดที่ซับซ้อน มันอธิบายข้อเท็จจริงทางสถิติมากมายโดยใช้ตัวแปรง่ายๆ สองสามตัว สนับสนุนแนวคิดของ " ความน่าจะเป็นแบบ มีเงื่อนไข " (เช่น ถ้า A เกิดขึ้น จะมีบทบาทในการเกิดขึ้นของ B) สิ่งที่เห็นได้ชัดเจนที่สุดเกี่ยวกับเรื่องนี้คือคุณสามารถทำนายความน่าจะเป็นของสมมติฐานโดยใช้จุดข้อมูลที่กำหนด

Bayes สามารถช่วยคุณคาดการณ์ความน่าจะเป็นของคนที่เป็นมะเร็งได้เพียงแค่รู้อายุของพวกเขา นอกจากนี้ยังสามารถแจ้งให้คุณทราบว่าอีเมลเป็นสแปมโดยพิจารณาจากจำนวนคำหรือไม่ ทฤษฎีบทนี้มีสาระสำคัญที่ใช้ในการขจัดความไม่แน่นอน

ข้อเท็จจริงที่น่าสนุก: ทฤษฎีบทเบย์ช่วยทำนายตำแหน่งของเรือดำน้ำรวมทั้งทำนายการกำหนดค่าของเครื่องอินิกมาเพื่อแปลรหัสภาษาเยอรมันในสงครามโลกครั้งที่ 2 แม้แต่ใน Data Science Bayes สมัยใหม่ก็ยังพบแอปพลิเคชั่นมากมายในอัลกอริธึมมากมาย
คลังข้อมูลและการทำเหมืองข้อมูลคืออะไร

K-Nearest Neighbor Algorithm

สถิติสำหรับวิทยาศาสตร์ข้อมูล
นี่เป็นอัลกอริธึมที่ง่ายมากทั้งในแง่ของความเข้าใจและการนำไปใช้ มากจนเรียกว่า "อัลกอริทึมขี้เกียจ" ความเรียบง่ายของมันอยู่ที่ว่ามันขึ้นอยู่กับการหักทางตรรกะ มากกว่าพื้นฐานของสถิติใดๆ ในแง่คนธรรมดา อัลกอริธึมนี้มองหากลุ่มที่ใกล้เคียงกันมากที่สุด

K-NN ใช้แนวคิด Euclidean Distance ค้นหากลุ่มท้องถิ่นในและรอบจุดโฟกัสที่กำหนด ตัวเลขนั้นแสดงด้วย "k" มีหลายวิธีในการค้นหาว่าค่าของ 'k' ควรเป็นเท่าใด เนื่องจากเป็นค่าที่ผู้ใช้ตัดสินใจ

แนวคิดนี้ยอดเยี่ยมสำหรับการจัดกลุ่มคุณลักษณะ การแบ่งส่วนตลาดขั้นพื้นฐาน และการค้นหาค่าผิดปกติจากกลุ่มของการป้อนข้อมูล ภาษาโปรแกรมที่ทันสมัยส่วนใหญ่ใช้อัลกอริทึม K-NN ในโค้ดเพียงสองบรรทัด

การบรรจุ (การรวม Bootstrap)

การบรรจุถุงหมายถึงการสร้างแบบจำลองมากกว่าหนึ่งแบบจำลองของอัลกอริธึมเดียว เช่นเดียวกับแผนผังการตัดสินใจ โมเดลแต่ละรุ่นได้รับการฝึกอบรมเกี่ยวกับข้อมูลตัวอย่างที่แตกต่างกัน (ซึ่งเรียกว่าตัวอย่างบูตสแตรป)

ดังนั้น โครงสร้างการตัดสินใจแต่ละรายการจึงถูกสร้างขึ้นโดยใช้ข้อมูลตัวอย่างที่แตกต่างกัน ซึ่งจะช่วยแก้ปัญหาเรื่องขนาดกลุ่มตัวอย่างมากเกินไป การจัดกลุ่มแผนผังการตัดสินใจเช่นนี้ช่วยลดข้อผิดพลาดทั้งหมดได้ เนื่องจากความแปรปรวนโดยรวมลดลงเมื่อต้นไม้ใหม่แต่ละต้นเพิ่มเข้ามา ถุงของต้นไม้ตัดสินใจดังกล่าวเรียกว่าป่าสุ่ม

เริ่มต้นในวิทยาศาสตร์ข้อมูลด้วย Python

การวิเคราะห์เส้นโค้ง ROC

สถิติสำหรับวิทยาศาสตร์ข้อมูล
คำว่า ROC ย่อมาจากลักษณะการทำงานของผู้รับ กราฟการวิเคราะห์ ROC พบการใช้งานอย่างกว้างขวางใน Data Science โดยจะคาดการณ์ว่าการทดสอบน่าจะทำได้ดีเพียงใดโดยการวัดความไวโดยรวมเทียบกับอัตราการหลุดออก การวิเคราะห์ ROC มีความสำคัญอย่างยิ่งในการพิจารณาความอยู่รอดของแบบจำลองใดๆ

มันทำงานอย่างไร?

โมเดลแมชชีนเลิร์นนิงของคุณอาจให้การคาดคะเนที่ไม่ถูกต้อง บางส่วนเป็นเพราะค่าเฉพาะควรเป็น 'จริง' แต่ถูกตั้งค่าเป็น 'เท็จ' หรือกลับกัน

ความน่าจะเป็นที่คุณจะถูกต้องแล้วเป็นเท่าไหร่?

เมื่อใช้เส้นโค้ง ROC คุณจะเห็นว่าการคาดการณ์ของคุณแม่นยำเพียงใด ด้วยคำอุปมาสองคำที่แตกต่างกัน คุณยังสามารถคิดออกว่าควรใส่ค่าเกณฑ์ของคุณไว้ที่ใด เกณฑ์คือที่ที่คุณตัดสินใจว่าการจัดประเภทไบนารีเป็นค่าบวกหรือค่าลบ – จริงหรือเท็จ

เมื่ออุปมาทั้งสองใกล้กันมากขึ้น พื้นที่ใต้เส้นโค้งมักจะเป็นศูนย์ โดยพื้นฐานแล้วหมายความว่าแบบจำลองของคุณมีแนวโน้มที่จะไม่ถูกต้อง ยิ่งพื้นที่มากขึ้น ความแม่นยำของแบบจำลองของคุณก็ยิ่งมากขึ้นเท่านั้น นี่เป็นหนึ่งในการทดสอบแรกๆ ที่ใช้ในการทดสอบการสร้างแบบจำลองใดๆ เนื่องจากจะช่วยตรวจหาปัญหาตั้งแต่เนิ่นๆ โดยบอกว่าแบบจำลองนั้นถูกต้องหรือไม่

ตัวอย่างกราฟ ROC ในชีวิตจริง – ใช้เพื่ออธิบายความเชื่อมโยง/การแลกเปลี่ยนระหว่างความไวทางคลินิกและความจำเพาะสำหรับการตัดออกสำหรับการทดสอบเฉพาะหรือการทดสอบรวมกัน - ในรูปแบบกราฟิก นอกจากนี้ พื้นที่ใต้เส้นโค้ง ROC ยังให้แนวคิดที่เป็นธรรมเกี่ยวกับประโยชน์ของการใช้การทดสอบที่กล่าวถึงข้างต้น ดังนั้นเส้นโค้ง ROC จึงพบการใช้อย่างกว้างขวางในชีวเคมีสำหรับการเลือกจุดตัดที่เหมาะสม ตามหลักการแล้ว การตัดที่ดีที่สุดคืออันที่มีอัตราการบวกลวงต่ำที่สุดและมีอัตราการบวกจริงสูงสุดด้วยกัน

คุณจะเปลี่ยนไปใช้ Data Analytics ได้อย่างไร

ความสำคัญของสถิติในวิทยาศาสตร์ข้อมูล

จากการสนทนาข้างต้น เมื่อคุณทราบแนวคิดพื้นฐานของสถิติและพื้นฐานของสถิติแล้ว มาพูดถึงความสำคัญในการเรียนรู้สถิติสำหรับวิทยาศาสตร์ข้อมูลกัน เครื่องมือและเทคโนโลยีที่สำคัญในการจัดระเบียบและค้นหาข้อมูลเชิงลึกในข้อมูล เพื่อวิเคราะห์และหาปริมาณข้อมูลมีให้โดยสถิติสำหรับการวิเคราะห์ข้อมูล

เราได้ให้ภาพรวมของแนวคิดพื้นฐานของสถิติและผลกระทบของสถิติต่อการสำรวจข้อมูล การวิเคราะห์ การสร้างแบบจำลอง และการแสดงข้อมูล นอกจากนี้ เรายังระบุถึงปัญหาหากปัญหานั้นไม่สอดคล้องกันในขณะที่ละเลยพื้นฐานของสถิติ หากคุณสนใจที่จะเข้าร่วมในอุตสาหกรรมที่เติบโตเร็วที่สุด เข้ามาที่เว็บไซต์ของเราที่ UpGrad เพื่อติดตามบทแนะนำเกี่ยวกับสถิติสำหรับวิทยาศาสตร์ข้อมูล เนื่องจากเรามีหลักสูตรออนไลน์และออฟไลน์ในหลักสูตรเดียวกัน เมื่อคุณพัฒนาเกมของคุณด้วยพื้นฐานของสถิติและพื้นฐานของสถิติอย่างน้อย คุณก็จะพร้อม

สรุปแล้ว…
รายการหัวข้อด้านบนไม่ใช่รายการที่ครอบคลุมของทุกสิ่งที่คุณจำเป็นต้องรู้ในสถิติ รายการนี้เป็นเพียงเพื่อให้คุณได้ทราบว่าทุกสิ่งที่คุณอาจพบในการเดินทางของ Data Science เป็นอย่างไร และคุณจะเตรียมตัวอย่างไรสำหรับมัน

โดยรวมแล้ว บทความนี้จะแนะนำแนวคิดหลักบางประการของ สถิติสำหรับวิทยาศาสตร์ ข้อมูล ความเข้าใจอย่างลึกซึ้งเกี่ยวกับแนวคิดที่อธิบายควบคู่กันจะช่วยให้คุณเข้าใจแนวคิดอื่นๆ ได้อย่างง่ายดาย หากคุณต้องการสำรวจเพิ่มเติมและเชี่ยวชาญด้านวิทยาศาสตร์ข้อมูล ให้ค้นหาหลักสูตรวิทยาศาสตร์ข้อมูลออนไลน์ที่ดีที่สุดของเรา

สถิติสำหรับ Data Science มีความสำคัญอย่างไร?

สถิติให้เทคนิคและเครื่องมือในการระบุโครงสร้างในข้อมูลขนาดใหญ่ ตลอดจนช่วยให้บุคคลและองค์กรมีความเข้าใจมากขึ้นเกี่ยวกับความเป็นจริงที่เปิดเผยโดยข้อมูลของตน โดยใช้วิธีการทางสถิติที่เหมาะสม ซึ่งช่วยให้สามารถจำแนกประเภทและจัดระเบียบได้ ช่วยในการคำนวณการแจกแจงความน่าจะเป็นและการประมาณค่า และค้นหาโครงสร้างในข้อมูลโดยการระบุความผิดปกติและแนวโน้ม สถิติยังช่วยในการสร้างภาพข้อมูลและการสร้างแบบจำลองด้วยการใช้กราฟและเครือข่าย ช่วยในการระบุกลุ่มข้อมูลหรือโครงสร้างอื่นๆ ที่ได้รับผลกระทบจากตัวแปร และช่วยลดจำนวนสมมติฐานในแบบจำลอง ซึ่งจะทำให้ถูกต้องและมีประโยชน์มากขึ้น

แนวคิดพื้นฐานที่สำคัญของสถิติที่จำเป็นสำหรับ Data Science คืออะไร

แนวคิดหลักของสถิติเป็นสิ่งจำเป็นสำหรับวิทยาศาสตร์ข้อมูล นี่คือแนวคิดหลักบางส่วนที่ช่วยให้คุณเริ่มต้นเส้นทางวิทยาศาสตร์ข้อมูลของคุณ:

1. ความน่าจะเป็น : นี่เป็นพื้นฐานสำหรับวิทยาศาสตร์ข้อมูล ทฤษฎีความน่าจะเป็นค่อนข้างมีประโยชน์ในการกำหนดการคาดการณ์ ข้อมูลเป็นพื้นฐานของความน่าจะเป็นและสถิติทั้งหมด
2. การสุ่มตัวอย่าง : การสุ่มตัวอย่างข้อมูลเป็นเทคนิคการวิเคราะห์ทางสถิติที่เกี่ยวข้องกับการเลือก การจัดการ และการวิเคราะห์การเลือกจุดข้อมูลตัวแทน เพื่อค้นหารูปแบบและแนวโน้มในการรวบรวมข้อมูลขนาดใหญ่
3. แนวโน้มและการกระจายของข้อมูล : การกระจายข้อมูลเป็นปัจจัยสำคัญ ความสำคัญของการกระจายที่รู้จักกันดีเช่นการแจกแจงแบบปกตินั้นยิ่งใหญ่มาก ด้วยเหตุนี้ การพิจารณาการกระจายและความเบ้ของข้อมูลจึงเป็นแนวคิดที่สำคัญ
4. การทดสอบสมมติฐาน : การทดสอบสมมติฐานระบุสถานการณ์ที่ควรทำหรือไม่ดำเนินการขึ้นอยู่กับผลลัพธ์ที่คาดหวัง
5. รูปแบบต่างๆ : หมายถึงการบิดเบือน ข้อผิดพลาด และการเปลี่ยนแปลงของข้อมูล
6. การถดถอย : เป็นสิ่งสำคัญสำหรับ Data Science เนื่องจากช่วยในการทำความเข้าใจโซลูชันที่มีอยู่ตลอดจนการค้นพบนวัตกรรมใหม่

สถิติใช้ใน Data Science อย่างไร?

นักวิทยาศาสตร์ข้อมูลใช้สถิติเพื่อช่วยให้ธุรกิจตัดสินใจเกี่ยวกับผลิตภัณฑ์ได้ดีขึ้น ออกแบบและตีความการทดลองใช้ กำหนดปัจจัยที่ขับเคลื่อนยอดขาย คาดการณ์แนวโน้มและรูปแบบการขาย การแสดงข้อมูลและประสิทธิภาพของอัลกอริธึมด้วยภาพช่วยค้นหาค่าผิดปกติ รูปแบบเล็กน้อยที่เฉพาะเจาะจง และสรุปเมตริก