ความแตกต่างระหว่าง Data Science, Machine Learning และ Big Data!
เผยแพร่แล้ว: 2017-11-03ผู้เชี่ยวชาญหลายคนและผู้ที่ชื่นชอบ 'ข้อมูล' มักจะถามว่า "วิทยาศาสตร์ข้อมูล การเรียนรู้ของเครื่อง และ Big Data แตกต่างกันอย่างไร" เป็นคำถามที่ถามบ่อยในปัจจุบันนี้
สารบัญ
นี่คือสิ่งที่ทำให้ Data Science, Machine Learning และ Big Data แตกต่างจากกัน:
วิทยาศาสตร์ข้อมูล
Data Science เป็นไปตามแนวทางสหวิทยาการ ตั้งอยู่ที่จุดตัดของคณิตศาสตร์ สถิติ ปัญญาประดิษฐ์ วิศวกรรมซอฟต์แวร์ และการคิดเชิงออกแบบ Data Science เกี่ยวข้องกับการเก็บรวบรวมข้อมูล การทำความสะอาด การวิเคราะห์ การสร้างภาพ การสร้างแบบจำลอง การตรวจสอบแบบจำลอง การทำนาย การออกแบบการทดลอง การทดสอบสมมติฐาน และอื่นๆ อีกมากมาย จุดมุ่งหมายของขั้นตอนทั้งหมดเหล่านี้เป็นเพียงการหาข้อมูลเชิงลึกจากข้อมูลเท่านั้น
การแปลงเป็นดิจิทัลกำลังก้าวหน้าในอัตราเลขชี้กำลัง การเข้าถึงอินเทอร์เน็ตมีการปรับปรุงที่ความเร็วเบรก ผู้คนจำนวนมากขึ้นเรื่อย ๆ เข้าสู่ระบบนิเวศดิจิทัล กิจกรรมทั้งหมดเหล่านี้สร้างข้อมูลจำนวนมหาศาล ขณะนี้บริษัทต่างๆ กำลังนั่งอยู่บนทุ่นระเบิดข้อมูล แต่ข้อมูลโดยตัวมันเองไม่ได้มีประโยชน์อะไรมากนัก นี่คือที่มาของ Data Science ช่วยใน การขุดข้อมูลนี้และรับข้อมูลเชิงลึกจากมัน สำหรับการดำเนินการที่มีความหมาย เครื่องมือ Data Science ต่างๆ สามารถช่วยเราในกระบวนการสร้างข้อมูลเชิงลึก หากคุณเป็นมือใหม่และสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับวิทยาศาสตร์ข้อมูล โปรดดูหลักสูตรนักวิทยาศาสตร์ข้อมูลของเราจากมหาวิทยาลัยชั้นนำ
มีกรอบงานเพื่อช่วยให้ได้รับข้อมูลเชิงลึกจากข้อมูล กรอบงานไม่ได้เป็นอะไรนอกจากโครงสร้างที่สนับสนุน เป็นวงจรชีวิตที่ใช้ในการจัดโครงสร้างการพัฒนาโครงการ Data Science วงจรชีวิตจะสรุปขั้นตอนต่างๆ ตั้งแต่ต้นจนจบ ซึ่งโครงการมักจะตามมา กล่าวอีกนัยหนึ่ง มันแบ่งความท้าทายที่ซับซ้อนออกเป็นขั้นตอนง่ายๆ
สิ่งนี้ทำให้มั่นใจได้ว่าจะไม่พลาดช่วงสำคัญใดๆ ซึ่งนำไปสู่การสร้างข้อมูลเชิงลึกที่นำไปใช้ได้จริงจากข้อมูล
กรอบงานหนึ่งดังกล่าวคือ 'กระบวนการมาตรฐานข้ามอุตสาหกรรมสำหรับการทำเหมืองข้อมูล' ซึ่งย่อมาจากกรอบงาน CRISP-DM อีกอันคือ 'Team Data Science Process' (TDSP) จาก Microsoft
มาทำความเข้าใจสิ่งนี้ด้วยความช่วยเหลือของตัวอย่าง ธนาคารชื่อ 'X' ซึ่งดำเนินธุรกิจมากว่าสิบปี ได้รับใบสมัครเงินกู้จากลูกค้ารายหนึ่ง ตอนนี้ต้องการคาดการณ์ว่าลูกค้ารายนี้จะผิดนัดชำระคืนเงินกู้หรือไม่ ธนาคารจะดำเนินการเพื่อบรรลุภารกิจนี้ได้อย่างไร

เช่นเดียวกับธนาคารอื่นๆ X จะต้องเก็บข้อมูลเกี่ยวกับแง่มุมต่างๆ ของลูกค้า เช่น ข้อมูลประชากร ข้อมูลที่เกี่ยวข้องกับลูกค้า เป็นต้น ในช่วง 10 ปีที่ผ่านมา ลูกค้าจำนวนมากน่าจะสามารถชำระคืนเงินกู้ได้สำเร็จ แต่ลูกค้าบางรายอาจมี ผิดนัด ธนาคารนี้จะใช้ประโยชน์จากข้อมูลนี้เพื่อปรับปรุงความสามารถในการทำกำไรได้อย่างไร พูดง่ายๆ จะหลีกเลี่ยงการให้สินเชื่อแก่ลูกค้าที่มีแนวโน้มจะผิดนัดชำระได้อย่างไร พวกเขาจะมั่นใจได้อย่างไรว่าจะไม่สูญเสียลูกค้าที่ดีที่มีแนวโน้มจะชำระหนี้มากขึ้น? Data Science สามารถช่วยเราแก้ปัญหานี้ได้
ข้อมูลดิบ -> วิทยาศาสตร์ข้อมูล -> ข้อมูลเชิงลึกที่นำไปใช้ได้จริง
มาทำความเข้าใจว่า Data Science สาขาต่างๆ จะช่วยให้ธนาคารเอาชนะความท้าทายได้อย่างไร สถิติจะช่วยในการออกแบบการทดลอง ค้นหาความสัมพันธ์ระหว่างตัวแปร การทดสอบสมมติฐาน การวิเคราะห์ข้อมูลเชิงสำรวจ ฯลฯ ในกรณีนี้ วัตถุประสงค์ของเงินกู้หรือคุณสมบัติทางการศึกษาของลูกค้าอาจส่งผลต่อการผิดนัดชำระหนี้ของลูกค้า หลังจากดำเนินการล้างข้อมูลและศึกษาเชิงสำรวจ ข้อมูลจะพร้อมสำหรับการสร้างแบบจำลอง
สถิติและปัญญาประดิษฐ์จัดเตรียมอัลกอริทึมสำหรับการสร้างแบบจำลอง การสร้างแบบจำลองเป็นที่ที่การเรียนรู้ของเครื่องเข้ามาสู่ภาพ แมชชีนเลิร์นนิงเป็นสาขาหนึ่งของปัญญาประดิษฐ์ที่วิทยาศาสตร์ข้อมูลใช้เพื่อบรรลุวัตถุประสงค์ ก่อนดำเนินการกับตัวอย่างการธนาคาร เรามาทำความเข้าใจว่าแมชชีนเลิร์นนิงคืออะไร
ขั้นตอนสำคัญในการควบคุมข้อมูล เชื่อฉันเถอะว่าฉันพยายามแล้ว
การเรียนรู้ของเครื่อง
“แมชชีนเลิร์นนิงเป็นรูปแบบหนึ่งของปัญญาประดิษฐ์ มันทำให้เครื่องจักรมีความสามารถในการเรียนรู้โดยไม่ต้องตั้งโปรแกรมไว้อย่างชัดเจน”
เครื่องจะเรียนรู้ได้อย่างไรโดยไม่ต้องตั้งโปรแกรมไว้อย่างชัดเจน? คอมพิวเตอร์เป็นเพียงอุปกรณ์ที่ทำขึ้นเพื่อปฏิบัติตามคำแนะนำไม่ใช่หรือ ไม่อีกแล้ว.
แมชชีนเลิร์นนิงประกอบด้วยชุดอัลกอริธึมอัจฉริยะ ซึ่งช่วยให้แมชชีนเรียนรู้ได้โดยไม่ต้องตั้งโปรแกรมไว้อย่างชัดเจน การเรียนรู้ของเครื่องช่วยให้คุณเรียนรู้ฟังก์ชันวัตถุประสงค์ ซึ่งจับคู่อินพุตกับตัวแปรเป้าหมาย หรือตัวแปรอิสระกับตัวแปรตาม
ในตัวอย่างด้านการธนาคารของเรา ฟังก์ชันวัตถุประสงค์จะกำหนดตัวแปรทางประชากร ลูกค้า และพฤติกรรมต่างๆ ซึ่งมีอิทธิพลต่อความน่าจะเป็นของการผิดนัดชำระหนี้ คุณลักษณะหรือข้อมูลที่เป็นอิสระคือตัวแปรทางประชากร ลูกค้า และพฤติกรรมของลูกค้า ตัวแปรตามคือ 'เป็นค่าเริ่มต้น' หรือไม่ ฟังก์ชันวัตถุประสงค์คือสมการที่จับคู่อินพุตเหล่านี้กับเอาต์พุต เป็นฟังก์ชันที่บอกเราว่าตัวแปรอิสระตัวใดมีอิทธิพลต่อตัวแปรตาม กล่าวคือ แนวโน้มที่จะเริ่มต้น กระบวนการได้มาซึ่งฟังก์ชันวัตถุประสงค์ ซึ่งแมปอินพุตกับเอาท์พุตนี้เรียกว่าการสร้างแบบจำลอง

ในขั้นต้น ฟังก์ชันวัตถุประสงค์นี้จะไม่สามารถคาดการณ์ได้อย่างแม่นยำว่าลูกค้าจะผิดนัดหรือไม่ เมื่อโมเดลพบกับอินสแตนซ์ใหม่ โมเดลจะเรียนรู้และพัฒนา จะดีขึ้นเมื่อมีตัวอย่างมากขึ้นเรื่อยๆ ในที่สุด โมเดลนี้ก็มาถึงขั้นที่สามารถบอกได้อย่างแม่นยำในระดับหนึ่ง
เช่น ลูกค้าคนใดจะผิดนัด และใครที่ธนาคารสามารถพึ่งพาได้เพื่อปรับปรุงความสามารถในการทำกำไร
แมชชีนเลิร์นนิงมุ่งหวังที่จะบรรลุ 'ความสามารถทั่วไป' ซึ่งหมายความว่า ฟังก์ชันวัตถุประสงค์ ซึ่งจับคู่อินพุตกับเอาต์พุต ควรนำไปใช้กับข้อมูลที่ยังไม่พบ ในตัวอย่างธนาคาร โมเดลของเราเรียนรู้รูปแบบจากข้อมูลที่ให้ไว้ โมเดลกำหนดว่าตัวแปรใดจะส่งผลต่อแนวโน้มที่จะเริ่มต้น หากลูกค้าใหม่ยื่นขอสินเชื่อ ณ จุดนี้ตัวแปรของเขา/เธอยังไม่เห็นในแบบจำลองนี้ โมเดลควรเกี่ยวข้องกับลูกค้ารายนี้เช่นกัน ควรคาดการณ์ได้อย่างน่าเชื่อถือว่าลูกค้ารายนี้จะผิดนัดหรือไม่
หากโมเดลนี้ไม่สามารถทำได้ ก็จะไม่สามารถสรุปข้อมูลที่มองไม่เห็นได้ มันเป็นกระบวนการวนซ้ำ เราจำเป็นต้องสร้างแบบจำลองหลายๆ แบบเพื่อดูว่าอันไหนใช้ไม่ได้
วิทยาศาสตร์ข้อมูลและการวิเคราะห์ใช้ประโยชน์จากแมชชีนเลิร์นนิงสำหรับการสร้างและการตรวจสอบแบบจำลองประเภทนี้ สิ่งสำคัญคือต้องสังเกตว่าอัลกอริธึมทั้งหมดสำหรับการสร้างแบบจำลองนี้ไม่ได้มาจากการเรียนรู้ของเครื่อง สามารถเข้าได้จากช่องอื่นๆ โมเดลต้องมีความเกี่ยวข้องตลอดเวลา หากเงื่อนไขเปลี่ยนแปลง โมเดลที่เราสร้างขึ้นก่อนหน้านี้อาจไม่เกี่ยวข้อง
แบบจำลองต้องได้รับการตรวจสอบความสามารถในการคาดการณ์ในช่วงเวลาต่างๆ และจำเป็นต้องแก้ไขหากความสามารถในการคาดการณ์ลดลง เพื่อให้พนักงานธนาคารตัดสินใจได้ทันทีในขณะที่ลูกค้ายื่นขอสินเชื่อ แบบจำลองนั้นจะต้องถูกรวมเข้ากับระบบไอทีของธนาคาร เซิร์ฟเวอร์ของธนาคารควรโฮสต์โมเดล เมื่อลูกค้ายื่นขอสินเชื่อ ตัวแปรของเขาจะต้องถูกบันทึกจากเว็บไซต์และใช้งานโดยแบบจำลองที่ทำงานบนเซิร์ฟเวอร์
จากนั้น โมเดลนี้ควรถ่ายทอดการตัดสินใจ — ไม่ว่าเครดิตจะได้รับหรือไม่ — ให้กับพนักงานธนาคารทันที กระบวนการนี้อยู่ภายใต้โดเมนของเทคโนโลยีสารสนเทศซึ่งยังใช้โดยวิทยาศาสตร์ข้อมูล
ในท้ายที่สุด มันคือทั้งหมดที่เกี่ยวกับการสื่อสารผลลัพธ์จากการวิเคราะห์ ในที่นี้ ทักษะการนำเสนอและการเล่าเรื่องจำเป็นต้องแสดงให้เห็นผลจากการศึกษาอย่างมีประสิทธิภาพ Design-thinking ช่วยในการมองเห็นผลลัพธ์ และบอกเล่าเรื่องราวจากการวิเคราะห์ได้อย่างมีประสิทธิภาพ
จับตาดูสิ่งที่ยิ่งใหญ่ต่อไป: การเรียนรู้ของเครื่อง
ข้อมูลใหญ่
ส่วนสุดท้ายของปริศนาของเราคือ 'ข้อมูลขนาดใหญ่' ต่างจาก Data Science และ Machine Learning อย่างไร?
ตาม IBM เราสร้างข้อมูล 2.5 Quintillion (2.5 × 1018) ไบต์ทุกวัน! จำนวนข้อมูลที่บริษัทต่างๆ รวบรวมนั้นมีมากมายจนทำให้เกิดความท้าทายมากมายเกี่ยวกับการได้มาซึ่งข้อมูล การจัดเก็บ การวิเคราะห์ และการแสดงภาพ ปัญหาไม่ได้อยู่ที่ปริมาณข้อมูลที่มีอยู่ทั้งหมด แต่ยังรวมถึงความหลากหลาย ความจริงใจ และความรวดเร็วของข้อมูลด้วย ความท้าทายทั้งหมดนี้จำเป็นต้องมีวิธีการและเทคนิคชุดใหม่ในการจัดการกับสิ่งเดียวกัน
ข้อมูลขนาดใหญ่เกี่ยวข้องกับตัว V สี่ตัว ได้แก่ Volume, Variety, Veracity และ Velocity ซึ่งแตกต่างจากข้อมูลทั่วไป

ปริมาณ:
ปริมาณข้อมูลที่เกี่ยวข้องในที่นี้มีจำนวนมหาศาล จนต้องใช้โครงสร้างพื้นฐานเฉพาะเพื่อได้มา จัดเก็บ และวิเคราะห์ วิธีการคำนวณแบบกระจายและแบบขนานถูกนำมาใช้เพื่อจัดการกับปริมาณข้อมูลนี้
ความหลากหลาย:
ข้อมูลมาในรูปแบบต่างๆ มีโครงสร้างหรือไม่มีโครงสร้าง เป็นต้น โครงสร้างหมายถึงการจัดเรียงแถวและคอลัมน์อย่างเป็นระเบียบ ไม่มีโครงสร้างหมายความว่ามันมาในรูปแบบของย่อหน้า วิดีโอ และรูปภาพ ฯลฯ ข้อมูลประเภทนี้ยังประกอบด้วยข้อมูลจำนวนมาก ข้อมูลที่ไม่มีโครงสร้างต้องการระบบฐานข้อมูลที่แตกต่างจาก RDBMS แบบเดิม คาสซานดราเป็นหนึ่งในฐานข้อมูลดังกล่าวเพื่อจัดการข้อมูลที่ไม่มีโครงสร้าง
ความจริง:
การมีข้อมูลจำนวนมากจะไม่นำไปสู่ข้อมูลเชิงลึกที่นำไปปฏิบัติได้ ต้องถูกต้องจึงจะมีความหมาย ต้องใช้ความระมัดระวังอย่างยิ่งเพื่อให้แน่ใจว่าข้อมูลที่บันทึกไว้นั้นถูกต้อง และรักษาความศักดิ์สิทธิ์ไว้ เมื่อมีปริมาณและความหลากหลายเพิ่มขึ้น
ความเร็ว:
หมายถึงความเร็วที่สร้างข้อมูล 90% ของข้อมูลในโลกปัจจุบันถูกสร้างขึ้นในช่วงสองปีที่ผ่านมาเพียงอย่างเดียว อย่างไรก็ตาม ความเร็วของข้อมูลที่สร้างขึ้นนี้ทำให้เกิดความท้าทายในตัวเอง สำหรับบางธุรกิจ การวิเคราะห์ตามเวลาจริงเป็นสิ่งสำคัญ ความล่าช้าใดๆ จะลดมูลค่าของข้อมูลและการวิเคราะห์สำหรับธุรกิจ Spark เป็นแพลตฟอร์มหนึ่งที่ช่วยวิเคราะห์ข้อมูลการสตรีม

เมื่อเวลาผ่านไป 'V' ใหม่จะถูกเพิ่มเข้าไปในคำจำกัดความของข้อมูลขนาดใหญ่ แต่ — ปริมาณ, ความหลากหลาย, ความจริงใจ, และความเร็ว — เป็นองค์ประกอบสำคัญสี่ประการที่แยกข้อมูลจากข้อมูลขนาดใหญ่ อัลกอริธึมที่จัดการกับบิ๊กดาต้า รวมถึงอัลกอริธึมแมชชีนเลิร์นนิง ได้รับการปรับให้เหมาะสมเพื่อใช้ประโยชน์จากโครงสร้างพื้นฐานฮาร์ดแวร์ที่แตกต่างกัน ซึ่งใช้เพื่อจัดการกับบิ๊กดาต้า
บทบาท Big Data และเงินเดือนในอุตสาหกรรมการเงิน
เพื่อสรุป Executive PG Program in Data Science เป็นสาขาวิชาสหวิทยาการที่มีจุดมุ่งหมายเพื่อให้ได้ข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้จริงจากข้อมูล การเรียนรู้ด้วยเครื่องเป็นสาขาหนึ่งของปัญญาประดิษฐ์ที่วิทยาศาสตร์ข้อมูลใช้ในการสอนให้เครื่องจักรสามารถเรียนรู้ได้โดยไม่ต้องมีความเข้าใจอย่างชัดเจน
โปรแกรม ปริมาณ ความหลากหลาย ความจริงใจ และความเร็วเป็นองค์ประกอบสำคัญสี่ประการที่ทำให้ข้อมูลขนาดใหญ่แตกต่างจากข้อมูลทั่วไป
