การวิเคราะห์ข้อมูลเชิงสำรวจและความสำคัญต่อธุรกิจของคุณ

เผยแพร่แล้ว: 2018-02-22

การอภิปรายส่วนใหญ่เกี่ยวกับการวิเคราะห์ข้อมูลเกี่ยวข้องกับแง่มุม "วิทยาศาสตร์" ของมัน แน่นอนว่า มีวิทยาศาสตร์มากมายอยู่เบื้องหลังกระบวนการทั้งหมด – อัลกอริธึม สูตร และการคำนวณ แต่คุณไม่สามารถนำ "งานศิลปะ" ไปจากมันได้ การจัดโครงสร้างกระบวนการทั้งหมด ตั้งแต่การวางแผนการวิเคราะห์ ไปจนถึงการทำความเข้าใจผลลัพธ์สุดท้าย ไม่ได้ไร้ความหมาย และไม่น้อยไปกว่ารูปแบบศิลปะ นั่นคือสิ่งที่อยู่ในหัวข้อของเราในวันนี้ – การวิเคราะห์ข้อมูลเชิงสำรวจ ในบทความนี้ เราจะมาดูว่าการวิเคราะห์ข้อมูลเชิงสำรวจคืออะไร เครื่องมือและเทคนิคทั่วไปสำหรับการวิเคราะห์คืออะไร และมีประโยชน์อย่างไรต่อองค์กร

สารบัญ

การวิเคราะห์ข้อมูลเชิงสำรวจคืออะไร?

การวิเคราะห์ข้อมูลเชิงสำรวจเป็นหนึ่งในขั้นตอนสำคัญในกระบวนการวิเคราะห์ข้อมูล ในที่นี้ โฟกัสอยู่ที่การทำความเข้าใจข้อมูลในมือ เช่น การกำหนดคำถามที่ถูกต้องเพื่อถามชุดข้อมูล วิธีจัดการแหล่งข้อมูลเพื่อให้ได้คำตอบที่ต้องการ และอื่นๆ ทำได้โดยพิจารณาแนวโน้ม รูปแบบ และค่าผิดปกติอย่างละเอียดถี่ถ้วนโดยใช้วิธีการแสดงภาพ
การวิเคราะห์ข้อมูลเชิงสำรวจ
การวิเคราะห์ข้อมูลเชิงสำรวจเป็นขั้นตอนที่สำคัญก่อนที่คุณจะข้ามไปยังการเรียนรู้ของเครื่องหรือการสร้างแบบจำลองข้อมูลของคุณ โดยให้บริบทที่จำเป็นในการพัฒนาแบบจำลองที่เหมาะสม และตีความผลลัพธ์ได้อย่างถูกต้อง
การจัดการข้อมูล: คุณจะระบุข้อมูลโกหกได้อย่างไร

ในช่วงหลายปีที่ผ่านมา แมชชีนเลิร์นนิงได้เพิ่มขึ้น และนั่นทำให้เกิดอัลกอริธึมแมชชีนเลิร์นนิงอันทรงพลังจำนวนหนึ่ง ทรงพลังมากจนแทบจะล่อใจให้คุณข้ามขั้นตอนการวิเคราะห์ข้อมูลเชิงสำรวจ แม้ว่าจะเข้าใจได้ว่าทำไมคุณถึงต้องการใช้ประโยชน์จากอัลกอริธึมดังกล่าวและข้าม EDA – ไม่ใช่ความคิดที่ดีที่จะป้อนข้อมูลลงในกล่องดำและรอผล มีการสังเกตครั้งแล้วครั้งเล่าว่า Exploratory Data Analysis ให้ข้อมูลที่สำคัญมากมายซึ่งง่ายต่อการพลาด – ข้อมูลที่ช่วยในการวิเคราะห์ในระยะยาว ตั้งแต่การกำหนดกรอบคำถามไปจนถึงการแสดงผลลัพธ์ หากคุณเป็นมือใหม่และสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับวิทยาศาสตร์ข้อมูล โปรดดูการฝึกอบรมด้านวิทยาศาสตร์ข้อมูลของเราจากมหาวิทยาลัยชั้นนำ

ในขณะที่แง่มุมต่างๆ ของ EDA ยังคงมีอยู่ตราบเท่าที่เรามีข้อมูลที่จะวิเคราะห์ การวิเคราะห์ข้อมูลเชิงสำรวจได้รับการพัฒนาอย่างเป็นทางการในปี 1970 โดย John Turkey ซึ่งเป็นนักวิทยาศาสตร์คนเดียวกับที่สร้างคำว่า "Bit" (ย่อมาจาก Binary Digit) EDA มักถูกมองว่าเป็นปรัชญามากกว่าวิทยาศาสตร์เพราะไม่มีกฎเกณฑ์ที่ยากและรวดเร็วในการเข้าใกล้ วัตถุประสงค์ของการวิเคราะห์ข้อมูลเชิงสำรวจมีความสำคัญต่อการจัดการงานเฉพาะ เช่น:

    • การระบุข้อมูลที่ขาดหายไปและผิดพลาด

    • การทำแผนที่และการทำความเข้าใจโครงสร้างพื้นฐานของข้อมูลของคุณ

    • การระบุตัวแปรที่สำคัญที่สุดในชุดข้อมูลของคุณ

    • การทดสอบสมมติฐานหรือการตรวจสอบสมมติฐานที่เกี่ยวข้องกับแบบจำลองเฉพาะ

    • การสร้างแบบจำลอง parsimonious (หนึ่งที่สามารถอธิบายข้อมูลของคุณโดยใช้ตัวแปรขั้นต่ำ);

  • การประมาณค่าพารามิเตอร์และการหาระยะขอบของข้อผิดพลาด

เครื่องมือและเทคนิคที่ใช้ในการวิเคราะห์ข้อมูลเชิงสำรวจ

S-Plus และ R เป็นภาษาโปรแกรมทางสถิติที่สำคัญที่สุดที่ใช้ในการวิเคราะห์ข้อมูลเชิงสำรวจ ภาษาเหล่านี้มาพร้อมกับเครื่องมือมากมายที่ช่วยให้คุณดำเนินการฟังก์ชันทางสถิติเฉพาะ เช่น:

เทคนิคการจำแนกและการลดขนาด

การวิเคราะห์ข้อมูลเชิงสำรวจ
การจัดกลุ่มจะใช้เป็นหลักในการจัดกลุ่มชุดข้อมูลต่างๆ ตามพารามิเตอร์/ตัวแปรร่วม ข้อมูลที่เรากำลังพูดถึงเป็นแบบหลายมิติ และไม่ง่ายที่จะทำการจัดประเภทหรือจัดกลุ่มในชุดข้อมูลหลายมิติ ดังนั้น เพื่อช่วยในเรื่องนี้ เทคนิคการลดมิติเช่น PCA และ LDA จึงถูกดำเนินการ ซึ่งจะช่วยลดมิติของชุดข้อมูลโดยไม่สูญเสียข้อมูลที่มีค่าใดๆ จากข้อมูลของคุณ
Paradox ของ Simpson ส่งผลต่อข้อมูลอย่างไร

การสร้างภาพข้อมูลแบบไม่แปรผัน

การวิเคราะห์ข้อมูลเชิงสำรวจ
การแสดงภาพข้อมูลแบบไม่แปรผันเป็นการแจกแจงความน่าจะเป็นโดยพื้นฐานแล้วของแต่ละฟิลด์ในชุดข้อมูลดิบ - พร้อมสถิติสรุป การแสดงภาพแบบไม่มีตัวแปรใช้ตารางการกระจายความถี่ แผนภูมิแท่ง ฮิสโตแกรม หรือแผนภูมิวงกลมสำหรับการแสดงกราฟิก

การแสดงภาพแบบสองตัวแปร

การวิเคราะห์ข้อมูลเชิงสำรวจ
สิ่งเหล่านี้ช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถประเมินความสัมพันธ์ระหว่างตัวแปรในชุดข้อมูลของคุณ และช่วยให้คุณกำหนดเป้าหมายตัวแปรที่คุณกำลังดูอยู่ กราฟที่เหมาะสมสำหรับการวิเคราะห์สองตัวแปรขึ้นอยู่กับประเภทของตัวแปรที่เป็นปัญหา ตัวอย่างเช่น หากคุณกำลังจัดการกับตัวแปรต่อเนื่องสองตัว พล็อตแบบกระจายควรเป็นกราฟที่คุณเลือก ถ้าตัวแปรหนึ่งเป็นแบบแบ่งหมวดหมู่และอีกอันเป็นแบบต่อเนื่อง ควรใช้พล็อตแบบกล่อง และเมื่อตัวแปรทั้งสองมีการจัดหมวดหมู่ ก็จะเลือกพล็อตแบบโมเสก
ธุรกิจความปลอดภัยของข้อมูลกำลังเฟื่องฟู!

การสร้างภาพข้อมูลหลายตัวแปร

การวิเคราะห์ข้อมูลเชิงสำรวจ
การแสดงภาพหลายตัวแปรช่วยในการทำความเข้าใจปฏิสัมพันธ์ระหว่างฟิลด์ข้อมูลต่างๆ มันเกี่ยวข้องกับการสังเกตและวิเคราะห์ตัวแปรผลลัพธ์ทางสถิติมากกว่าหนึ่งตัวแปรในเวลาใดก็ตาม

K-หมายถึงการจัดกลุ่ม

การวิเคราะห์ข้อมูลเชิงสำรวจ
โดยทั่วไปแล้วการจัดกลุ่ม K-means จะใช้เพื่อสร้าง "ศูนย์" สำหรับแต่ละคลัสเตอร์ตามค่าเฉลี่ยที่ใกล้ที่สุด เป็นเทคนิคการวนซ้ำที่คอยสร้างและสร้างคลัสเตอร์ขึ้นใหม่ จนกว่าคลัสเตอร์จะก่อตัวขึ้นหยุดการเปลี่ยนแปลงด้วยการวนซ้ำ สามารถใช้เพื่อค้นหาค่าผิดปกติในชุดข้อมูล (จุดที่ไม่ได้เป็นคลัสเตอร์ใด ๆ จะเป็นค่าผิดปกติ)

แบบจำลองการคาดการณ์

การวิเคราะห์ข้อมูลเชิงสำรวจ
ตามชื่อที่แนะนำ การสร้างแบบจำลองการคาดการณ์คือวิธีการที่ใช้สถิติในการทำนายผลลัพธ์ แม้ว่าการคาดคะเนส่วนใหญ่จะมุ่งหวังที่จะทำนายสิ่งที่จะเกิดขึ้นในอนาคต แต่แบบจำลองเชิงพยากรณ์ยังสามารถนำไปใช้กับเหตุการณ์ที่ไม่รู้จักใดๆ ก็ได้ โดยไม่คำนึงว่าจะเกิดขึ้นเมื่อใด ตัวอย่างเช่น เทคนิคนี้สามารถใช้เพื่อตรวจจับอาชญากรรมและระบุตัวผู้ต้องสงสัยแม้หลังจากเกิดอาชญากรรมแล้ว วิธีที่ใช้กันมากที่สุดในการสร้างแบบจำลองการคาดการณ์คือการใช้การถดถอยเชิงเส้น (ดูรูป)
คลังข้อมูลและการทำเหมืองข้อมูลคืออะไร

การวิเคราะห์ข้อมูลเชิงสำรวจช่วยธุรกิจของคุณได้อย่างไรและเหมาะสมกับที่ใด

การวิเคราะห์ข้อมูลเชิงสำรวจให้คุณค่าสูงสุดแก่ธุรกิจใดๆ โดยช่วยให้นักวิทยาศาสตร์เข้าใจว่าผลลัพธ์ที่ได้มีการตีความอย่างถูกต้องหรือไม่ และนำไปใช้กับบริบททางธุรกิจที่จำเป็นหรือไม่ การวิเคราะห์ข้อมูลเชิงสำรวจยังเป็นประโยชน์ต่อผู้มีส่วนได้ส่วนเสียด้วยการยืนยันว่าคำถามที่พวกเขาถามนั้นถูกต้องหรือไม่ Exploratory Data Science มักจะมาพร้อมกับข้อมูลเชิงลึกที่คาดเดาไม่ได้ ซึ่งเป็นข้อมูลที่ผู้มีส่วนได้ส่วนเสียหรือนักวิทยาศาสตร์ด้านข้อมูลไม่สนใจที่จะตรวจสอบโดยทั่วไป แต่ก็ยังสามารถพิสูจน์ได้ว่าเป็นข้อมูลสูงเกี่ยวกับธุรกิจ
มี ตัวเชื่อมต่อข้อมูล จำนวนมาก ที่ช่วยให้องค์กรรวม Exploratory Data Analysis เข้ากับซอฟต์แวร์ Business Intelligence ได้โดยตรง คุณยังสามารถตั้งค่านี้เพื่อให้ข้อมูลไหลไปในทางอื่นได้ด้วย โดยการสร้างและเรียกใช้แบบจำลองทางสถิติใน (เช่น) R ที่ใช้ข้อมูล BI และอัปเดตโดยอัตโนมัติเมื่อข้อมูลใหม่ไหลเข้าสู่แบบจำลอง
กรณีการใช้งานที่เป็นไปได้ของ Exploratory Data Analysis นั้นมีหลากหลาย แต่ท้ายที่สุดแล้ว ทั้งหมดนี้ล้วนมีเหตุผล – Exploratory Data Analysis เป็นข้อมูลเกี่ยวกับการทำความรู้จักและทำความเข้าใจข้อมูลของคุณก่อนที่จะตั้งสมมติฐาน หรือดำเนินการตามขั้นตอนใดๆ ของการทำเหมืองข้อมูล ช่วยให้คุณหลีกเลี่ยงการสร้างแบบจำลองที่ไม่ถูกต้องหรือสร้างแบบจำลองที่ถูกต้องบนข้อมูลที่ไม่ถูกต้อง
การดำเนินการตามขั้นตอนนี้อย่างถูกต้องจะทำให้องค์กรต่างๆ มีความมั่นใจที่จำเป็นในข้อมูลของตน ซึ่งในที่สุดจะทำให้พวกเขาเริ่มปรับใช้อัลกอริธึมการเรียนรู้ของเครื่องที่มีประสิทธิภาพได้ อย่างไรก็ตาม การละเลยขั้นตอนสำคัญนี้อาจนำคุณไปสู่การสร้างระบบ Business Intelligence บนพื้นฐานที่สั่นคลอนได้
12 วิธีในการเชื่อมต่อการวิเคราะห์ข้อมูลกับผลลัพธ์ทางธุรกิจ

สรุปแล้ว…
การวิเคราะห์ข้อมูลเชิงสำรวจเป็นขั้นตอนสำคัญขั้นตอนหนึ่งที่ชัดเจนในระหว่างกระบวนการดึงความรู้ทั้งหมด หากคุณต้องการสร้างรากฐานที่แข็งแกร่งสำหรับกระบวนการวิเคราะห์โดยรวม คุณควรเน้นที่จุดแข็งทั้งหมดและกำลังในขั้นตอน EDA ต้องใช้สถิติเล็กน้อยเพื่อผ่านขั้นตอนนี้ หากคุณรู้สึกว่าตัวเองล้าหลังในเรื่องนี้ อย่าลืมอ่านบทความเกี่ยวกับ Basics of Statistics Needed for Data Science ของเรา

เรียนรู้หลักสูตรวิทยาศาสตร์ข้อมูลออนไลน์จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

หากคุณสนใจที่จะเรียนรู้ python และต้องการทำให้เครื่องมือและไลบรารีต่างๆ สกปรก ให้ตรวจสอบ Executive PG Program ใน Data Science โอ้ และคุณรู้สึกอย่างไรเกี่ยวกับจุดยืนของเราในการพิจารณา "การวิเคราะห์ข้อมูลเชิงสำรวจ" เป็นศิลปะมากกว่าวิทยาศาสตร์ แจ้งให้เราทราบในความคิดเห็นด้านล่าง!

เหตุใด Data Scientist จึงควรใช้ Exploratory Data Analysis เพื่อปรับปรุงธุรกิจของคุณ

เป้าหมายหลักของ Exploratory Data Analysis คือการช่วยเหลือในการวิเคราะห์ข้อมูลก่อนที่จะทำการตั้งสมมติฐานใดๆ สามารถช่วยในการตรวจจับข้อผิดพลาดที่เห็นได้ชัด ความเข้าใจรูปแบบข้อมูลที่ดีขึ้น การตรวจจับค่าผิดปกติหรือเหตุการณ์ที่ไม่คาดคิด และการค้นพบความสัมพันธ์ที่น่าสนใจระหว่างตัวแปร

นักวิทยาศาสตร์ข้อมูลสามารถใช้การวิเคราะห์เชิงสำรวจเพื่อให้แน่ใจว่าผลลัพธ์ที่ได้นั้นถูกต้องและเป็นที่ยอมรับสำหรับผลลัพธ์ทางธุรกิจและเป้าหมายที่ต้องการ EDA ยังช่วยเหลือผู้มีส่วนได้ส่วนเสียด้วยการทำให้มั่นใจว่าพวกเขากำลังถามคำถามที่เหมาะสม EDA สามารถตอบค่าเบี่ยงเบนมาตรฐาน ตัวแปรตามหมวดหมู่ และช่วงความเชื่อมั่นได้ หลังจากเสร็จสิ้น EDA และการดึงข้อมูลเชิงลึกแล้ว ฟีเจอร์ต่างๆ ของ EDA สามารถนำไปใช้กับการวิเคราะห์ข้อมูลหรือการสร้างแบบจำลองขั้นสูงขึ้น รวมถึงการเรียนรู้ด้วยเครื่อง

กรณีการใช้งาน EDA ที่ได้รับความนิยมมากที่สุดคืออะไร

ไม่ใช่เรื่องแปลกที่นักวิทยาศาสตร์ด้านข้อมูลจะใช้ EDA ก่อนทำการสร้างแบบจำลองประเภทอื่นๆ มักใช้ในการวิเคราะห์ข้อมูลเพื่อดูชุดข้อมูลเพื่อระบุค่าผิดปกติ แนวโน้ม รูปแบบ และข้อผิดพลาด ตัวอย่างเช่น EDA มักใช้ในร้านค้าปลีกที่เครื่องมือ BI และผู้เชี่ยวชาญวิเคราะห์ข้อมูลเพื่อเปิดเผยข้อมูลเชิงลึกเกี่ยวกับแนวโน้มการขาย หมวดหมู่ยอดนิยม ฯลฯ EDA ยังใช้ในการวิจัยด้านการดูแลสุขภาพเพื่อระบุแนวโน้มใหม่ในตลาดหรืออุตสาหกรรม โดยกำหนดสายพันธุ์ของ ไข้หวัดใหญ่ที่อาจแพร่หลายมากขึ้นในฤดูไข้หวัดใหญ่ใหม่ การตรวจสอบความเป็นเนื้อเดียวกันของประชากรผู้ป่วย ฯลฯ

การวิเคราะห์ข้อมูลเชิงสำรวจมีประเภทใดบ้าง

ประเภทของการวิเคราะห์ข้อมูลเชิงสำรวจคือ

1. Univariate Non-graphical : วัตถุประสงค์มาตรฐานของ EDA แบบ univariate non-graphic คือเพื่อทำความเข้าใจการแจกแจงตัวอย่าง/ข้อมูลและทำการสังเกตประชากร
2. กราฟิกแบบไม่มีตัวแปร : ฮิสโตแกรม แผนภาพต้นกำเนิดและใบ แผนภาพกล่อง ฯลฯ
3. ตัวแปรหลายตัวที่ไม่ใช่กราฟ : เทคนิค EDA เหล่านี้ใช้การข้ามตารางหรือสถิติเพื่ออธิบายความสัมพันธ์ระหว่างตัวแปรข้อมูลตั้งแต่สองตัวขึ้นไป
4. กราฟหลายตัวแปร : การแสดงกราฟิกของความสัมพันธ์ระหว่างข้อมูลสองประเภทขึ้นไปถูกใช้ในข้อมูลหลายตัวแปร