ข้อมูล 4 ประเภท: Nominal, Ordinal, Discrete, Continuous

เผยแพร่แล้ว: 2020-12-01

สารบัญ

บทนำ

วิทยาศาสตร์ข้อมูลเป็นเรื่องเกี่ยวกับการทดลองกับข้อมูลดิบหรือข้อมูลที่มีโครงสร้าง ข้อมูลเป็นเชื้อเพลิงที่สามารถขับเคลื่อนธุรกิจไปสู่เส้นทางที่ถูกต้อง หรืออย่างน้อยก็ให้ข้อมูลเชิงลึกที่สามารถนำไปปฏิบัติได้ ซึ่งสามารถช่วยวางกลยุทธ์แคมเปญปัจจุบัน จัดระเบียบการเปิดตัวผลิตภัณฑ์ใหม่อย่างง่ายดาย หรือทดลองใช้การทดสอบต่างๆ

สิ่งเหล่านี้ล้วนมีองค์ประกอบการขับเคลื่อนร่วมกันอย่างหนึ่ง และนี่คือข้อมูล เรากำลังเข้าสู่ยุคดิจิทัลที่เราผลิตข้อมูลจำนวนมาก ตัวอย่างเช่น บริษัทอย่าง Flipkart ผลิตข้อมูลมากกว่า 2TB ในแต่ละวัน

เมื่อข้อมูลนี้มีความสำคัญมากในชีวิตของเรา จึงต้องจัดเก็บและประมวลผลอย่างถูกต้องโดยไม่มีข้อผิดพลาด เมื่อจัดการกับชุดข้อมูล ประเภทของข้อมูลจะมีบทบาทสำคัญในการพิจารณาว่ากลยุทธ์การประมวลผลล่วงหน้าใดจะทำงานสำหรับชุดใดชุดหนึ่งเพื่อให้ได้ผลลัพธ์ที่ถูกต้อง หรือควรใช้การวิเคราะห์ทางสถิติประเภทใดเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด มาดูหมวดหมู่ข้อมูลที่ใช้กันทั่วไปกัน

ประเภทข้อมูลเชิงคุณภาพ

ข้อมูลเชิงคุณภาพหรือตามหมวดหมู่จะอธิบายวัตถุที่อยู่ระหว่างการพิจารณาโดยใช้ชุดคลาสที่ไม่ต่อเนื่องจำนวนจำกัด หมายความว่าข้อมูลประเภทนี้ไม่สามารถนับหรือวัดได้อย่างง่ายดายโดยใช้ตัวเลขจึงแบ่งออกเป็นหมวดหมู่ เพศของบุคคล (ชาย หญิง หรือคนอื่นๆ) เป็นตัวอย่างที่ดีของประเภทข้อมูลนี้

สิ่งเหล่านี้มักจะดึงออกมาจากสื่อเสียง รูปภาพ หรือข้อความ อีกตัวอย่างหนึ่งอาจเป็นแบรนด์สมาร์ทโฟนที่ให้ข้อมูลเกี่ยวกับเรตติ้งปัจจุบัน สีของโทรศัพท์ ประเภทของโทรศัพท์ และอื่นๆ ข้อมูลทั้งหมดนี้สามารถจัดประเภทเป็นข้อมูลเชิงคุณภาพ มีสองหมวดย่อยภายใต้สิ่งนี้:

ระบุ

เหล่านี้เป็นชุดของค่าที่ไม่มีการจัดลำดับตามธรรมชาติ มาทำความเข้าใจกับตัวอย่างกัน สีของสมาร์ทโฟนถือได้ว่าเป็นประเภทข้อมูลเล็กน้อย เนื่องจากเราไม่สามารถเปรียบเทียบสีใดสีหนึ่งกับสีอื่นๆ ได้

ไม่สามารถระบุได้ว่า 'สีแดง' มากกว่า 'สีน้ำเงิน' เพศของบุคคลเป็นอีกเพศหนึ่งที่เราไม่สามารถแยกความแตกต่างระหว่างชาย หญิง หรือคนอื่นๆ ได้ หมวดหมู่โทรศัพท์มือถือไม่ว่าจะเป็นระดับกลาง ส่วนงบประมาณ หรือสมาร์ทโฟนระดับพรีเมียมก็เป็นประเภทข้อมูลที่ระบุเช่นกัน

อ่าน: อาชีพใน Data Science

ลำดับ

ค่าประเภทนี้มีลำดับตามธรรมชาติในขณะที่รักษาระดับของค่าไว้ หากเราพิจารณาขนาดของแบรนด์เสื้อผ้า เราก็สามารถจัดเรียงตามป้ายชื่อแบรนด์ได้โดยง่าย โดยเรียงลำดับจากเล็ก < กลาง < ใหญ่ ระบบการให้คะแนนขณะทำเครื่องหมายผู้สมัครในการทดสอบยังถือเป็นประเภทข้อมูลลำดับที่ A+ ดีกว่าเกรด B อย่างแน่นอน

หมวดหมู่เหล่านี้ช่วยให้เราตัดสินใจว่าจะใช้กลยุทธ์การเข้ารหัสแบบใดกับข้อมูลประเภทใด การเข้ารหัสข้อมูลสำหรับข้อมูลเชิงคุณภาพมีความสำคัญเนื่องจากโมเดลการเรียนรู้ของเครื่องไม่สามารถจัดการค่าเหล่านี้ได้โดยตรง และจำเป็นต้องแปลงเป็นประเภทตัวเลข เนื่องจากแบบจำลองมีลักษณะทางคณิตศาสตร์

สำหรับประเภทข้อมูลที่ระบุซึ่งไม่มีการเปรียบเทียบระหว่างหมวดหมู่ สามารถใช้การเข้ารหัสแบบ one-hot ได้ซึ่งคล้ายกับการเข้ารหัสแบบไบนารีโดยพิจารณาว่ามีจำนวนน้อยกว่าและสำหรับประเภทข้อมูลลำดับ สามารถใช้การเข้ารหัสฉลากซึ่งเป็นรูปแบบจำนวนเต็ม การเข้ารหัส

ประเภทข้อมูลเชิงปริมาณ

ชนิดข้อมูลนี้พยายามหาปริมาณของสิ่งต่างๆ และทำโดยพิจารณาจากค่าตัวเลขที่ทำให้สามารถนับได้ตามธรรมชาติ ราคาของสมาร์ทโฟน ส่วนลดที่เสนอ จำนวนการให้คะแนนผลิตภัณฑ์ ความถี่ของโปรเซสเซอร์ของสมาร์ทโฟน หรือแรมของโทรศัพท์เครื่องนั้น สิ่งเหล่านี้อยู่ภายใต้หมวดหมู่ของประเภทข้อมูลเชิงปริมาณ

สิ่งสำคัญคือสามารถมีค่าจำนวนอนันต์ที่ฟีเจอร์สามารถรับได้ ตัวอย่างเช่น ราคาของสมาร์ทโฟนสามารถเปลี่ยนแปลงจากจำนวน x เป็นค่าใดๆ และสามารถแยกย่อยเพิ่มเติมตามค่าที่เป็นเศษส่วนได้ สองหมวดย่อยที่อธิบายอย่างชัดเจนคือ:

ไม่ต่อเนื่อง

ค่าตัวเลขที่อยู่ภายใต้เป็นจำนวนเต็มหรือจำนวนเต็มจะอยู่ในหมวดนี้ จำนวนลำโพงในโทรศัพท์, กล้อง, แกนประมวลผลในโปรเซสเซอร์, จำนวนซิมที่รองรับ ทั้งหมดนี้เป็นเพียงตัวอย่างบางส่วนของประเภทข้อมูลแบบแยกส่วน

ต่อเนื่อง

ตัวเลขเศษส่วนถือเป็นค่าต่อเนื่อง สิ่งเหล่านี้อาจอยู่ในรูปของความถี่ในการทำงานของโปรเซสเซอร์ โทรศัพท์รุ่น Android ความถี่ wifi อุณหภูมิของคอร์ และอื่นๆ

ต้องอ่าน: เงินเดือนนักวิทยาศาสตร์ข้อมูลในอินเดีย

ประเภท Ordinal และ Discrete สามารถทับซ้อนกันได้หรือไม่?

หากคุณให้ความสนใจกับสิ่งนี้ คุณสามารถกำหนดหมายเลขให้กับคลาส ordinal แล้วควรเรียกว่า discrete type หรือ ordinal? ความจริงก็คือมันยังคงเป็นลำดับ เหตุผลก็คือแม้ว่าการนับจะเสร็จสิ้น แต่ก็ไม่ได้สื่อถึงระยะทางจริงระหว่างชั้นเรียน

ตัวอย่างเช่น พิจารณาระบบการให้คะแนนของการทดสอบ เกรดตามลำดับสามารถเป็น A, B, C, D, E และถ้าเรานับพวกเขาตั้งแต่เริ่มต้น มันจะเป็น 1,2,3,4,5 ตอนนี้ตามความแตกต่างของตัวเลข ระยะห่างระหว่างเกรด E และเกรด D จะเท่ากับระยะห่างระหว่างเกรด D และ C ซึ่งไม่แม่นยำมาก เพราะเรารู้ดีว่าเกรด C ยังคงพอรับได้เมื่อเทียบกับเกรด E แต่ระยะกลาง ความแตกต่างประกาศให้เท่ากัน

คุณยังสามารถใช้เทคนิคเดียวกันกับแบบสำรวจที่บันทึกประสบการณ์ของผู้ใช้ในระดับต่ำมากไปจนถึงดีมาก ความแตกต่างระหว่างคลาสต่างๆ ไม่ชัดเจน ดังนั้นจึงไม่สามารถหาปริมาณได้โดยตรง

การทดสอบที่แตกต่างกัน

เราได้กล่าวถึงการจำแนกประเภทหลัก ๆ ของข้อมูลแล้ว นี่เป็นสิ่งสำคัญเพราะตอนนี้เราสามารถจัดลำดับความสำคัญของการทดสอบที่จะทำในหมวดหมู่ต่างๆ ตอนนี้ เหมาะสมแล้วที่จะพล็อตฮิสโตแกรมหรือพล็อตความถี่สำหรับข้อมูลเชิงปริมาณ และพล็อตแผนภูมิวงกลมและแท่งสำหรับข้อมูลเชิงคุณภาพ

การวิเคราะห์การถดถอย โดยที่ความสัมพันธ์ระหว่างตัวแปรอิสระหนึ่งตัวกับตัวแปรอิสระสองตัวหรือมากกว่านั้นวิเคราะห์ได้เฉพาะสำหรับข้อมูลเชิงปริมาณเท่านั้น การทดสอบ ANOVA (การวิเคราะห์ความแปรปรวน) ใช้ได้เฉพาะกับตัวแปรเชิงคุณภาพ แม้ว่าคุณจะสามารถใช้การทดสอบ ANOVA แบบสองทางซึ่งใช้ตัวแปรการวัดหนึ่งตัวแปรและตัวแปรระบุสองตัว

ด้วยวิธีนี้ คุณสามารถใช้การทดสอบ Chi-square กับข้อมูลเชิงคุณภาพเพื่อค้นหาความสัมพันธ์ระหว่างตัวแปรตามหมวดหมู่

บทสรุป

ในบทความนี้ เราได้กล่าวถึงวิธีที่ข้อมูลที่เราผลิตสามารถพลิกตารางได้ วิธีจัดเรียงข้อมูลประเภทต่างๆ ตามความต้องการ นอกจากนี้เรายังมองว่าชนิดข้อมูลลำดับสามารถทับซ้อนกับชนิดข้อมูลที่ไม่ต่อเนื่องได้อย่างไร

พล็อตประเภทใดที่เหมาะสมกับประเภทของข้อมูลที่ถูกกล่าวถึงพร้อมๆ กับการทดสอบประเภทต่างๆ ที่สามารถนำไปใช้กับประเภทข้อมูลเฉพาะ และการทดสอบอื่นๆ ที่ใช้ข้อมูลทุกประเภท

หากคุณอยากรู้เกี่ยวกับการเรียนรู้วิทยาศาสตร์ข้อมูลเพื่อก้าวไปสู่ความก้าวหน้าทางเทคโนโลยีอย่างรวดเร็ว ให้ตรวจสอบ การรับรองขั้นสูงด้านวิทยาศาสตร์ข้อมูล ของ upGrad & IIIT-B

ทำไมวิทยาศาสตร์ข้อมูลจึงมีความสำคัญ?

ความสำคัญของวิทยาศาสตร์ข้อมูลอยู่ที่การนำความเชี่ยวชาญโดเมนในการเขียนโปรแกรม คณิตศาสตร์ และสถิติมารวมกันเพื่อสร้างข้อมูลเชิงลึกใหม่ ๆ และทำความเข้าใจข้อมูลจำนวนมาก สำหรับบริษัทต่างๆ วิทยาศาสตร์ข้อมูลเป็นทรัพยากรที่สำคัญสำหรับการตัดสินใจโดยใช้ข้อมูลเป็นหลัก เพราะมันอธิบายการรวบรวม การบันทึก การเรียงลำดับ และการประเมินข้อมูล ผู้เชี่ยวชาญด้านคอมพิวเตอร์ที่มีประสบการณ์สูงมักใช้บริการนี้ เมื่อเราถามตัวเองว่าทำไมวิทยาศาสตร์ข้อมูลจึงมีความสำคัญ คำตอบก็ยังคงอยู่เพราะคุณค่าของข้อมูลยังคงเพิ่มขึ้นอย่างต่อเนื่อง วิทยาศาสตร์ข้อมูลเป็นที่ต้องการอย่างมากเพราะแสดงให้เห็นว่าข้อมูลดิจิทัลเปลี่ยนแปลงองค์กรอย่างไร และช่วยให้พวกเขาตัดสินใจอย่างมีข้อมูลและจำเป็นมากขึ้น

ขอบเขตของวิทยาศาสตร์ข้อมูลคืออะไร?

วิทยาศาสตร์ข้อมูลสามารถพบได้ทุกที่ในทุกวันนี้ ซึ่งรวมถึงธุรกรรมออนไลน์ เช่น การซื้อของ Amazon, ฟีดโซเชียลมีเดีย เช่น Facebook/Instagram, คำแนะนำของ Netflix และแม้แต่ความสามารถในการจดจำลายนิ้วมือและใบหน้าที่ได้รับจากสมาร์ทโฟน Data Science ครอบคลุมแนวคิดทางเทคโนโลยีล้ำสมัยมากมาย เช่น ปัญญาประดิษฐ์ อินเทอร์เน็ตของสรรพสิ่ง (IoT) และการเรียนรู้เชิงลึก ผลกระทบของวิทยาศาสตร์ข้อมูลเติบโตขึ้นอย่างมากเนื่องจากความก้าวหน้าและความก้าวหน้าทางเทคนิค ซึ่งขยายขอบเขตออกไป ด้วยการเรียนรู้ Data Science คุณสามารถเลือกโปรไฟล์งานของคุณจากตัวเลือกมากมาย และงานเหล่านี้ส่วนใหญ่ให้ผลตอบแทนที่ดี โปรไฟล์งานบางส่วน ได้แก่ Data Analyst, Data Scientist, Data Engineer, Machine Learning Scientist and Engineer, Business Intelligence Developer, Data Architect, Statistician เป็นต้น

ข้อมูลระบุแตกต่างจากข้อมูลลำดับอย่างไร

ข้อมูลที่ระบุรวมถึงชื่อหรือคุณลักษณะที่มีตั้งแต่สองประเภทขึ้นไป และประเภทไม่มีการจัดลำดับโดยธรรมชาติ กล่าวอีกนัยหนึ่ง ข้อมูลประเภทนี้ไม่มีการจัดอันดับหรือลำดับตามธรรมชาติ ชนิดข้อมูลลำดับจะคล้ายกับค่าเล็กน้อย แต่ความแตกต่างระหว่างทั้งสองเป็นการเรียงลำดับที่ชัดเจนในข้อมูล โดยรวม ข้อมูลลำดับมีบางลำดับ แต่ข้อมูลเล็กน้อยไม่มี ข้อมูลการจัดอันดับทั้งหมด เช่น มาตราส่วน Likert มาตราส่วนสตูลในบริสตอล และมาตราส่วนอื่นๆ ที่ให้คะแนนระหว่าง 0 ถึง 10 สามารถแสดงได้โดยใช้ข้อมูลลำดับ