Normalization ใน Data Mining คืออะไรและต้องทำอย่างไร

เผยแพร่แล้ว: 2020-11-23

บริษัทต่างๆ พึ่งพาข้อมูลมากขึ้นเรื่อยๆ เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับลูกค้าของตน ดังนั้น นักวิเคราะห์ข้อมูลจึงมีความรับผิดชอบมากขึ้นในการสำรวจและวิเคราะห์กลุ่มข้อมูลดิบจำนวนมาก และรวบรวมแนวโน้มและรูปแบบของลูกค้าที่มีความหมายจากข้อมูลนั้น สิ่งนี้เรียกว่าการทำเหมืองข้อมูล นักวิเคราะห์ข้อมูลใช้เทคนิคการทำเหมืองข้อมูล การวิเคราะห์ทางสถิติขั้นสูง และเทคโนโลยีการแสดงข้อมูลเพื่อให้ได้ข้อมูลเชิงลึกใหม่ๆ

สิ่งเหล่านี้สามารถช่วยให้ธุรกิจพัฒนากลยุทธ์ทางการตลาดที่มีประสิทธิภาพ เพื่อปรับปรุงผลการดำเนินธุรกิจ เพิ่มยอดขาย และลดต้นทุนค่าโสหุ้ย แม้ว่าจะมีเครื่องมือและอัลกอริธึมสำหรับการทำเหมืองข้อมูล แต่ก็ไม่ใช่เส้นทางลัด เนื่องจากข้อมูลในโลกแห่งความเป็นจริงมีความแตกต่างกัน ดังนั้นจึงมีความท้าทายค่อนข้างน้อยเมื่อพูดถึงการทำเหมืองข้อมูล เรียนรู้วิทยาศาสตร์ข้อมูลหากคุณต้องการได้รับความเชี่ยวชาญในการทำเหมืองข้อมูล

ความท้าทายทั่วไปประการหนึ่งคือ โดยปกติ ฐานข้อมูลประกอบด้วยคุณลักษณะของหน่วย ช่วง และมาตราส่วนที่แตกต่างกัน การใช้อัลกอริธึมกับข้อมูลที่มีความหลากหลายอย่างมากดังกล่าวอาจไม่ได้ผลลัพธ์ที่แม่นยำ สิ่งนี้เรียกร้องให้มีการปรับข้อมูล ให้เป็นมาตรฐานในการทำเหมือง ข้อมูล

เป็นกระบวนการที่จำเป็นในการทำให้ข้อมูลที่ต่างกันเป็นมาตรฐาน สามารถใส่ข้อมูลในช่วงที่เล็กกว่าได้ เช่น 0.0 ถึง 1.0 หรือ -1.0 ถึง 1.0 พูดง่ายๆ ก็คือ การทำให้เป็นมาตรฐานของข้อมูลทำให้ข้อมูลสามารถจำแนกและทำความเข้าใจได้ง่ายขึ้น

สารบัญ

เหตุใดจึงต้องมีการ Normalization ใน Data Mining
3 เทคนิคยอดนิยมสำหรับ Data Normalization ใน Data Mining
- การทำให้เป็นมาตรฐานขั้นต่ำสูงสุด
- การปรับมาตราส่วนทศนิยมให้เป็นมาตรฐาน
- การทำให้เป็นมาตรฐาน Z-Score
บทสรุป
Normalization ใน Data mining หมายถึงอะไร
Normalization ประเภทต่าง ๆ มีอะไรบ้าง?
Min-Max Normalization คืออะไร?

เหตุใดจึงต้องมีการ Normalization ใน Data Mining

การปรับข้อมูลให้เป็นมาตรฐานเป็นหลักเพื่อลดหรือแยกข้อมูลที่ซ้ำกัน ความซ้ำซ้อนในข้อมูลเป็นปัญหาสำคัญ เนื่องจากเป็นปัญหามากขึ้นในการจัดเก็บข้อมูลในฐานข้อมูลเชิงสัมพันธ์ โดยเก็บข้อมูลที่เหมือนกันไว้มากกว่าหนึ่งแห่ง การทำให้เป็น มาตรฐานในการขุดข้อมูล เป็นขั้นตอนที่เป็นประโยชน์ เนื่องจากช่วยให้บรรลุข้อได้เปรียบบางประการดังที่กล่าวไว้ด้านล่าง:

ง่ายกว่ามากที่จะใช้อัลกอริธึมการขุดข้อมูลกับชุดข้อมูลที่ทำให้เป็นมาตรฐาน
ผลลัพธ์ของอัลกอริธึมการขุดข้อมูลที่ใช้กับชุดของข้อมูลที่ทำให้เป็นมาตรฐานนั้นแม่นยำและมีประสิทธิภาพมากขึ้น
เมื่อข้อมูลถูกทำให้เป็นมาตรฐาน การดึงข้อมูลจากฐานข้อมูลจะเร็วขึ้นมาก
สามารถใช้วิธีการวิเคราะห์ข้อมูลที่เฉพาะเจาะจงมากขึ้นกับข้อมูลที่ทำให้เป็นมาตรฐานได้

อ่าน: เทคนิคการทำเหมืองข้อมูล

3 เทคนิคยอดนิยมสำหรับ Data Normalization ใน Data Mining

มีสามวิธีที่ได้รับความนิยม ในการทำเหมืองข้อมูล ให้เป็น มาตรฐาน พวกเขารวมถึง:

การทำให้เป็นมาตรฐานขั้นต่ำสูงสุด

สิ่งที่เข้าใจได้ง่ายกว่า – ความแตกต่างระหว่าง 200 และ 1000000 หรือความแตกต่างระหว่าง 0.2 และ 1 แท้จริงแล้ว เมื่อความแตกต่างระหว่างค่าต่ำสุดและสูงสุดมีค่าน้อยกว่า ข้อมูลจะอ่านง่ายขึ้น ฟังก์ชันการทำให้เป็นมาตรฐานต่ำสุด-สูงสุดโดยการแปลงช่วงของข้อมูลเป็นมาตราส่วนที่มีช่วงตั้งแต่ 0 ถึง 1

สูตร Normalization ต่ำสุด-สูงสุด

เพื่อทำความเข้าใจสูตร นี่คือตัวอย่าง สมมติว่าบริษัทต้องการตัดสินใจเลื่อนตำแหน่งโดยพิจารณาจากประสบการณ์การทำงานของพนักงาน จึงต้องวิเคราะห์ฐานข้อมูลที่มีลักษณะดังนี้:

ชื่อพนักงาน	ปีแห่งประสบการณ์
ABC	8
XYZ	20
PQR	10
MNO	15

ค่าต่ำสุดคือ8
ค่าสูงสุดคือ 20

เนื่องจากสูตรนี้ปรับขนาดข้อมูลระหว่าง 0 ถึง 1

ค่าต่ำสุดใหม่คือ 0
ค่าสูงสุดใหม่คือ 1

ในที่นี้ V หมายถึงค่าของแอตทริบิวต์ที่เกี่ยวข้อง เช่น 8, 10, 15, 20

หลังจากใช้สูตรการทำให้เป็นมาตรฐานต่ำสุด-สูงสุด ต่อไปนี้คือค่า V' สำหรับแอตทริบิวต์:

สำหรับประสบการณ์ 8 ปี: v'= 0
สำหรับประสบการณ์ 10 ปี: v' = 0.16
สำหรับประสบการณ์ 15 ปี: v' = 0.58
สำหรับประสบการณ์ 20 ปี: v' = 1

ดังนั้น การทำให้เป็นมาตรฐานต่ำสุด-สูงสุดสามารถลดจำนวนจำนวนมากเป็นค่าที่น้อยกว่าได้มาก ทำให้ง่ายต่อการอ่านความแตกต่างระหว่างตัวเลขต่างๆ

การปรับมาตราส่วนทศนิยมให้เป็นมาตรฐาน

การปรับมาตราส่วนทศนิยมเป็นอีกเทคนิคหนึ่งสำหรับการ ทำให้เป็นมาตรฐานในการทำเหมือง ข้อมูล มันทำงานโดยการแปลงตัวเลขเป็นจุดทศนิยม

สูตรมาตราส่วนทศนิยม

ที่นี่:

V' คือค่าใหม่หลังจากใช้มาตราส่วนทศนิยม
V คือค่าที่เกี่ยวข้องของแอตทริบิวต์

ตอนนี้ จำนวนเต็ม J กำหนดการเคลื่อนที่ของจุดทศนิยม แล้วจะกำหนดได้อย่างไร? เท่ากับจำนวนหลักที่แสดงในค่าสูงสุดในตารางข้อมูล นี่คือตัวอย่าง:

สมมติว่าบริษัทต้องการเปรียบเทียบเงินเดือนของช่างไม้ใหม่ นี่คือค่าข้อมูล:

ชื่อพนักงาน	เงินเดือน
ABC	10,000
XYZ	25,000
PQR	8,000
MNO	15,000

ตอนนี้ ให้มองหาค่าสูงสุดในข้อมูล ในกรณีนี้คือ 25,000 ตอนนี้นับจำนวนหลักในค่านี้ ในกรณีนี้ มันคือ '5' ตรงนี้ 'j' เท่ากับ 5 คือ 100,000 ซึ่งหมายความว่าต้องหาร V (ค่าของแอตทริบิวต์) ด้วย 100,000 ที่นี่

หลังจากใช้สูตรการปรับมาตราส่วนทศนิยมศูนย์แล้ว ค่าใหม่มีดังนี้

ชื่อ	เงินเดือน	เงินเดือนหลังการปรับทศนิยม
ABC	10,000	0.1
XYZ	25, 000	0.25
PQR	8,000	0.08
MNO	15,000	0.15

ดังนั้น การปรับมาตราส่วนทศนิยมสามารถลดจำนวนตัวเลขจำนวนมากให้เป็นค่าทศนิยมขนาดเล็กที่เข้าใจง่าย นอกจากนี้ ข้อมูลที่มาจากหน่วยต่างๆ จะอ่านและทำความเข้าใจได้ง่ายเมื่อถูกแปลงเป็นค่าทศนิยมที่เล็กกว่า

ต้องอ่าน: แนวคิดและหัวข้อโครงการขุดข้อมูล

การทำให้เป็นมาตรฐาน Z-Score

ค่า Z-Score คือการเข้าใจว่าจุดข้อมูลอยู่ห่างจากค่าเฉลี่ยมากแค่ไหน ในทางเทคนิค มันจะวัดค่าเบี่ยงเบนมาตรฐานที่ต่ำกว่าหรือสูงกว่าค่าเฉลี่ย มีตั้งแต่ -3 ส่วนเบี่ยงเบนมาตรฐานถึง +3 ส่วนเบี่ยงเบนมาตรฐาน การทำให้เป็นมาตรฐานของ คะแนน Z ในการทำเหมืองข้อมูล มีประโยชน์สำหรับการวิเคราะห์ข้อมูลประเภทดังกล่าว ซึ่งมีความจำเป็นต้องเปรียบเทียบค่าที่สัมพันธ์กับค่าเฉลี่ย (ค่าเฉลี่ย) เช่น ผลลัพธ์จากการทดสอบหรือการสำรวจ

ตัวอย่างเช่น น้ำหนักของบุคคลคือ 150 ปอนด์ ในตอนนี้ หากจำเป็นต้องเปรียบเทียบค่านั้นกับน้ำหนักเฉลี่ยของประชากรที่ระบุไว้ในตารางข้อมูลขนาดใหญ่ จำเป็นต้องมีการปรับค่า Z-score ให้เป็นมาตรฐานเพื่อศึกษาค่าดังกล่าว โดยเฉพาะอย่างยิ่งถ้าน้ำหนักของใครบางคนถูกบันทึกเป็นกิโลกรัม

บทสรุป

เนื่องจากข้อมูลมาจากแหล่งต่างๆ จึงเป็นเรื่องธรรมดามากที่จะมีแอตทริบิวต์ที่แตกต่างกันในชุดข้อมูลใดๆ ดังนั้นการ ทำให้เป็นมาตรฐานในการขุดข้อมูล จึงเหมือนกับการประมวลผลล่วงหน้าและการเตรียมข้อมูลสำหรับการวิเคราะห์

หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ลองดู โปรแกรม Executive PG ของ IIIT-B & upGrad ใน Data Science ซึ่งสร้างขึ้นสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1 -on-1 พร้อมที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ

Normalization ใน Data mining หมายถึงอะไร

การทำให้เป็นมาตรฐานคือกระบวนการปรับขนาดข้อมูลของแอตทริบิวต์ให้อยู่ในช่วงที่แคบลง เช่น -1.0 ถึง 1.0 หรือ 0.0 ถึง 1.0 เป็นประโยชน์สำหรับอัลกอริธึมการจำแนกประเภทโดยทั่วไป การทำให้เป็นมาตรฐานโดยทั่วไปมีความจำเป็นเมื่อต้องรับมือกับคุณลักษณะต่างๆ ในระดับต่างๆ มิฉะนั้น อาจเจือจางประสิทธิภาพของแอตทริบิวต์ที่มีนัยสำคัญเท่าเทียมกันในระดับที่ต่ำกว่าเนื่องจากคุณลักษณะอื่นๆ ที่มีค่าในระดับที่มากกว่า กล่าวอีกนัยหนึ่ง เมื่อลักษณะต่างๆ มีอยู่มากมายแต่ค่าของมันอยู่ในระดับต่างๆ อาจส่งผลให้ตัวแบบข้อมูลไม่เพียงพอเมื่อทำกิจกรรมการขุดข้อมูล เป็นผลให้พวกเขาถูกทำให้เป็นมาตรฐานเพื่อให้คุณลักษณะทั้งหมดอยู่ในระดับเดียวกัน

Normalization ประเภทต่าง ๆ มีอะไรบ้าง?

การทำให้เป็นมาตรฐานคือขั้นตอนที่ควรปฏิบัติตามสำหรับแต่ละฐานข้อมูลที่คุณสร้าง แบบฟอร์มปกติหมายถึงการกระทำของสถาปัตยกรรมฐานข้อมูลและการนำชุดเกณฑ์และกฎเกณฑ์ที่เป็นทางการไปใช้กับสถาปัตยกรรมนั้น กระบวนการนอร์มัลไลซ์เซชันแบ่งได้ดังนี้ First Normal Form (1 NF), Second Normal Form (2 NF), Third Normal Form (3 NF), Boyce Codd Normal Form หรือ Fourth Normal Form ( BCNF หรือ 4 NF), Fifth Normal Form (5 NF) และรูปแบบปกติที่หก (6 NF) (6 NF)

Min-Max Normalization คืออะไร?

วิธีการหนึ่งที่แพร่หลายที่สุดสำหรับการทำให้ข้อมูลเป็นมาตรฐานคือการทำให้เป็นมาตรฐานต่ำสุด-สูงสุด สำหรับแต่ละจุดสนใจ ค่าต่ำสุดจะถูกแปลงเป็น 0 ค่าสูงสุดจะถูกแปลงเป็น 1 และค่าอื่นๆ ทั้งหมดจะถูกแปลงเป็นทศนิยมระหว่าง 0 ถึง 1 ตัวอย่างเช่น หากค่าต่ำสุดของจุดสนใจคือ 20 และ ค่าสูงสุดคือ 40 โดย 30 จะถูกแปลงเป็นประมาณ 0.5 เนื่องจากอยู่กึ่งกลางระหว่าง 20 ถึง 40 ข้อเสียเปรียบที่สำคัญประการหนึ่งของการทำให้เป็นมาตรฐานต่ำสุด-สูงสุดคือไม่สามารถจัดการกับค่าผิดปกติได้ดี ตัวอย่างเช่น หากคุณมี 99 ค่าตั้งแต่ 0 ถึง 40 และหนึ่งในนั้นคือ 100 ค่าทั้งหมด 99 ค่าจะถูกแปลงเป็นค่าตั้งแต่ 0 ถึง 0.4