เทคนิคการล้างข้อมูล: เรียนรู้วิธีที่ง่ายและมีประสิทธิภาพในการทำความสะอาดข้อมูล
เผยแพร่แล้ว: 2020-01-26การล้างข้อมูลเป็นส่วนสำคัญของวิทยาศาสตร์ข้อมูล การทำงานกับข้อมูลที่ไม่บริสุทธิ์อาจทำให้เกิดปัญหามากมาย และวันนี้เราจะพูดถึงเรื่องเดียวกัน
คุณจะพบว่าเหตุใดการล้างข้อมูลจึงมีความสำคัญ ปัจจัยใดบ้างที่ส่งผลต่อคุณภาพข้อมูลของคุณ และวิธีที่คุณสามารถล้างข้อมูลที่คุณมี เป็นคำแนะนำโดยละเอียด ดังนั้นโปรดบุ๊กมาร์กไว้เพื่อใช้อ้างอิงในอนาคต
มาเริ่มกันเลย.
สารบัญ
เหตุใดการล้างข้อมูลจึงมีความจำเป็น
การล้างข้อมูลอาจดูน่าเบื่อและไม่น่าสนใจ แต่นี่เป็นหนึ่งในงานที่สำคัญที่สุดที่คุณต้องทำในฐานะผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูล การมีข้อมูลที่ไม่ถูกต้องหรือมีคุณภาพไม่ดีอาจส่งผลเสียต่อกระบวนการและการวิเคราะห์ของคุณ ข้อมูลที่ไม่ดีอาจทำให้อัลกอริธึมตัวเอกล้มเหลวได้
ในทางกลับกัน ข้อมูลคุณภาพสูงอาจทำให้อัลกอริทึมง่ายๆ ให้ผลลัพธ์ที่โดดเด่นแก่คุณได้ มีเทคนิคการล้างข้อมูลมากมาย และคุณควรทำความคุ้นเคยกับเทคนิคเหล่านี้เพื่อปรับปรุงคุณภาพข้อมูลของคุณ ไม่ใช่ข้อมูลทั้งหมดที่เป็นประโยชน์ นั่นเป็นอีกปัจจัยสำคัญที่ส่งผลต่อคุณภาพข้อมูลของคุณ
อ่าน: การวิเคราะห์คลัสเตอร์ใน R
ตัวอย่างเช่น สมมติว่าบริษัทของคุณมีรายการที่อยู่ของพนักงาน ตอนนี้ หากข้อมูลของคุณรวมถึงที่อยู่ของลูกค้าสองสามแห่งด้วย จะไม่ทำให้รายการเสียหายหรือ และความพยายามของคุณในการวิเคราะห์รายการจะไม่ไร้ประโยชน์ใช่หรือไม่ ในตลาดที่มีข้อมูลสำรองนี้ การเรียนรู้วิทยาศาสตร์ข้อมูลเพื่อปรับปรุงการตัดสินใจทางธุรกิจของคุณเป็นสิ่งสำคัญ
มีสาเหตุหลายประการที่ทำให้การล้างข้อมูลมีความสำคัญ บางส่วนของพวกเขามีการระบุไว้ด้านล่าง:
ประสิทธิภาพ
การมีข้อมูลที่สะอาด (ปราศจากค่าที่ไม่ถูกต้องและไม่สอดคล้องกัน) สามารถช่วยให้คุณทำการวิเคราะห์ได้รวดเร็วยิ่งขึ้น คุณจะประหยัดเวลาได้มากด้วยการทำงานนี้ล่วงหน้า เมื่อคุณล้างข้อมูลของคุณก่อนใช้งาน คุณจะสามารถหลีกเลี่ยงข้อผิดพลาดหลายข้อได้ หากคุณใช้ข้อมูลที่มีค่าเท็จ ผลลัพธ์ของคุณจะไม่ถูกต้อง
และมีโอกาสที่คุณจะต้องทำใหม่ทั้งหมดอีกครั้ง ซึ่งอาจทำให้เสียเวลาได้มาก หากคุณเลือกที่จะล้างข้อมูลของคุณก่อนใช้งาน คุณสามารถสร้างผลลัพธ์ได้เร็วขึ้นและหลีกเลี่ยงการทำซ้ำงานทั้งหมดอีกครั้ง
มาร์จิ้นผิดพลาด
เมื่อคุณไม่ใช้ข้อมูลที่ถูกต้องในการวิเคราะห์ คุณจะทำผิดพลาดอย่างแน่นอน สมมติว่าคุณใช้ความพยายามและเวลาในการวิเคราะห์ชุดข้อมูลเฉพาะกลุ่ม คุณกระตือรือร้นมากที่จะแสดงผลลัพธ์ต่อหัวหน้าของคุณ แต่ในการประชุม ผู้บังคับบัญชาของคุณชี้ให้เห็นข้อผิดพลาดบางประการที่สถานการณ์อาจน่าอับอายและเจ็บปวด
คุณไม่ต้องการที่จะหลีกเลี่ยงข้อผิดพลาดดังกล่าวไม่ให้เกิดขึ้น? สิ่งเหล่านี้ไม่เพียงแต่ทำให้เกิดความอับอาย แต่ยังทำให้สิ้นเปลืองทรัพยากรอีกด้วย การล้างข้อมูลช่วยคุณได้ในเรื่องดังกล่าว โดยถือเป็นแนวทางปฏิบัติที่แพร่หลาย และคุณควรเรียนรู้วิธีที่ใช้ในการล้างข้อมูล
การใช้อัลกอริธึมอย่างง่ายพร้อมข้อมูลที่สะอาดนั้นดีกว่าการใช้ขั้นสูงกับข้อมูลที่ไม่สะอาด
การกำหนดคุณภาพข้อมูล
ข้อมูลถูกต้องหรือไม่ (ความถูกต้อง)
ความถูกต้องของข้อมูลของคุณคือระดับที่เป็นไปตามกฎข้อกำหนดเฉพาะของคุณ ตัวอย่างเช่น วิธีการนำเข้าหมายเลขโทรศัพท์ของลูกค้าที่แตกต่างกัน แต่ในบางแห่ง คุณได้เพิ่มที่อยู่อีเมลในข้อมูล เนื่องจากความต้องการของคุณเป็นหมายเลขโทรศัพท์อย่างชัดเจน ที่อยู่อีเมลจึงไม่ถูกต้อง
ข้อผิดพลาดด้านความถูกต้องเกิดขึ้นเมื่อวิธีการป้อนข้อมูลไม่ได้รับการตรวจสอบอย่างถูกต้อง คุณอาจใช้สเปรดชีตเพื่อรวบรวมข้อมูลของคุณ และคุณอาจป้อนข้อมูลที่ไม่ถูกต้องในเซลล์ของสเปรดชีต
มี ข้อจำกัดหลายประเภท ที่ข้อมูลของคุณต้องปฏิบัติตามเพื่อให้ถูกต้อง นี่คือ:
พิสัย:
ตัวเลขบางประเภทต้องอยู่ในช่วงที่กำหนด ตัวอย่างเช่น จำนวนผลิตภัณฑ์ที่คุณสามารถขนส่งได้ในหนึ่งวันต้องมีค่าต่ำสุดและสูงสุด จะต้องมีช่วงเฉพาะสำหรับข้อมูลอย่างแน่นอน ย่อมมีจุดเริ่มต้นและจุดสิ้นสุด
ประเภทข้อมูล:
เซลล์ข้อมูลบางเซลล์อาจต้องใช้ข้อมูลบางประเภท เช่น ตัวเลข บูลีน เป็นต้น ตัวอย่างเช่น ในส่วนบูลีน คุณจะไม่เพิ่มค่าตัวเลข
ข้อจำกัดบังคับ:
ในทุกสถานการณ์ มีข้อจำกัดที่จำเป็นบางประการที่ข้อมูลของคุณควรปฏิบัติตาม ข้อจำกัดบังคับขึ้นอยู่กับความต้องการเฉพาะของคุณ แน่นอน คอลัมน์เฉพาะของข้อมูลของคุณไม่ควรเว้นว่างไว้ ตัวอย่างเช่น ในรายชื่อลูกค้าของคุณ คอลัมน์ 'ชื่อ' ต้องไม่เว้นว่างไว้
การสอบภาคสนาม:
มีเงื่อนไขบางประการที่ส่งผลต่อข้อมูลหลายฟิลด์ในแบบฟอร์มเฉพาะ สมมติว่าเวลาออกเดินทางของเที่ยวบินไม่สามารถเร็วกว่าที่จะมาถึงได้ ในงบดุล ผลรวมของเดบิตและเครดิตของลูกค้าต้องเท่ากัน มันแตกต่างกันไม่ได้
ค่าเหล่านี้สัมพันธ์กัน และนั่นเป็นสาเหตุที่คุณอาจต้องทำการทดสอบภาคสนาม
ข้อกำหนดเฉพาะ:
ข้อมูลบางประเภทมีข้อจำกัดเฉพาะ ลูกค้าสองคนไม่สามารถมีตั๋วสนับสนุนลูกค้าเดียวกันได้ ข้อมูลประเภทดังกล่าวต้องไม่ซ้ำกันในฟิลด์ใดฟิลด์หนึ่งและไม่สามารถแชร์กับหลาย ๆ ฟิลด์ได้
ข้อจำกัดชุดสมาชิก:
ค่าบางค่าถูกจำกัดไว้เฉพาะชุดใดชุดหนึ่ง เช่น เพศอาจเป็นชาย หญิง หรือไม่ทราบก็ได้
รูปแบบปกติ:
ข้อมูลบางส่วนเป็นไปตามรูปแบบเฉพาะ ตัวอย่างเช่น ที่อยู่อีเมลมีรูปแบบ '[email protected]' หมายเลขโทรศัพท์ก็มีสิบหลักเช่นเดียวกัน
หากข้อมูลไม่อยู่ในรูปแบบที่กำหนด ข้อมูลนั้นก็จะไม่ถูกต้องด้วย
หากบุคคลไม่ใส่ '@' ขณะป้อนที่อยู่อีเมล ที่อยู่อีเมลนั้นจะไม่ถูกต้องใช่หรือไม่ การตรวจสอบความถูกต้องของข้อมูลเป็นขั้นตอนแรกในการพิจารณาคุณภาพของข้อมูล โดยส่วนใหญ่ สาเหตุของการป้อนข้อมูลที่ไม่ถูกต้องเกิดจากความผิดพลาดของมนุษย์
การกำจัดมันจะช่วยคุณในการปรับปรุงกระบวนการของคุณและหลีกเลี่ยงค่าข้อมูลที่ไร้ประโยชน์ล่วงหน้า
ความแม่นยำ
เมื่อคุณทราบแล้วว่าข้อมูลส่วนใหญ่ที่คุณมีนั้นถูกต้อง คุณจะต้องมุ่งเน้นที่การกำหนดความถูกต้องของข้อมูล แม้ว่าข้อมูลจะถูกต้อง แต่ก็ไม่ได้หมายความว่าข้อมูลนั้นถูกต้อง และการกำหนดความถูกต้องจะช่วยให้คุณทราบว่าข้อมูลที่คุณป้อนนั้นถูกต้องหรือไม่
ที่อยู่ของลูกค้าอาจอยู่ในรูปแบบที่ถูกต้อง แต่ไม่จำเป็นต้องเป็นแบบที่ถูกต้อง บางทีอีเมลอาจมีตัวเลขหรืออักขระเพิ่มเติมที่ทำให้เข้าใจผิด อีกตัวอย่างหนึ่งคือหมายเลขโทรศัพท์ของลูกค้า
อ่าน: API การเรียนรู้ของเครื่องยอดนิยมสำหรับวิทยาศาสตร์ข้อมูล
หากหมายเลขโทรศัพท์มีตัวเลขทั้งหมด แสดงว่าเป็นค่าที่ถูกต้อง แต่นั่นไม่ได้หมายความว่ามันเป็นเรื่องจริง เมื่อคุณมีคำจำกัดความของค่าที่ถูกต้องแล้ว การหาค่าที่ไม่ถูกต้องนั้นเป็นเรื่องง่าย แต่นั่นไม่ได้ช่วยในการตรวจสอบความถูกต้องของสิ่งเดียวกัน การตรวจสอบความถูกต้องของค่าข้อมูลของคุณทำให้คุณต้องใช้แหล่งข้อมูลบุคคลที่สาม
ซึ่งหมายความว่าคุณจะต้องพึ่งพาแหล่งข้อมูลที่แตกต่างจากที่คุณกำลังใช้อยู่ในปัจจุบัน คุณจะต้องตรวจสอบข้อมูลของคุณอีกครั้งเพื่อดูว่าข้อมูลถูกต้องหรือไม่ เทคนิคการล้างข้อมูลไม่มีวิธีแก้ปัญหามากมายสำหรับตรวจสอบความถูกต้องของค่าข้อมูล
อย่างไรก็ตาม คุณอาจสามารถค้นหาแหล่งข้อมูลที่สามารถช่วยคุณในเรื่องนี้ ทั้งนี้ขึ้นอยู่กับชนิดของข้อมูลที่คุณใช้ คุณไม่ควรสับสนระหว่าง ความแม่นยำกับความ แม่นยำ
ความแม่นยำเทียบกับความแม่นยำ
แม้ว่าความแม่นยำจะขึ้นอยู่กับการกำหนดว่าข้อมูลที่ป้อนของคุณถูกต้องหรือไม่ ความแม่นยำต้องการให้คุณให้รายละเอียดเพิ่มเติมเกี่ยวกับข้อมูลเดียวกัน ลูกค้าอาจป้อนชื่อในช่องข้อมูลของคุณ แต่ถ้าไม่มีนามสกุล คงจะยากถ้าจะเจาะจงมากกว่านี้
อีกตัวอย่างหนึ่งอาจเป็นที่อยู่ สมมติว่าคุณถามคนที่เขา/เธออาศัยอยู่ พวกเขาอาจบอกว่าพวกเขาอาศัยอยู่ในลอนดอน นั่นอาจเป็นความจริง อย่างไรก็ตาม นั่นไม่ใช่คำตอบที่ชัดเจนเพราะคุณไม่รู้ว่าพวกเขาอยู่ที่ไหนในลอนดอน
คำตอบที่ชัดเจนคือการให้ที่อยู่แก่คุณ
ความสมบูรณ์
แทบเป็นไปไม่ได้เลยที่จะมีข้อมูลทั้งหมดที่คุณต้องการ ความสมบูรณ์คือระดับที่คุณทราบค่าที่จำเป็นทั้งหมด ความสมบูรณ์นั้นยากกว่าการบรรลุถึงความถูกต้องหรือความถูกต้องเพียงเล็กน้อย นั่นเป็นเพราะคุณไม่สามารถสมมติมูลค่าได้ คุณต้องป้อนข้อเท็จจริงที่ทราบเท่านั้น
คุณสามารถลองกรอกข้อมูลของคุณโดยทำกิจกรรมการรวบรวมข้อมูลซ้ำ (เข้าหาลูกค้าอีกครั้ง สัมภาษณ์ผู้คนซ้ำ ฯลฯ) แต่นั่นไม่ได้หมายความว่าคุณจะสามารถกรอกข้อมูลของคุณได้อย่างทั่วถึง
สมมติว่าคุณสัมภาษณ์ผู้คนอีกครั้งสำหรับข้อมูลที่คุณต้องการก่อนหน้านี้ ตอนนี้ สถานการณ์นี้มีปัญหาในการเรียกคืน หากคุณถามคำถามเดิมซ้ำๆ พวกเขาอาจจะจำไม่ได้ว่าเคยตอบอะไรไปบ้าง นี้สามารถนำไปสู่พวกเขา ให้คำตอบที่ผิด
คุณอาจถามเขาว่าอ่านหนังสืออะไรเมื่อห้าเดือนที่แล้ว และอาจจะจำไม่ได้ ในทำนองเดียวกัน คุณอาจต้องป้อนข้อมูลติดต่อของลูกค้าทุกราย แต่บางคนอาจไม่มีที่อยู่อีเมล ในกรณีนี้ คุณต้องเว้นคอลัมน์เหล่านั้นว่างไว้
หากคุณมีระบบที่ต้องการให้คุณกรอกคอลัมน์ทั้งหมด คุณสามารถลองป้อน 'หายไป' หรือ 'ไม่ทราบ' ที่นั่น แต่การป้อนค่าดังกล่าวไม่ได้หมายความว่าข้อมูลจะสมบูรณ์ ก็ยังจะเรียกว่าไม่สมบูรณ์
ความสม่ำเสมอ
รองลงมาคือความสม่ำเสมอ คุณสามารถวัดความสอดคล้องโดยการเปรียบเทียบสองระบบที่คล้ายคลึงกัน หรือคุณสามารถตรวจสอบค่าข้อมูลภายในชุดข้อมูลเดียวกันเพื่อดูว่าค่าเหล่านั้นสอดคล้องกันหรือไม่ ความสม่ำเสมอสามารถสัมพันธ์กันได้ ตัวอย่างเช่น อายุของลูกค้าอาจเท่ากับ 15 ซึ่งเป็นค่าที่ถูกต้องและแม่นยำ แต่อาจถูกระบุเป็นพลเมืองอาวุโสในระบบเดียวกัน

ในกรณีเช่นนี้ คุณจะต้องตรวจสอบข้อมูลแบบไขว้ คล้ายกับความแม่นยำในการวัด และดูว่าค่าใดเป็นจริง ลูกค้ามีอายุ 15 ปีหรือไม่? หรือลูกค้าเป็นพลเมืองอาวุโส? ค่าเหล่านี้เพียงหนึ่งค่าเท่านั้นที่สามารถเป็นจริงได้
มีหลายวิธีในการทำให้ข้อมูลของคุณสอดคล้องกัน
ตรวจสอบระบบต่างๆ:
คุณสามารถดูระบบอื่นที่คล้ายคลึงกันเพื่อค้นหาว่าค่าที่คุณมีนั้นเป็นของจริงหรือไม่ หากระบบของคุณสองระบบขัดแย้งกัน การตรวจสอบระบบที่สามอาจช่วยได้
ในตัวอย่างก่อนหน้านี้ สมมติว่าคุณตรวจสอบระบบที่สามและพบว่าลูกค้ามีอายุ 65 ปี ซึ่งแสดงว่าระบบที่สองซึ่งระบุว่าลูกค้าเป็นพลเมืองอาวุโสจะคงอยู่
ตรวจสอบข้อมูลล่าสุด:
อีกวิธีหนึ่งในการปรับปรุงความสอดคล้องของข้อมูลของคุณคือการตรวจสอบค่าล่าสุด อาจเป็นประโยชน์กับคุณมากขึ้นในบางสถานการณ์ คุณอาจมีหมายเลขติดต่อที่แตกต่างกันสองหมายเลขสำหรับลูกค้าในบันทึกของคุณ อันล่าสุดน่าจะเชื่อถือได้มากกว่าเพราะเป็นไปได้ว่าลูกค้าเปลี่ยนหมายเลข
ตรวจสอบแหล่งที่มา:
วิธีตรวจสอบความเชื่อถือได้ของข้อมูลที่ไม่น่าเชื่อถือที่สุดคือการติดต่อแหล่งที่มาง่ายๆ ในตัวอย่างอายุของลูกค้า คุณสามารถเลือกที่จะติดต่อลูกค้าโดยตรงและถามอายุได้ อย่างไรก็ตาม มันเป็นไปไม่ได้ในทุกสถานการณ์ และการติดต่อกับแหล่งที่มาโดยตรงอาจเป็นเรื่องยากมาก บางทีลูกค้าอาจไม่ตอบกลับ หรือไม่มีข้อมูลติดต่อของพวกเขา
ความสม่ำเสมอ
คุณควรตรวจสอบให้แน่ใจว่าค่าทั้งหมดที่คุณป้อนในชุดข้อมูลของคุณอยู่ในหน่วยเดียวกัน หากคุณกำลังป้อนหน่วย SI สำหรับการวัด คุณจะไม่สามารถใช้ระบบอิมพีเรียลในบางสถานที่ ในทางกลับกัน หากคุณป้อนเวลาเป็นวินาทีในที่เดียว คุณควรป้อนในรูปแบบนี้ในชุดข้อมูลทั้งหมด
อ่าน: SQL สำหรับ Data Science
การตรวจสอบความสม่ำเสมอของบันทึกของคุณนั้นค่อนข้างง่าย การตรวจสอบอย่างง่ายสามารถเปิดเผยได้ว่าค่าใดค่าหนึ่งอยู่ในหน่วยที่ต้องการหรือไม่ หน่วยที่คุณใช้สำหรับการป้อนข้อมูลของคุณขึ้นอยู่กับความต้องการเฉพาะของคุณ
เทคนิคการล้างข้อมูล
การเลือกเทคนิคการล้างข้อมูลขึ้นอยู่กับหลายปัจจัย อันดับแรก คุณกำลังจัดการกับข้อมูลประเภทใด เป็นค่าตัวเลขหรือสตริง? เว้นแต่คุณจะมีค่าน้อยเกินไปที่จะจัดการ คุณไม่ควรคาดหวังว่าจะล้างข้อมูลของคุณด้วยเทคนิคเดียวเช่นกัน
คุณอาจต้องใช้เทคนิคหลายอย่างเพื่อผลลัพธ์ที่ดีกว่า ยิ่งคุณต้องจัดการประเภทข้อมูลมากเท่าไร ก็ยิ่งต้องใช้เทคนิคการทำความสะอาดมากขึ้นเท่านั้น การทำความคุ้นเคยกับวิธีการทั้งหมดเหล่านี้จะช่วยคุณในการแก้ไขข้อผิดพลาดและกำจัดข้อมูลที่ไม่มีประโยชน์
1. ลบค่าที่ไม่เกี่ยวข้องออก
สิ่งแรกและสำคัญที่สุดที่คุณควรทำคือลบข้อมูลที่ไม่มีประโยชน์ออกจากระบบของคุณ ข้อมูลที่ไร้ประโยชน์หรือไม่เกี่ยวข้องคือข้อมูลที่คุณไม่ต้องการ อาจไม่เหมาะกับบริบทของปัญหาของคุณ
คุณอาจต้องวัดอายุเฉลี่ยของพนักงานขายเท่านั้น ที่อยู่อีเมลของพวกเขาก็ไม่จำเป็น อีกตัวอย่างหนึ่งคือคุณอาจกำลังตรวจสอบเพื่อดูว่าคุณติดต่อลูกค้ากี่รายในหนึ่งเดือน ในกรณีนี้ คุณไม่ต้องการข้อมูลของคนที่คุณติดต่อในเดือนก่อนหน้า
อย่างไรก็ตาม ก่อนที่คุณจะลบข้อมูลส่วนใดส่วนหนึ่ง ตรวจสอบให้แน่ใจว่าข้อมูลนั้นไม่เกี่ยวข้อง เนื่องจากคุณอาจต้องการตรวจสอบค่าที่สัมพันธ์กันในภายหลัง (เพื่อตรวจสอบความสอดคล้อง) และหากคุณสามารถขอความเห็นที่สองจากผู้เชี่ยวชาญที่มีประสบการณ์มากกว่าก่อนที่จะลบข้อมูล อย่าลังเลที่จะทำเช่นนั้น
คุณคงไม่อยากลบค่าบางค่าและเสียใจกับการตัดสินใจในภายหลัง แต่เมื่อคุณมั่นใจว่าข้อมูลไม่เกี่ยวข้องแล้ว ให้กำจัดทิ้งไป
2. กำจัดค่าที่ซ้ำกัน
ค่าที่ซ้ำกันจะคล้ายกับค่าที่ไร้ประโยชน์ – คุณไม่ต้องการมัน พวกเขาเพิ่มปริมาณข้อมูลที่คุณมีและเสียเวลาเท่านั้น คุณสามารถกำจัดมันได้ด้วยการค้นหาง่ายๆ ค่าที่ซ้ำกันอาจมีอยู่ในระบบของคุณด้วยเหตุผลหลายประการ
บางทีคุณอาจรวมข้อมูลจากหลายแหล่งเข้าด้วยกัน หรือบางทีผู้ที่ส่งข้อมูลซ้ำค่าที่ผิดพลาด ผู้ใช้บางคนคลิกสองครั้งที่ 'ป้อน' เมื่อพวกเขากรอกแบบฟอร์มออนไลน์ คุณควรลบรายการที่ซ้ำกันทันทีที่พบ
3. หลีกเลี่ยง Typos (และข้อผิดพลาดที่คล้ายกัน)
การพิมพ์ผิดเป็นผลมาจากความผิดพลาดของมนุษย์และสามารถแสดงได้ทุกที่ คุณสามารถแก้ไขข้อผิดพลาดผ่านอัลกอริธึมและเทคนิคต่างๆ คุณสามารถจับคู่ค่าและแปลงค่าเหล่านั้นเป็นตัวสะกดที่ถูกต้องได้ การพิมพ์ผิดมีความสำคัญต่อการแก้ไขเนื่องจากแบบจำลองปฏิบัติกับค่าต่างๆ ต่างกัน สตริงต้องอาศัยการสะกดและตัวพิมพ์เป็นอย่างมาก
'จอร์จ' แตกต่างจาก 'จอร์จ' แม้ว่าพวกเขาจะสะกดเหมือนกันก็ตาม ในทำนองเดียวกัน 'Mike' และ 'Mice' ต่างกัน แม้ว่าจะมีจำนวนอักขระเท่ากันก็ตาม คุณจะต้องค้นหาคำสะกดผิดเช่นนี้และแก้ไขอย่างเหมาะสม
ข้อผิดพลาดอื่นที่คล้ายกับการพิมพ์ผิดคือขนาดของสตริง คุณอาจต้องแผ่นรองเพื่อให้อยู่ในรูปแบบเดียวกัน ตัวอย่างเช่น ชุดข้อมูลของคุณอาจกำหนดให้คุณต้องมีตัวเลข 5 หลักเท่านั้น ดังนั้นหากคุณมีค่าใดๆ ที่มีเพียงสี่หลักเช่น '3994' คุณสามารถเพิ่มศูนย์ที่จุดเริ่มต้นเพื่อเพิ่มจำนวนหลักได้
ค่าของมันจะยังคงเท่ากับ '03994' แต่จะทำให้ข้อมูลของคุณสม่ำเสมอ ข้อผิดพลาดเพิ่มเติมเกี่ยวกับสตริงคือช่องว่างสีขาว ตรวจสอบให้แน่ใจว่าคุณได้ลบออกจากสตริงเพื่อให้สอดคล้องกัน
4. แปลงประเภทข้อมูล
ชนิดข้อมูลควรเหมือนกันในชุดข้อมูลของคุณ สตริงไม่สามารถเป็นตัวเลขหรือตัวเลขที่เป็นบูลีนไม่ได้ มีหลายสิ่งที่คุณควรคำนึงถึงเมื่อต้องแปลงประเภทข้อมูล:
- เก็บค่าตัวเลขเป็นตัวเลข
- ตรวจสอบว่าตัวเลขเป็นสตริงหรือไม่ หากคุณป้อนเป็นสตริงจะไม่ถูกต้อง
- หากคุณไม่สามารถแปลงค่าข้อมูลเฉพาะได้ คุณควรป้อน 'ค่า NA' หรืออะไรทำนองนี้ ตรวจสอบให้แน่ใจว่าคุณได้เพิ่มคำเตือนด้วยเพื่อแสดงว่าค่าเฉพาะนี้ไม่ถูกต้อง
5. ดูแลคุณค่าที่หายไป
จะมีข้อมูลที่ขาดหายไปอยู่เสมอ คุณไม่สามารถหลีกเลี่ยงได้ ดังนั้น คุณจึงควรทราบวิธีจัดการเพื่อให้ข้อมูลของคุณสะอาดและปราศจากข้อผิดพลาด คอลัมน์หนึ่งในชุดข้อมูลของคุณอาจมีค่าที่หายไปมากเกินไป ในกรณีนั้น จะเป็นการดีที่จะกำจัดคอลัมน์ทั้งหมดออกไป เนื่องจากมีข้อมูลไม่เพียงพอที่จะใช้งาน
ข้อสังเกต: คุณไม่ควรละเลยค่าที่หายไป
การละเว้นค่าที่หายไปอาจเป็นความผิดพลาดที่สำคัญ เนื่องจากค่าเหล่านี้จะปนเปื้อนข้อมูลของคุณ และคุณจะไม่ได้รับผลลัพธ์ที่ถูกต้อง มีหลายวิธีในการจัดการกับค่าที่หายไป
การใส่ค่าที่หายไป:
คุณสามารถใส่ค่าที่หายไป ซึ่งหมายความว่า สมมติว่าเป็นค่าโดยประมาณ คุณสามารถใช้การถดถอยเชิงเส้นหรือค่ามัธยฐานในการคำนวณค่าที่ขาดหายไปได้ อย่างไรก็ตาม วิธีนี้มีความหมายเพราะคุณไม่แน่ใจว่ามันจะเป็นมูลค่าที่แท้จริงหรือไม่
อีกวิธีหนึ่งในการระบุค่าที่หายไปคือการคัดลอกข้อมูลจากชุดข้อมูลที่คล้ายกัน วิธีนี้เรียกว่า 'Hot-deck imputation' คุณกำลังเพิ่มมูลค่าในระเบียนปัจจุบันของคุณในขณะที่พิจารณาข้อจำกัดบางอย่าง เช่น ประเภทข้อมูลและช่วง
เน้นค่าที่ขาดหายไป:
การใส่แทนเสียงไม่ใช่ตัววัดที่ดีที่สุดในการดูแลค่าที่หายไปเสมอไป ผู้เชี่ยวชาญหลายคนให้เหตุผลว่ามันนำไปสู่ผลลัพธ์ที่หลากหลายมากขึ้นเท่านั้นเนื่องจากไม่ใช่ 'ของจริง' ดังนั้น คุณสามารถใช้แนวทางอื่นและแจ้งแบบจำลองว่าข้อมูลขาดหายไป การบอกโมเดล (หรืออัลกอริธึม) ว่าไม่มีค่าเฉพาะก็สามารถเป็นส่วนของข้อมูลได้เช่นกัน
หากเหตุผลที่สุ่มไม่รับผิดชอบต่อค่าที่หายไปของคุณ การเน้นหรือตั้งค่าสถานะอาจเป็นประโยชน์ ตัวอย่างเช่น ระเบียนของคุณอาจมีคำตอบไม่มากนักสำหรับคำถามเฉพาะของแบบสำรวจ เนื่องจากลูกค้าของคุณไม่ต้องการตอบคำถามตั้งแต่แรก
หากค่าที่หายไปเป็นตัวเลข คุณสามารถใช้ 0 ได้ เพียงตรวจสอบให้แน่ใจว่าคุณละเว้นค่าเหล่านี้ในระหว่างการวิเคราะห์ทางสถิติ ในทางกลับกัน หากค่าที่หายไปเป็นค่าตามหมวดหมู่ คุณสามารถเติม 'missing' ได้
สรุป
เราหวังว่าคุณจะสนุกกับ การอ่านเทคนิคการล้างข้อมูล โดยละเอียดของเรา มีอะไรให้เรียนรู้มากมายอย่างไม่ต้องสงสัย
เรียนรู้เพิ่มเติมเกี่ยวกับการโต้แย้งข้อมูลจากวิดีโอการสัมมนาผ่านเว็บของเราด้านล่าง
หากคุณมีคำถามใดๆ เกี่ยวกับการล้างข้อมูล โปรดสอบถามผู้เชี่ยวชาญของเรา
หากคุณอยากเรียนรู้เกี่ยวกับวิทยาศาสตร์ข้อมูล ลองดูโปรแกรม Executive PG ของ IIIT-B & upGrad ใน Data Science ซึ่งสร้างขึ้นสำหรับมืออาชีพที่ทำงานและมีกรณีศึกษาและโครงการมากกว่า 10 รายการ เวิร์กช็อปภาคปฏิบัติจริง การให้คำปรึกษากับผู้เชี่ยวชาญในอุตสาหกรรม 1 -on-1 พร้อมที่ปรึกษาในอุตสาหกรรม การเรียนรู้มากกว่า 400 ชั่วโมงและความช่วยเหลือด้านงานกับบริษัทชั้นนำ
เหตุใดข้อมูลไม่สอดคล้องกันจึงเป็นปัญหา
เมื่อข้อมูลชิ้นเดียวกันปรากฏในหลายที่ ความซ้ำซ้อนของข้อมูลจะเกิดขึ้น ในขณะที่ข้อมูลที่ไม่สอดคล้องกันเกิดขึ้นเมื่อข้อมูลเดียวกันปรากฏในหลายตารางในรูปแบบที่ต่างกัน ขออภัย ความซ้ำซ้อนของข้อมูลอาจทำให้ข้อมูลไม่สอดคล้องกัน ส่งผลให้ข้อมูลไม่ถูกต้องและ/หรือไร้ประโยชน์สำหรับบริษัท พวกเขาไม่สามารถคาดการณ์ยอดขายได้อย่างเหมาะสมเพื่อเพิ่มประสิทธิภาพขั้นตอนการจัดการสินค้าคงคลังและการกระจาย พวกเขาไม่สามารถตรวจพบปัญหาด้านการผลิตหรือห่วงโซ่อุปทานเพื่อลดต้นทุนและความล่าช้าให้เหลือน้อยที่สุด และไม่สามารถประเมินความสนใจของลูกค้าในผลิตภัณฑ์ใหม่เพื่อเปลี่ยนการออกแบบหรือแคมเปญการตลาดได้
ข้อมูลของคุณควรทำความสะอาดบ่อยแค่ไหน?
ความถี่ที่คุณควรทำความสะอาดข้อมูลนั้นขึ้นอยู่กับข้อกำหนดทางธุรกิจของคุณทั้งหมด บริษัทขนาดใหญ่จะได้รับข้อมูลจำนวนมากอย่างรวดเร็ว ดังนั้นอาจจำเป็นต้องล้างข้อมูลทุกสามถึงหกเดือน ขอแนะนำว่าบริษัทขนาดเล็กที่มีข้อมูลน้อยกว่าจะล้างข้อมูลอย่างน้อยปีละครั้ง ขอแนะนำให้วางแผนการล้างข้อมูลหากคุณเคยสงสัยว่าข้อมูลสกปรกกำลังทำให้คุณเสียเงิน หรือส่งผลกระทบในทางลบต่อประสิทธิภาพการทำงาน ประสิทธิภาพ หรือข้อมูลเชิงลึกของคุณ
Tableau เหมาะสำหรับการล้างข้อมูลหรือไม่?
Tableau Prep มาพร้อมกับขั้นตอนการทำความสะอาดจำนวนหนึ่งที่คุณสามารถใช้เพื่อทำความสะอาดและกำหนดรูปแบบข้อมูลของคุณได้ทันที การล้างข้อมูลสกปรกทำให้การผสานรวมและวิเคราะห์ข้อมูลของคุณง่ายขึ้น เช่นเดียวกับให้ผู้อื่นเข้าใจข้อมูลของคุณเมื่อคุณแชร์ข้อมูล