วิธีดำเนินการตามกระบวนการคุณภาพข้อมูล

เผยแพร่แล้ว: 2022-03-11

คุณภาพข้อมูล (DQ) ในระบบคลังข้อมูลมีความสำคัญมากขึ้นเรื่อยๆ ข้อกำหนดด้านกฎระเบียบที่เพิ่มขึ้น แต่ยังมีความซับซ้อนเพิ่มขึ้นของโซลูชันคลังข้อมูล บังคับให้บริษัทต่างๆ เร่งรัด (หรือเริ่ม) ความคิดริเริ่มด้านคุณภาพข้อมูล

จุดสนใจหลักของบทความนี้จะอยู่ที่คลังข้อมูล "ดั้งเดิม" แต่คุณภาพของข้อมูลยังเป็นปัญหาในแนวคิดที่ "ทันสมัย" เช่น Data Lake โดยจะแสดงประเด็นหลักที่ต้องพิจารณาและข้อผิดพลาดทั่วไปบางประการที่ควรหลีกเลี่ยงเมื่อใช้กลยุทธ์ด้านคุณภาพข้อมูล ไม่ครอบคลุมถึงการเลือกเทคโนโลยี/เครื่องมือที่เหมาะสมเพื่อสร้างกรอบงาน DQ

ปัญหาที่ขวางทางมากที่สุดอย่างหนึ่งของโครงการ DQ คือความจริงที่ว่าตั้งแต่แรกเห็น โครงการสร้างงานจำนวนมากให้กับหน่วยธุรกิจโดยไม่ต้องให้ฟังก์ชันการทำงานพิเศษใดๆ ความคิดริเริ่มด้านคุณภาพข้อมูลมักมีผู้เสนอที่ดีก็ต่อเมื่อ:

  • มีปัญหาด้านคุณภาพของข้อมูลที่ส่งผลกระทบอย่างรุนแรงต่อธุรกิจ
  • หน่วยงานกำกับดูแลบังคับใช้มาตรฐานคุณภาพข้อมูล (เช่น BCBS 239 ในอุตสาหกรรมการเงิน)

การรักษาของ DQ นั้นคล้ายกับการทดสอบในการพัฒนาซอฟต์แวร์—หากโครงการหมดเวลาและ/หรืองบประมาณ ส่วนนี้มักจะลดลงก่อน

แน่นอนว่านี่ไม่ใช่ความจริงทั้งหมด ระบบคุณภาพข้อมูลที่ดีจะช่วยตรวจจับข้อผิดพลาดได้ตั้งแต่เนิ่นๆ ซึ่งจะช่วยเร่งกระบวนการส่งข้อมูลที่มีคุณภาพ "ดีเพียงพอ" ให้กับผู้ใช้

คำจำกัดความของข้อกำหนด

ก่อนอภิปรายหัวข้อ ความเข้าใจทั่วไปเกี่ยวกับคำศัพท์ที่ใช้เป็นสิ่งสำคัญ

คลังข้อมูล (DWH)

คลังข้อมูล (DWH) คือระบบที่ไม่ใช้ระบบปฏิบัติการซึ่งส่วนใหญ่ใช้สำหรับการสนับสนุนการตัดสินใจ มันรวบรวมข้อมูลของระบบปฏิบัติการ (ทั้งหมดหรือชุดย่อยที่เล็กกว่า) และให้ข้อมูลที่ปรับให้เหมาะสมสำหรับการสืบค้นสำหรับผู้ใช้ระบบ DWH คลังข้อมูลควรจัดเตรียม "ความจริงเวอร์ชันเดียว" ภายในองค์กร คลังข้อมูลมักจะสร้างจากขั้นตอน/ชั้น:

ชั้นคลังข้อมูลทั่วไป
รูปที่ 1: ชั้นคลังข้อมูลทั่วไป

ข้อมูลการปฏิบัติงานส่วนใหญ่จะถูกเก็บไว้โดยไม่เปลี่ยนแปลงใน ชั้นการแสดงละคร เลเยอร์หลัก ประกอบด้วยข้อมูลที่รวมและเป็นหนึ่งเดียว ขั้นตอนที่เป็นทางเลือกถัดไปคือ พื้นที่ ที่มา ให้ข้อมูลที่ได้รับ (เช่น คะแนนลูกค้าสำหรับการขาย) และการรวม ดาต้ามาร์ทเลเยอร์ มีข้อมูลที่ปรับให้เหมาะสมสำหรับกลุ่มผู้ใช้ที่กำหนด ดาต้ามาร์ทมักจะมีการรวมและเมตริกที่ได้รับจำนวนมาก ผู้ใช้คลังข้อมูลมักจะทำงานกับชั้นดาต้ามาร์ทเท่านั้น

ระหว่างแต่ละขั้นตอน จะมีการแปลงข้อมูลบางประเภท โดยปกติ คลังข้อมูลจะโหลดเป็นระยะด้วยการแยกเดลต้าของข้อมูลการดำเนินงาน และมีอัลกอริทึมในการเก็บข้อมูลในอดีต

คุณภาพของข้อมูล

โดยปกติคุณภาพของข้อมูลจะถูกกำหนดเป็นตัวชี้วัดว่าผลิตภัณฑ์ตรงตามข้อกำหนดของผู้ใช้มากเพียงใด ผู้ใช้ที่แตกต่างกันอาจมีข้อกำหนดที่แตกต่างกันสำหรับผลิตภัณฑ์ ดังนั้นการใช้งานจึงขึ้นอยู่กับมุมมองของผู้ใช้ และการระบุความต้องการเหล่านี้เป็นสิ่งสำคัญ

คุณภาพของข้อมูลไม่ได้หมายความว่าข้อมูลจะต้องสมบูรณ์หรือแทบไม่มีข้อผิดพลาด ขึ้นอยู่กับความต้องการของผู้ใช้ แนวทางที่ "ดีพอ" เป็นทางเลือกที่ดีในการเริ่มต้น ปัจจุบัน บริษัทขนาดใหญ่มี "นโยบายข้อมูล (หรือข้อมูล) ของรัฐบาล" และคุณภาพของข้อมูลก็เป็นส่วนหนึ่ง นโยบายของรัฐบาลด้านข้อมูล ควรอธิบายว่าบริษัทของคุณจัดการกับข้อมูลอย่างไร และทำให้แน่ใจว่าข้อมูลมีคุณภาพที่ถูกต้องและ กฎความเป็นส่วนตัวของข้อมูล จะไม่ถูกละเมิด

คุณภาพของข้อมูลเป็นหัวข้อต่อเนื่อง ต้องใช้วงจรวงจร DQ (ดูบทต่อไป) ข้อกำหนดด้านกฎระเบียบและกฎการปฏิบัติตามกฎระเบียบยังมีผลกระทบต่อคุณภาพของข้อมูลที่จำเป็น เช่น TCPA (กฎหมายคุ้มครองผู้บริโภคทางโทรศัพท์ของสหรัฐอเมริกา) หรือ GDPR ในยุโรปสำหรับปัญหาความเป็นส่วนตัว แต่ยังรวมถึงกฎเฉพาะอุตสาหกรรม เช่น Solvency II สำหรับการประกันภัยในสหภาพยุโรป BCBS 239 และอื่นๆ เพื่อการธนาคาร เป็นต้น

วงจรคุณภาพข้อมูล

เช่นเดียวกับหัวข้อคุณภาพทั้งหมด DQ เป็นกิจกรรมต่อเนื่องที่ออกแบบมาเพื่อรักษาคุณภาพที่น่าพอใจ อันเป็นผลมาจากโครงการ DQ จะต้องนำ วงจรวนรอบ ที่คล้ายกับด้านล่างมาใช้:

วงจรวงจรคุณภาพข้อมูล
รูปที่ 2: วงจรวงจรคุณภาพข้อมูล

ขั้นตอนในลูปนี้จะอธิบายในบทต่อไป

บทบาทด้านคุณภาพข้อมูล

เพื่อนำความคิดริเริ่ม DQ ที่ประสบความสำเร็จไปใช้ บทบาทต่อไปนี้มีความจำเป็น:

  • เจ้าของข้อมูล เจ้าของข้อมูลมีหน้าที่รับผิดชอบต่อคุณภาพของข้อมูล แต่ยังรวมถึงการปกป้องความเป็นส่วนตัวของข้อมูลด้วย เจ้าของข้อมูล “เป็นเจ้าของ” โดเมนข้อมูล ควบคุมการเข้าถึง และรับผิดชอบในการประกันคุณภาพของข้อมูลและดำเนินการแก้ไขข้อค้นพบ ในองค์กรขนาดใหญ่ มักพบเจ้าของข้อมูลหลายราย โดเมนข้อมูลอาจเป็นเช่น ข้อมูลการตลาด การควบคุมข้อมูล ฯลฯ หากมีเจ้าของข้อมูลมากกว่าหนึ่งรายในบริษัท ควรมีบุคคลหนึ่งคน (เจ้าของข้อมูลหรือบุคคลอื่น) ที่รับผิดชอบในกระบวนการคุณภาพข้อมูลโดยรวม เจ้าของข้อมูลควรมีอำนาจที่เข้มแข็งในการบังคับใช้คุณภาพข้อมูลและสนับสนุนกระบวนการ DQ ดังนั้นเจ้าของข้อมูลจึงมักเป็นผู้มีส่วนได้เสียอาวุโส ความเข้าใจที่ดีเกี่ยวกับโดเมนธุรกิจควบคู่ไปกับทักษะการสื่อสารที่ดีเป็นสิ่งสำคัญ
  • สจ๊วตข้อมูล ผู้ดูแลข้อมูลช่วยนำคุณภาพข้อมูลไปใช้ในองค์กร สนับสนุนผู้ใช้ข้อมูลในคำถามเกี่ยวกับวิธีตีความข้อมูล/รูปแบบข้อมูล ปัญหาด้านคุณภาพข้อมูล ฯลฯ ผู้ดูแลข้อมูลมักเป็นพนักงานของเจ้าของข้อมูลหรือสามารถจัดระเบียบในศูนย์ความสามารถด้านคุณภาพข้อมูล หรือทีม DQ ผู้ดูแลข้อมูลสามารถมีพื้นฐานด้านไอทีหรือธุรกิจได้ แต่ควรทราบทั้งสองฝ่าย ทักษะการวิเคราะห์พร้อมกับความเข้าใจที่ดีเกี่ยวกับโดเมนธุรกิจที่พวกเขาสนับสนุน รวมกับทักษะในการสื่อสารที่ดี เป็นข้อกำหนดเบื้องต้นที่สำคัญสำหรับผู้ดูแลข้อมูลที่ประสบความสำเร็จ
  • ผู้ใช้ข้อมูล เหล่านี้คือผู้ใช้คลังข้อมูลที่ทำงานกับข้อมูล ผู้ใช้ข้อมูลมักจะทำงานกับเลเยอร์ของ data mart และรับผิดชอบต่อผลลัพธ์การทำงานกับข้อมูล ผู้ใช้ข้อมูลต้องแน่ใจว่ามีการตรวจสอบคุณภาพข้อมูลที่เพียงพอสำหรับระดับคุณภาพที่ต้องการ ผู้ใช้ข้อมูลจำเป็นต้องมีความเข้าใจอย่างลึกซึ้งในข้อมูล โดเมนธุรกิจ และทักษะการวิเคราะห์ที่จำเป็นในการตีความข้อมูล มีเหตุผลที่จะหาคนไม่กี่คนในหมู่ผู้ใช้ข้อมูลในทุกหน่วยธุรกิจที่จะรับผิดชอบปัญหาด้านคุณภาพของข้อมูล

เพื่อให้แน่ใจว่าจะประสบความสำเร็จ จำเป็นต้องกำหนดบทบาทเหล่านี้ไว้อย่างชัดเจนและเป็นที่ ยอมรับ อย่างกว้างขวางภายในองค์กรของคุณในช่วงเริ่มต้นของโครงการ DQ ของคุณ การหาผู้เชี่ยวชาญด้านข้อมูลที่มีความสามารถสำหรับบทบาทเหล่านี้ที่สนับสนุนโครงการมีความสำคัญเท่าเทียมกัน

กำหนดกฎเกณฑ์

ค้นหาและใช้การตรวจสอบ/กฎ DQ ที่เป็นประโยชน์ การกำหนดกฎ DQ จำเป็นต้องมีความเข้าใจที่ดีเกี่ยวกับคลังข้อมูลของคุณและการใช้งาน

จะค้นหากฎ DQ ได้อย่างไร

ดังที่ได้กล่าวไว้ก่อนหน้านี้ ผู้ใช้ข้อมูล (และเจ้าของข้อมูล) มีหน้าที่รับผิดชอบในการใช้ข้อมูล และด้วยเหตุนี้จึงต้องมีระดับคุณภาพของข้อมูลที่จำเป็นด้วย ผู้ใช้ข้อมูลควรมีความเข้าใจในข้อมูลของตนเป็นอย่างดี เพื่อให้สามารถป้อนข้อมูลที่ดีที่สุดสำหรับกฎคุณภาพของข้อมูลที่เป็นประโยชน์

พวกเขายังเป็นผู้ที่วิเคราะห์ผลลัพธ์ของกฎคุณภาพข้อมูล ดังนั้นจึงควรปล่อยให้พวกเขากำหนดกฎของตนเอง สิ่งนี้ช่วยปรับปรุงการยอมรับเพื่อตรวจสอบและให้คะแนนผลลัพธ์ของกฎ DQ ที่กำหนดให้กับหน่วยผู้ใช้ข้อมูล (ดูบท "วิเคราะห์")

ข้อเสียของแนวทางนี้คือ โดยปกติแล้วผู้ใช้ข้อมูลจะรู้จักชั้น data mart เท่านั้น ไม่ใช่ชั้นก่อนหน้าของคลังข้อมูล หากข้อมูลเสียหายในระดับ "ล่าง" ข้อมูลนี้จะไม่ถูกตรวจพบโดยการตรวจสอบเพียงชั้น "บนสุด" ของคลังข้อมูลของคุณ

แก้ไขข้อผิดพลาด

ข้อผิดพลาดที่ทราบประเภทใดที่อาจเกิดขึ้นในคลังข้อมูล

  • ตรรกะการแปลงที่ไม่ถูกต้องในคลังข้อมูล
    • ยิ่งภูมิทัศน์ไอทีของคุณซับซ้อนมากขึ้น ตรรกะของการเปลี่ยนแปลงก็มักจะซับซ้อนมากขึ้นเท่านั้น ปัญหาเหล่านี้คือปัญหา DQ ที่พบบ่อยที่สุด และผลกระทบของข้อผิดพลาดดังกล่าวอาจทำให้ข้อมูล "สูญหาย" ข้อมูลซ้ำซ้อน ค่าที่ไม่ถูกต้อง ฯลฯ
  • กระบวนการโหลดไม่เสถียรหรือการจัดการโหลดผิดพลาด
    • โหลดของคลังข้อมูลอาจเป็นกระบวนการที่ซับซ้อน ซึ่งอาจรวมถึงข้อผิดพลาดในคำจำกัดความของการจัดการงาน (งานที่เริ่มต้นเร็วหรือช้าเกินไป งานที่ไม่ได้ดำเนินการ ฯลฯ) ข้อผิดพลาดเนื่องจากการแทรกแซงด้วยตนเอง (เช่น งานบางงานถูกข้าม งานบางงานเริ่มต้นด้วยวันครบกำหนดที่ไม่ถูกต้อง หรือไฟล์ข้อมูลของเมื่อวาน) เกิดขึ้นบ่อยครั้งเมื่อกระบวนการโหลดหมดช่วงเนื่องจากการหยุดชะงักบางอย่าง
  • การถ่ายโอนข้อมูลของแหล่งข้อมูลผิด
    • การถ่ายโอนข้อมูลมักจะเป็นงานของระบบต้นทาง ความผิดปกติหรือการหยุดชะงักในกระแสงานอาจทำให้การส่งข้อมูลว่างเปล่าหรือไม่สมบูรณ์
  • ข้อมูลการดำเนินงานไม่ถูกต้อง
    • ข้อมูลในระบบปฏิบัติการมีข้อผิดพลาดที่ยังไม่รู้จัก อาจฟังดูแปลก แต่เป็นความซ้ำซากในโครงการคลังข้อมูลซึ่งมักจะไม่เห็นคุณภาพของข้อมูลการดำเนินงานจนกว่าข้อมูลจะรวมอยู่ใน DWH
  • การตีความข้อมูลผิดพลาด
    • ข้อมูลถูกต้อง แต่ผู้ใช้ไม่รู้วิธีตีความอย่างถูกต้อง นี่เป็น "ข้อผิดพลาด" ทั่วไปที่ไม่ใช่ปัญหาด้านคุณภาพข้อมูลอย่างเคร่งครัด แต่เป็นสิ่งที่เกี่ยวข้องกับการกำกับดูแลข้อมูลและเป็นงานสำหรับผู้ดูแลข้อมูล

ปัญหาเหล่านี้มักเกิดจากคนที่ขาดความรู้และทักษะที่เหมาะสมในการกำหนด นำไปใช้ เรียกใช้ และทำงานกับโซลูชันคลังข้อมูล

มิติข้อมูลคุณภาพ

มิติข้อมูล DQ เป็นวิธีทั่วไปในการระบุและคลัสเตอร์การตรวจสอบ DQ มีคำจำกัดความมากมาย และจำนวนมิติข้อมูลแตกต่างกันอย่างมาก: คุณอาจพบมิติข้อมูล 16 รายการหรือมากกว่านั้น จากมุมมองเชิงปฏิบัติ จะทำให้เกิดความสับสนน้อยลงในการเริ่มต้นด้วยมิติข้อมูลบางส่วนและค้นหาความเข้าใจทั่วไปเกี่ยวกับมิติข้อมูลเหล่านี้ในหมู่ผู้ใช้ของคุณ

  • ความ สมบูรณ์: ข้อมูลทั้งหมดที่จำเป็นและสามารถเข้าถึงได้หรือไม่? แหล่งข้อมูลทั้งหมดจำเป็นต้องมีและโหลดหรือไม่ ข้อมูลสูญหายระหว่างขั้นตอนหรือไม่
  • ความ สอดคล้อง: มีข้อมูลที่ผิดพลาด/ขัดแย้ง/ไม่สอดคล้องกันหรือไม่? ตัวอย่างเช่น วันที่สิ้นสุดของสัญญาในสถานะ "สิ้นสุด" ต้องมีวันที่ที่ถูกต้องซึ่งสูงกว่าหรือเท่ากับวันที่เริ่มต้นของสัญญา
  • เอกลักษณ์: มีการซ้ำซ้อนหรือไม่?
  • ความสมบูรณ์: ข้อมูลทั้งหมดเชื่อมโยงอย่างถูกต้องหรือไม่ ตัวอย่างเช่น มีคำสั่งซื้อที่เชื่อมโยงกับรหัสลูกค้าที่ไม่มีอยู่ (ปัญหาความสมบูรณ์ของการอ้างอิงแบบคลาสสิก) หรือไม่
  • ความทัน เวลา: ข้อมูลเป็นปัจจุบันหรือไม่? ตัวอย่างเช่น ในคลังข้อมูลที่มีการอัพเดทรายวัน ฉันคาดว่าข้อมูลของเมื่อวานจะพร้อมใช้งานในวันนี้

ข้อมูลที่สร้างโดย กระบวนการโหลด คลังข้อมูลก็มีประโยชน์เช่นกัน

  • ตารางที่มีข้อมูลที่ถูกทิ้ง คลังข้อมูลของคุณอาจมีกระบวนการในการข้าม/ชะลอข้อมูลที่ไม่สามารถโหลดได้เนื่องจากปัญหาทางเทคนิค (เช่น การแปลงรูปแบบ ค่าบังคับที่ขาดหายไป เป็นต้น)
  • ข้อมูลการเข้าสู่ระบบ ปัญหาที่เห็นได้ชัดเจนอาจถูกเขียนลงในตารางการบันทึกหรือไฟล์บันทึก
  • ใบส่งของ. ระบบบางระบบใช้ "ใบส่งสินค้า" สำหรับข้อมูลที่ระบบปฏิบัติการให้มา (เช่น จำนวนบันทึก จำนวนคีย์ที่แตกต่างกัน ผลรวมของค่า) สามารถใช้สำหรับการตรวจสอบการกระทบยอด (ดูด้านล่าง) ระหว่างคลังข้อมูลและระบบปฏิบัติการ

โปรดทราบว่าการตรวจสอบคุณภาพข้อมูลแต่ละครั้งต้องได้รับการวิเคราะห์โดยผู้ใช้ข้อมูลอย่างน้อยหนึ่งราย (ดูบท "วิเคราะห์") ในกรณีที่พบข้อผิดพลาด ซึ่งคุณจะต้องมีผู้รับผิดชอบและพร้อมที่จะดูแลการตรวจสอบทุกครั้งที่ดำเนินการ

ภายในคลังข้อมูลที่ซับซ้อน คุณอาจจบลงด้วยกฎ DQ จำนวนมาก (บางครั้งนับพัน) กระบวนการในการดำเนินการตามกฎคุณภาพข้อมูลควรมีความรัดกุมและรวดเร็วเพียงพอที่จะจัดการกับสิ่งนี้

อย่าตรวจสอบข้อเท็จจริงที่รับประกันโดยการใช้งานทางเทคนิค ตัวอย่างเช่น หากข้อมูลถูกเก็บไว้ใน DBMS เชิงสัมพันธ์ ไม่จำเป็นต้องตรวจสอบว่า:

  • คอลัมน์ที่กำหนดเป็นบังคับมีค่า NULL
  • ค่าฟิลด์คีย์หลักจะไม่ซ้ำกันในตาราง
  • ไม่มีคีย์ต่างประเทศอยู่ในตารางที่เปิดใช้งานการตรวจสอบความสมบูรณ์เชิงสัมพันธ์

อย่างไรก็ตาม พึงระลึกไว้เสมอว่าคลังข้อมูลมีการเปลี่ยนแปลงอยู่ตลอดเวลา และข้อกำหนดข้อมูลของเขตข้อมูลและตารางอาจเปลี่ยนแปลงเมื่อเวลาผ่านไป

การดูแลทำความสะอาดเป็นสิ่งสำคัญมาก กฎที่กำหนดโดยหน่วยผู้ใช้ข้อมูลที่แตกต่างกันอาจทับซ้อนกันและควรรวมเข้าด้วยกัน ยิ่งองค์กรของคุณซับซ้อนมากเท่าไหร่ การดูแลทำความสะอาดก็จะยิ่งมากขึ้นเท่านั้น เจ้าของข้อมูลควรใช้กระบวนการรวมกฎเป็น "คุณภาพข้อมูลสำหรับกฎคุณภาพข้อมูล" นอกจากนี้ การตรวจสอบคุณภาพข้อมูลอาจไม่มีประโยชน์หากไม่มีการใช้ข้อมูลอีกต่อไปหรือมีการเปลี่ยนแปลงคำจำกัดความ

ประเภทของกฎคุณภาพข้อมูล

กฎคุณภาพข้อมูลสามารถจำแนกได้ตามประเภทของการทดสอบ

  • การตรวจสอบคุณภาพข้อมูล กรณี "ปกติ" การตรวจสอบข้อมูลภายในชั้นคลังข้อมูลหนึ่งชั้น (ดูรูปที่ 1) ภายในตารางเดียวหรือชุดของตาราง
  • การปรองดอง กฎที่ตรวจสอบว่าข้อมูลถูกส่งอย่างถูกต้องระหว่างชั้นคลังข้อมูลหรือไม่ (ดูรูปที่ 1) กฎเหล่านี้ส่วนใหญ่ใช้เพื่อตรวจสอบมิติ DQ ของ "ความสมบูรณ์" การกระทบยอดสามารถใช้แถวเดียวหรือวิธีการสรุป การตรวจสอบแถวเดี่ยวนั้นละเอียดกว่ามาก แต่คุณจะต้องสร้างขั้นตอนการแปลงซ้ำ (การกรองข้อมูล การเปลี่ยนแปลงค่าฟิลด์ ดีนอร์มัลไลซ์ การรวม ฯลฯ) ระหว่างเลเยอร์ที่เปรียบเทียบ ยิ่งคุณข้ามเลเยอร์มากเท่าใด ลอจิกการแปลงก็จะยิ่งซับซ้อนมากขึ้นเท่านั้น ดังนั้นจึงเป็นทางเลือกที่ดีในการทำการกระทบยอดระหว่างแต่ละเลเยอร์กับรุ่นก่อน แทนที่จะเปรียบเทียบการจัดเตรียมกับชั้นดาต้ามาร์ท หากจำเป็นต้องดำเนินการแปลงในกฎการกระทบยอด ให้ใช้ข้อกำหนด ไม่ใช่รหัสคลังข้อมูล! สำหรับการกระทบยอดโดยสรุป ให้ค้นหาฟิลด์ที่มีความหมาย (เช่น การสรุป การนับค่าที่แตกต่างกัน เป็นต้น)
  • การตรวจสอบ คลังข้อมูลมักจะมีข้อมูลในอดีตและโหลดด้วยเดลต้าที่แยกข้อมูลการดำเนินงาน มีอันตรายจากช่องว่างที่เพิ่มขึ้นอย่างช้าๆ ระหว่างคลังข้อมูลและข้อมูลการปฏิบัติงาน การสร้างอนุกรมเวลาโดยสรุปของข้อมูลจะช่วยระบุปัญหาเช่นนี้ (เช่น การเปรียบเทียบข้อมูลของเดือนที่แล้วกับข้อมูลของเดือนปัจจุบัน) ผู้ใช้ข้อมูลที่มีความรู้ดีเกี่ยวกับข้อมูลของตนสามารถจัดเตรียมมาตรการและเกณฑ์ที่เป็นประโยชน์สำหรับกฎการตรวจสอบ

วิธีการหาปริมาณปัญหาคุณภาพข้อมูล

เมื่อคุณกำหนดสิ่งที่ต้องตรวจสอบแล้ว คุณจะต้องระบุวิธีการหาปริมาณของปัญหาที่ระบุ ข้อมูลเช่น "แถวข้อมูลห้าแถวละเมิดกฎ DQ ที่มี ID 15" ไม่ค่อยสมเหตุสมผลสำหรับคุณภาพของข้อมูล

ชิ้นส่วนต่อไปนี้หายไป:

  • วิธีการหาจำนวน/นับข้อผิดพลาดที่ตรวจพบ คุณอาจนับ “จำนวนแถว” แต่คุณอาจใช้มาตราส่วนการเงิน (เช่น การเปิดเผย) โปรดทราบว่ามูลค่าทางการเงินอาจมีสัญญาณต่างกัน ดังนั้นคุณจะต้องตรวจสอบวิธีสรุปค่าเหล่านี้อย่างมีความหมาย คุณอาจลองใช้ทั้งหน่วยวัดปริมาณ (จำนวนแถวและการสรุป) สำหรับกฎคุณภาพข้อมูล
  • ประชากร. จำนวนหน่วยที่ตรวจสอบโดยกฎคุณภาพข้อมูลคือเท่าใด “ห้าแถวข้อมูลในห้า” มีคุณภาพแตกต่างจาก “ห้าใน 5 ล้าน” ประชากรควรวัดโดยใช้ปริมาณเดียวกันกับข้อผิดพลาด เป็นเรื่องปกติที่จะแสดงผลลัพธ์ของกฎคุณภาพข้อมูลเป็นเปอร์เซ็นต์ ประชากรต้องไม่เหมือนกับจำนวนแถวในตาราง หากกฎ DQ ตรวจสอบเฉพาะชุดย่อยของข้อมูล (เช่น เฉพาะสัญญาที่สิ้นสุดในตารางสัญญา) ควรใช้ตัวกรองเดียวกันเพื่อวัดจำนวนประชากร
  • คำจำกัดความของผลลัพธ์ แม้ว่าการตรวจสอบคุณภาพข้อมูลจะพบปัญหา แต่ก็ไม่จำเป็นต้องทำให้เกิดข้อผิดพลาดเสมอไป สำหรับคุณภาพของข้อมูล ระบบสัญญาณไฟจราจร (แดง เหลือง เขียว) ที่ใช้ค่าเกณฑ์ในการให้คะแนนสิ่งที่ค้นพบนั้นมีประโยชน์มาก ตัวอย่างเช่น สีเขียว: 0-2% สีเหลือง: 2-5% สีแดง: สูงกว่า 5% โปรดทราบว่าหากหน่วยข้อมูลผู้ใช้ใช้กฎเดียวกัน อาจมีเกณฑ์ที่แตกต่างกันมากสำหรับกฎที่กำหนด หน่วยธุรกิจการตลาดอาจไม่คำนึงถึงการสูญเสียคำสั่งซื้อบางส่วน ในขณะที่หน่วยบัญชีอาจสนใจแม้กระทั่งเซ็นต์ ควรกำหนดเกณฑ์เป็นเปอร์เซ็นต์หรือตัวเลขที่แน่นอนได้
  • รวบรวมแถวข้อผิดพลาดตัวอย่าง จะช่วยได้หากกฎคุณภาพข้อมูลแสดงตัวอย่างข้อผิดพลาดที่ตรวจพบ โดยปกติ คีย์ (ธุรกิจ!) และค่าข้อมูลที่ตรวจสอบแล้วเพียงพอที่จะช่วยตรวจสอบข้อผิดพลาด เป็นความคิดที่ดีที่จะจำกัดจำนวนแถวข้อผิดพลาดที่เขียนไว้สำหรับกฎคุณภาพข้อมูล
  • บางครั้ง คุณอาจพบ “ข้อผิดพลาดที่ทราบ” ในข้อมูลที่จะไม่ได้รับการแก้ไข แต่จะพบได้โดยการตรวจสอบคุณภาพข้อมูลที่มีประโยชน์ ในกรณีเหล่านี้ ขอแนะนำให้ใช้ รายการที่อนุญาตพิเศษ (คีย์ของระเบียนที่ควรข้ามโดยการตรวจสอบคุณภาพข้อมูล)

ข้อมูลเมตาอื่นๆ

ข้อมูลเมตามีความสำคัญในการกำหนดเส้นทาง "วิเคราะห์" และตรวจสอบขั้นตอนของการควบคุมคุณภาพข้อมูล

  • รายการตรวจสอบ ช่วยกำหนดตารางและฟิลด์ที่ตรวจสอบให้กับกฎคุณภาพข้อมูล หากคุณมีระบบข้อมูลเมตาที่ได้รับการปรับปรุง การดำเนินการนี้อาจช่วยกำหนดผู้ใช้ข้อมูลและเจ้าของข้อมูลให้กับกฎนี้ได้โดยอัตโนมัติ ด้วยเหตุผลด้านกฎระเบียบ (เช่น BCBS 239) จำเป็นต้องพิสูจน์ด้วยว่า DQ ตรวจสอบข้อมูลอย่างไร อย่างไรก็ตาม การกำหนดกฎอัตโนมัติให้กับผู้ใช้ข้อมูล/เจ้าของข้อมูลผ่านสายข้อมูล (*) อาจเป็นดาบสองคม (ดูด้านล่าง)
  • ผู้ใช้ข้อมูล กฎ DQ ทุกข้อต้องมีการกำหนดผู้ใช้ข้อมูล/หน่วยผู้ใช้ข้อมูลอย่างน้อยหนึ่งหน่วยเพื่อตรวจสอบผลลัพธ์ระหว่างขั้นตอน "วิเคราะห์" และตัดสินใจว่าการค้นพบมีอิทธิพลต่องานของพวกเขากับข้อมูลหรือไม่และอย่างไร
  • เจ้าของข้อมูล กฎ DQ ทุกข้อต้องมีการกำหนดเจ้าของข้อมูล

(*) Data lineage แสดงการไหลของข้อมูลระหว่างสองจุด ด้วย data lineage คุณสามารถค้นหาองค์ประกอบข้อมูลทั้งหมดที่มีอิทธิพลต่อฟิลด์เป้าหมายที่กำหนดภายในคลังสินค้าของคุณ

การใช้สายข้อมูลเพื่อกำหนดผู้ใช้ให้กับกฎอาจเป็นปัญหาได้ ดังที่ได้กล่าวไว้ก่อนหน้านี้ ผู้ใช้ทางธุรกิจมักจะรู้เพียงชั้น data mart (และระบบปฏิบัติการ) เท่านั้น แต่ไม่รู้จักระดับที่ต่ำกว่าของคลังข้อมูล การทำแผนที่ผ่านสายข้อมูลจะทำให้ผู้ใช้ข้อมูลได้รับกฎที่พวกเขาไม่คุ้นเคย สำหรับระดับล่าง อาจจำเป็นต้องมีเจ้าหน้าที่ไอทีเพื่อประเมินผลการค้นพบคุณภาพข้อมูล ในหลายกรณี การทำแผนที่ด้วยตนเองหรือวิธีการแบบผสม (การทำแผนที่ผ่านสายข้อมูลภายใน data mart เท่านั้น) สามารถช่วยได้

การวัดคุณภาพข้อมูล

การวัดคุณภาพข้อมูลหมายถึงการบังคับใช้กฎคุณภาพข้อมูลที่มีอยู่ ซึ่งควรทำ โดยอัตโนมัติ ซึ่งเกิดขึ้นจากกระบวนการโหลดของคลังข้อมูล ดังที่เราเคยเห็นมาก่อนหน้านี้ อาจมีกฎด้านคุณภาพข้อมูลจำนวนมากที่โดดเด่น ดังนั้นการตรวจสอบจึงใช้เวลานาน

ในโลกที่สมบูรณ์แบบ คลังข้อมูลจะถูกโหลดก็ต่อเมื่อข้อมูลทั้งหมดปราศจากข้อผิดพลาด ในโลกแห่งความเป็นจริง แทบจะไม่เคยเกิดขึ้นเลย ขึ้นอยู่กับกลยุทธ์การโหลดโดยรวมของคลังข้อมูลของคุณ กระบวนการคุณภาพข้อมูลควรหรือไม่ควร (อย่างหลังมีโอกาสมากกว่า) ควบคุมกระบวนการโหลด เป็นการออกแบบที่ดีที่จะมีกระบวนการคุณภาพข้อมูล (เครือข่ายงาน) แบบคู่ขนานและเชื่อมโยงกับกระบวนการโหลดคลังข้อมูล "ปกติ"

หากมีข้อตกลงระดับบริการที่กำหนดไว้ ตรวจสอบให้แน่ใจว่าไม่ได้ขัดขวางการโหลดคลังข้อมูลด้วยการตรวจสอบคุณภาพข้อมูล ข้อผิดพลาด/การหยุดทำงานในกระบวนการคุณภาพข้อมูลไม่ควรหยุดกระบวนการโหลดปกติ ข้อผิดพลาดที่ไม่คาดคิดภายในกระบวนการตรวจสอบคุณภาพข้อมูลควรได้รับการรายงานและแสดงขึ้นสำหรับขั้นตอน "วิเคราะห์" (ดูบทถัดไป)

โปรดทราบว่ากฎคุณภาพข้อมูลอาจขัดข้องเนื่องจากข้อผิดพลาดที่ไม่คาดคิด (อาจมีการนำกฎไปใช้อย่างไม่ถูกต้อง หรือโครงสร้างข้อมูลพื้นฐานเปลี่ยนแปลงเมื่อเวลาผ่านไป) จะช่วยได้หากระบบคุณภาพข้อมูลของคุณมีกลไกในการ ปิดใช้งาน กฎดังกล่าว โดยเฉพาะอย่างยิ่งหากบริษัทของคุณมีการเผยแพร่ข้อมูลเพียงเล็กน้อยต่อปี

ควร ดำเนินการและรายงานกระบวนการ DQ โดยเร็วที่สุด — จะเป็นการดีหลังจากโหลดข้อมูลการตรวจสอบแล้ว วิธีนี้ช่วยตรวจจับข้อผิดพลาดได้เร็วที่สุดในระหว่างการโหลดของคลังข้อมูล (โหลดระบบคลังสินค้าที่ซับซ้อนบางรายการมีระยะเวลาหลายวัน)

วิเคราะห์

ในบริบทนี้ “วิเคราะห์” หมายถึงการตอบสนองต่อการค้นพบคุณภาพข้อมูล นี่เป็นงานสำหรับผู้ใช้ข้อมูลที่ได้รับมอบหมายและเจ้าของข้อมูล

วิธีในการตอบสนองควรกำหนดไว้อย่างชัดเจนโดยโครงการคุณภาพข้อมูลของคุณ ผู้ใช้ข้อมูลควรมีหน้าที่แสดงความคิดเห็นเกี่ยวกับกฎที่มีข้อค้นพบ (อย่างน้อยกฎที่มีไฟแดง) โดยอธิบายว่ามีการใช้มาตรการใดบ้างในการจัดการกับการค้นพบ เจ้าของข้อมูลจำเป็นต้องได้รับแจ้งและควรตัดสินใจร่วมกับผู้ใช้ข้อมูล

การดำเนินการต่อไปนี้เป็นไปได้:

  • ปัญหาร้ายแรง: ปัญหาต้องได้รับการแก้ไขและโหลดข้อมูลซ้ำ
  • ปัญหาเป็นที่ยอมรับ: พยายามแก้ไขสำหรับการโหลดข้อมูลในอนาคต และจัดการกับปัญหาภายในคลังข้อมูลหรือการรายงาน
  • กฎ DQ ที่มี ข้อบกพร่อง: แก้ไขกฎ DQ ที่มีปัญหา

ในโลกที่สมบูรณ์แบบ ปัญหาด้านคุณภาพของข้อมูลทุกอย่างจะได้รับการแก้ไข อย่างไรก็ตาม การขาดทรัพยากรและ/หรือเวลามักส่งผลให้เกิดการแก้ปัญหาชั่วคราว

เพื่อให้สามารถตอบสนองได้ทันเวลา ระบบ DQ จะต้องแจ้งผู้ใช้ข้อมูลเกี่ยวกับกฎ "ของพวกเขา" ด้วยการค้นพบ การใช้แดชบอร์ดคุณภาพข้อมูล (อาจรวมถึงการส่งข้อความที่มีบางอย่างปรากฏขึ้น) เป็นความคิดที่ดี ก่อนหน้านี้ผู้ใช้จะได้รับแจ้งเกี่ยวกับการค้นพบที่ดีกว่า

แดชบอร์ดคุณภาพข้อมูล ควรประกอบด้วย:

  • กฎทั้งหมดที่กำหนดให้กับบทบาทที่กำหนด
  • ผลลัพธ์ของกฎ (สัญญาณไฟจราจร การวัด และแถวตัวอย่าง) ที่มีความสามารถในการกรองกฎตามผลลัพธ์และโดเมนข้อมูล
  • ความคิดเห็นบังคับที่ผู้ใช้ข้อมูลต้องป้อนเพื่อค้นหา
  • คุณลักษณะที่เลือกที่จะ "ลบล้าง" ผลลัพธ์ (เช่น หากกฎคุณภาพข้อมูลรายงานข้อผิดพลาดอันเนื่องมาจากการใช้งานที่มีข้อบกพร่อง เป็นต้น) หากมีหน่วยธุรกิจมากกว่าหนึ่งหน่วยที่มีการกำหนดกฎคุณภาพข้อมูลเหมือนกัน "การลบล้าง" จะใช้ได้เฉพาะกับหน่วยธุรกิจของผู้ใช้ข้อมูลเท่านั้น (ไม่ใช่ทั้งบริษัท)
  • แสดงกฎที่ไม่ได้ดำเนินการหรือที่ผิดไป

แดชบอร์ดยังควรแสดงสถานะปัจจุบันของกระบวนการโหลดคลังข้อมูลล่าสุด ให้ผู้ใช้ได้เห็นมุมมอง 360 องศาของกระบวนการโหลดคลังข้อมูล

เจ้าของข้อมูลมีหน้าที่รับผิดชอบในการตรวจสอบให้แน่ใจว่าทุกการค้นพบได้รับการแสดงความคิดเห็น และสถานะของคุณภาพข้อมูล (ต้นฉบับหรือลบล้าง) จะเป็นสีเหลืองอย่างน้อยสำหรับผู้ใช้ข้อมูลทั้งหมด

สำหรับภาพรวมโดยย่อ จะช่วยสร้าง KPI แบบง่าย (ตัวบ่งชี้ประสิทธิภาพหลัก) สำหรับผู้ใช้ข้อมูล/เจ้าของข้อมูล การมีสัญญาณไฟจราจรโดยรวมสำหรับผลลัพธ์ของกฎที่เกี่ยวข้องทั้งหมดนั้นค่อนข้างง่ายหากแต่ละกฎมีน้ำหนักเท่ากัน

โดยส่วนตัวแล้ว ฉันคิดว่าการคำนวณมูลค่าโดยรวมของคุณภาพข้อมูลสำหรับโดเมนข้อมูลที่กำหนดนั้นค่อนข้างซับซ้อนและมีแนวโน้มที่จะเป็นแบบคาบาลิสติก แต่อย่างน้อย คุณสามารถแสดงจำนวนกฎโดยรวมที่จัดกลุ่มตามผลลัพธ์สำหรับโดเมนข้อมูล (เช่น “กฎ 100 DQ ด้วยผลลัพธ์สีเขียว 90% สีเหลือง 5% และสีแดง 5%”)

เป็นหน้าที่ของเจ้าของข้อมูลเพื่อให้แน่ใจว่าสิ่งที่ค้นพบจะได้รับการแก้ไขและปรับปรุงคุณภาพของข้อมูล

ปรับปรุงกระบวนการ

เนื่องจากกระบวนการคลังข้อมูลมักเปลี่ยนแปลง กลไกคุณภาพข้อมูลจึงจำเป็นต้องบำรุงรักษาด้วย

เจ้าของข้อมูลควรดูแลประเด็นต่อไปนี้เสมอ:

  • ให้มันถึงวันที่ การเปลี่ยนแปลงในคลังข้อมูลจำเป็นต้องถูกจับในระบบคุณภาพข้อมูล
  • ยกระดับ. ใช้กฎใหม่สำหรับข้อผิดพลาดที่ยังไม่ครอบคลุมโดยกฎคุณภาพข้อมูล
  • คล่องตัว ปิดใช้กฎคุณภาพข้อมูลที่ไม่จำเป็นอีกต่อไป รวมกฎที่ทับซ้อนกัน

การตรวจสอบกระบวนการคุณภาพข้อมูล

การตรวจสอบกระบวนการตรวจสอบคุณภาพข้อมูลทั้งหมดจะช่วยปรับปรุงให้ดีขึ้นเมื่อเวลาผ่านไป

สิ่งที่ควรค่าแก่การดูคือ:

  • ความครอบคลุมของข้อมูลของคุณด้วยกฎคุณภาพข้อมูล
  • เปอร์เซ็นต์ของการค้นพบคุณภาพข้อมูลภายในกฎที่ทำงานอยู่ในช่วงเวลาหนึ่ง
  • จำนวนของกฎคุณภาพข้อมูลที่ใช้งานอยู่ (คอยดู—ฉันได้เห็นผู้ใช้ข้อมูลแก้ไขสิ่งที่ค้นพบโดยเพียงแค่ปิดการใช้งานกฎคุณภาพข้อมูลมากขึ้นเรื่อยๆ)
  • เวลาที่จำเป็นในการโหลดข้อมูลเพื่อให้มีการจัดอันดับและแก้ไขข้อค้นพบทั้งหมด

บทสรุป

หลายประเด็นต่อไปนี้มีความสำคัญในโครงการประเภทใด

คาดการณ์แนวต้าน ดังที่เราได้เห็น หากไม่มีปัญหาด้านคุณภาพอย่างเร่งด่วน คุณภาพของข้อมูลมักถูกมองว่าเป็นภาระเพิ่มเติมโดยไม่ต้องเสนอฟังก์ชันการทำงานใหม่ โปรดทราบว่าอาจสร้างภาระงานเพิ่มเติมสำหรับผู้ใช้ข้อมูล ในหลายกรณี การปฏิบัติตามข้อกำหนดและข้อกำหนดสามารถช่วยให้คุณโน้มน้าวให้ผู้ใช้เห็นว่าเป็นข้อกำหนดที่หลีกเลี่ยงไม่ได้

หาสปอนเซอร์. ดังที่กล่าวไว้ข้างต้น DQ ไม่ใช่สินค้าขายเร็ว ดังนั้นจึงจำเป็นต้องมีผู้สนับสนุน/ผู้มีส่วนได้ส่วนเสียที่มีประสิทธิภาพ ยิ่งผู้บริหารระดับสูงเท่าไรก็ยิ่งดี

ค้นหาพันธมิตร เช่นเดียวกับผู้สนับสนุน ใครก็ตามที่แบ่งปันแนวคิดเรื่องคุณภาพข้อมูลที่ดีจะเป็นประโยชน์มากที่สุด วงจรวงจร DQ เป็นกระบวนการต่อเนื่องและต้องการผู้คนเพื่อให้วงจรมีชีวิตอยู่

เริ่มเล็ก. หากยังไม่มีกลยุทธ์ DQ ให้มองหาหน่วยธุรกิจที่ต้องการคุณภาพของข้อมูลที่ดีขึ้น สร้างต้นแบบเพื่อแสดงให้พวกเขาเห็นประโยชน์ของข้อมูลที่ดีขึ้น ถ้างานของคุณคือการปรับปรุงหรือแทนที่กลยุทธ์ด้านคุณภาพข้อมูลที่กำหนด ให้มองหาสิ่งที่ทำงานได้ดี/เป็นที่ยอมรับในองค์กร และเก็บไว้

อย่าละสายตาจากภาพทั้งหมด แม้ว่าจะเริ่มต้นเพียงเล็กน้อย แต่พึงระลึกไว้เสมอว่าบางประเด็น โดยเฉพาะบทบาท เป็นข้อกำหนดเบื้องต้นสำหรับกลยุทธ์ DQ ที่ประสบความสำเร็จ

เมื่อนำไปใช้แล้วอย่าปล่อยมือ กระบวนการคุณภาพข้อมูลจำเป็นต้องเป็นส่วนหนึ่งของการใช้คลังข้อมูล เมื่อเวลาผ่านไป การมุ่งเน้นที่คุณภาพของข้อมูลมักจะสูญหายไปเล็กน้อย และขึ้นอยู่กับคุณที่จะรักษาไว้