การบรรยายสรุป: คลังข้อมูล

เผยแพร่แล้ว: 2022-03-11

บริษัทและผู้บริโภคกำลังสร้างข้อมูลมากกว่าที่เคย การแพร่หลายของอุปกรณ์และผลิตภัณฑ์ดิจิทัลกำลังผลักดันการขยายตัวของจักรวาลดิจิทัลแบบทวีคูณ แม้ว่าจะเป็นสินทรัพย์ในทางทฤษฎี แต่ขนาดของข้อมูลนี้ทำให้เกิดความท้าทาย: บริษัทต่างๆ จะจัดระเบียบข้อมูลเพื่อเปิดเผยข้อมูลเชิงลึกที่นำไปดำเนินการได้จริงได้อย่างไร

ในขณะที่การทำเหมืองข้อมูลและระบบธุรกิจอัจฉริยะให้การดึงข้อมูลและการนำเสนอที่มีคุณค่าของข้อมูลเชิงลึกดังกล่าว คลังข้อมูล (DWH) เป็นการรวบรวมข้อมูลและการจัดโครงสร้างใหม่ของข้อมูลพื้นฐานจำนวนมาก ซึ่งมักจะอยู่ในหลายตำแหน่ง การทำความเข้าใจบทบาทของ DWH ภายในระบบนิเวศที่กว้างขึ้นของวิทยาศาสตร์ข้อมูล การทำเหมืองข้อมูล และระบบธุรกิจอัจฉริยะเป็นสิ่งสำคัญสำหรับผู้จัดการยุคใหม่

คลังข้อมูลคืออะไร?

DWH เป็นคลังข้อมูลดิจิทัลแบบรวมศูนย์ ซึ่งรวบรวมจากแหล่งข้อมูลที่แตกต่างกันหลากหลาย และจัดระเบียบในโครงสร้างที่ปรับให้เหมาะสมสำหรับการรายงาน สิ่งสำคัญที่สุดคือ DWH ให้ข้อมูลที่สามารถนำไปปฏิบัติได้กับทั้งองค์กร ทำให้พนักงานสามารถทำการวิเคราะห์ที่ปรับให้เหมาะสมและตัดสินใจได้ดีขึ้น

แนวคิดคลังข้อมูลที่สำคัญ

แบบจำลองเชิงสัมพันธ์กับมิติ

เพื่อชื่นชมฟังก์ชันการทำงานของคลังข้อมูล สิ่งสำคัญคือต้องเข้าใจความแตกต่างระหว่างแบบจำลองเชิงสัมพันธ์และมิติ ถึงแม้จะฟังดูเป็นเรื่องทางเทคนิค แต่ก็แยกแยะได้ง่าย

จากมุมมองการใช้งานจริง ฐานข้อมูลเชิงสัมพันธ์และมิติต่างกันในเกณฑ์สำคัญอย่างหนึ่ง: การไหลของข้อมูล ในขณะที่ฐานข้อมูลเชิงสัมพันธ์ได้รับการปรับให้เหมาะสมสำหรับการป้อนข้อมูล ฐานข้อมูลเชิงมิติถูกสร้างขึ้นสำหรับผลลัพธ์ โดยเฉพาะอย่างยิ่งในรูปแบบของการรายงานและการวิเคราะห์ที่เรียกว่าข่าวกรองธุรกิจ

โมเดลเชิงสัมพันธ์จัดระเบียบข้อมูลรอบจุดข้อมูลเดียว เช่น ชื่อลูกค้า ในรูปแบบดังกล่าว ชื่อลูกค้ามีอยู่ในที่เดียว โดยมีข้อมูลที่เกี่ยวข้องทั้งหมด เช่น รายละเอียดการติดต่อและวันที่ทำธุรกรรม ซึ่งแสดงอยู่ในตารางที่เกี่ยวข้องหรือที่เกี่ยวข้อง

ในทางตรงกันข้าม ฐานข้อมูลเชิงมิติจะ "แตก" ฐานข้อมูลเชิงสัมพันธ์ โดยพื้นฐานแล้วทำให้ผู้ใช้สามารถ "แบ่งและแบ่ง" ข้อมูลได้อย่างง่ายดายในการเปลี่ยนแปลงที่จำเป็นเพื่อตอบสนองความต้องการในการรายงานของพวกเขา ตัวอย่างเช่น ในรายการฐานข้อมูลเชิงสัมพันธ์ด้านบน รายละเอียดการติดต่อลูกค้าจะแบ่งออกเป็นช่องต่างๆ เช่น หมายเลขโทรศัพท์ ที่อยู่ เมือง รัฐ และรหัสไปรษณีย์

ฐานข้อมูลเชิงมิติโดยพื้นฐานแล้ว "แตก" ฐานข้อมูลเชิงสัมพันธ์ทำให้ผู้ใช้สามารถ "แบ่งและแบ่ง" ข้อมูลได้อย่างง่ายดาย

ความแตกต่างระหว่างฐานข้อมูลเชิงสัมพันธ์และมิติอาจดูเหมือนนามธรรม อย่างไรก็ตาม สำหรับผู้ที่มีหน้าที่รับผิดชอบในการนำเสนอการวิเคราะห์และการรายงานที่ซับซ้อนมากขึ้น การชื่นชมความแตกต่างนั้นเป็นความเข้าใจพื้นฐานที่มีคุณค่าสำหรับการทำงานกับทีมเทคนิคที่ดูแลทรัพยากรเหล่านี้

คลังข้อมูล - "เปิดแล้ว"

ตามรายละเอียดโดย Bill Inmon หนึ่งในผู้สร้างคลังข้อมูล ลักษณะเฉพาะบางประการจะควบคุมการออกแบบคลังข้อมูล ตามข้อมูลของ Inmon คลังข้อมูลเป็นการรวบรวมข้อมูลที่แปรผันตามหัวข้อและไม่เปลี่ยนแปลงตามเวลา เพื่อสนับสนุนการตัดสินใจของฝ่ายบริหาร

พูดได้เต็มปาก แต่เมื่อแยกเป็นส่วนๆ คำจำกัดความนี้จะวาดภาพโครงสร้างพื้นฐาน DWH ที่ชัดเจน เพื่อให้เกณฑ์เหล่านี้ง่ายต่อการจดจำ เราได้จัดระเบียบเกณฑ์ของ Inmon ตามแอนนาแกรม “It's On”

บูรณาการ: ข้อมูลต้องมีรูปแบบที่สอดคล้องกัน มักจะดึงมาจากแหล่งที่แตกต่างกัน เขตข้อมูลต้องมีแบบแผนการตั้งชื่อที่สอดคล้องกัน

ตัวแปรเวลา: DWH เปิดเผยแนวโน้ม ซึ่งขึ้นอยู่กับการเปลี่ยนแปลงเมื่อเวลาผ่านไป การบันทึกจุดข้อมูลในช่วงเวลาหนึ่งเป็นพื้นฐานในการเปิดเผยความสัมพันธ์ระหว่างข้อมูล

Subject-Oriented: DWH ช่วยให้สามารถวิเคราะห์และรายงานเฉพาะเรื่องได้ ตัวอย่างเช่น บริษัทอาจต้องการประเมินยอดขายของผลิตภัณฑ์ในช่วงเวลาหนึ่ง จากนั้นเจาะลึกลงไปในแนวโน้มเฉพาะภูมิภาคหรือกลุ่มลูกค้า

ไม่ ลบเลือน: เมื่อข้อมูลเข้าสู่คลังสินค้า จะไม่เปลี่ยนแปลง

คลังข้อมูลแตกต่างจากฐานข้อมูลธุรกรรม

DWH และระบบฐานข้อมูลธุรกรรมทำหน้าที่แตกต่างกันโดยพื้นฐาน และให้บริการผู้ใช้ที่แตกต่างกัน ในขณะที่ DWH ได้รับการปรับให้เหมาะสมสำหรับการรายงานและการวิเคราะห์ ระบบธุรกรรม - มักเรียกว่าการประมวลผลธุรกรรมออนไลน์ (OLTP) - ได้รับการปรับให้เหมาะสมสำหรับความพร้อมใช้งานและความเร็วในการประมวลผล

ผู้ใช้ OLTP มักจะเป็นพนักงานส่วนหน้า และโดยทั่วไปแล้วพวกเขาจะเข้าถึงหลายระเบียนในแต่ละครั้ง ผู้ใช้ DWH มักเป็นนักวิเคราะห์และผู้จัดการ ซึ่งรายงานอาจเรียกข้อมูลได้หลายล้านรายการพร้อมกัน

ระบบธุรกรรมและ DWH ยังแตกต่างกันในด้านความละเอียดของข้อมูลและความคงทน ใน OLTP ข้อมูลประกอบด้วยค่าปัจจุบันซึ่งมีรายละเอียดและมีความแปรปรวนสูง (ทุกๆ สองสามวินาที ธุรกรรมหลายพันรายการจะเปลี่ยนค่าของระเบียนเหล่านี้) ในทางตรงกันข้าม DWH มีข้อมูลที่ปรับโครงสร้างใหม่ซึ่งไม่สามารถเปลี่ยนแปลงได้เมื่อโหลดแล้ว

กระบวนการสินเชื่อผู้บริโภคแสดงให้เห็นอย่างชัดเจนถึงความแตกต่างที่สำคัญระหว่างระบบเหล่านี้ เมื่อลูกค้าได้รับสินเชื่อรถยนต์ ฐานข้อมูลธุรกรรมจะรวบรวมรายละเอียดต่างๆ เช่น ประเภทรถ สี ปีที่ซื้อ ราคาซื้อ และรายละเอียดส่วนบุคคลของผู้ซื้อ เมื่อแปลงเป็นโมเดล DWH แล้ว ข้อมูลธุรกรรม (รอบธุรกรรมของลูกค้ารายเดียว) จะถูกแยกเป็นส่วนๆ ในทางกลับกัน ส่วนเหล่านี้จะถูกรวมเข้ากับส่วนที่เทียบเคียงได้จากธุรกรรมอื่นๆ

เมื่อสอบถาม DWH พนักงานของผู้ให้กู้อาจเข้าถึงรายงานที่ประกอบด้วยข้อมูลลูกค้าแบบรวม ตัวอย่างเช่น พยายามเพิ่มประสิทธิภาพค่าใช้จ่ายในการโฆษณา ผู้จัดการฝ่ายการตลาดอาจค้นหารถยนต์ในประเภทหรือช่วงราคาที่กำหนดซึ่งมีอัตราการอนุมัติสินเชื่อสูงสุด หรืออายุเฉลี่ยและระดับรายได้ของผู้ขอสินเชื่อเมื่อเวลาผ่านไป ข้อมูลดังกล่าวอาจนำค่าใช้จ่ายในการโฆษณาไปยังช่องทางที่เกี่ยวข้องมากขึ้นด้วยข้อความที่ตรงเป้าหมายมากขึ้น

Data Warehouse กับ Data Mart และ Data Lake

DWH อาจมาพร้อมกับฐานข้อมูลที่เกี่ยวข้อง - ดาต้ามาร์ทและดาต้าเลค - ซึ่งมีชื่อที่สื่อความหมายได้แนะนำฟังก์ชันที่แตกต่างกัน ส่วนย่อยของ DWH ดาต้ามาร์ทให้บริการกลุ่มผู้ใช้เฉพาะ เช่น แผนกหรือหน่วยธุรกิจเฉพาะ ในขณะที่ DWH มีหลายหัวข้อที่เกี่ยวข้องกับแผนกต่างๆ เช่น การขาย ลูกค้า ผลิตภัณฑ์ สินค้าคงคลัง ซัพพลายเออร์ แต่ดาต้ามาร์ทมักมีสาขาวิชาเดียวสำหรับแผนกเดียว เช่น การขายหรือการเงิน

ดาต้ามาร์ทมีสองประเภท - ขึ้นอยู่กับและอิสระ - และแต่ละประเภทให้ประโยชน์ที่แตกต่างกัน ดาต้ามาร์ทที่พึ่งพาอาศัยมาจาก DWH และมีข้อดีคือความสม่ำเสมอ เนื่องจากข้อมูลทั้งหมดถูกรวมศูนย์และสอดคล้องกันภายใน DWH ดาต้ามาร์ทที่ได้จึงมีความสอดคล้องกัน ในขณะที่ดาต้ามาร์ทที่พึ่งพาอาศัยกันนั้นแข็งแกร่งกว่านั้นต้องการ DWH ดังนั้นจึงมีค่าใช้จ่ายในการพัฒนาสูงกว่า

ในทางกลับกัน data marts อิสระจะดึงข้อมูลโดยตรงจากฐานข้อมูลต้นทางเดียวกัน เช่นเดียวกับ DWH ขนาดเล็ก แม้ว่าดาต้ามาร์ทอิสระจะพัฒนาได้เร็วและเสียค่าใช้จ่ายน้อยกว่า แต่ดาต้ามาร์ทอิสระก็มีความเสี่ยงเพิ่มขึ้น เนื่องจากคำจำกัดความของข้อมูลอาจไม่สอดคล้องกันในดาต้ามาร์ทที่พัฒนาขึ้นอย่างอิสระ อย่างไรก็ตาม หากพัฒนาอย่างมีวินัย ดาต้ามาร์ทอิสระก็สามารถประกอบเป็น DWH ได้ในที่สุด

โดยปกติ Data Lake จะได้รับการกำหนดค่าบนคลัสเตอร์ของฮาร์ดแวร์สินค้าโภคภัณฑ์ที่มีราคาไม่แพงและสามารถปรับขนาดได้ ซึ่งช่วยให้สามารถทิ้งข้อมูลลงในทะเลสาบโดยไม่ต้องกังวลเรื่องความจุในการจัดเก็บข้อมูล แม้ว่าโดยทั่วไปแล้ว DWH จะจำกัดอยู่เพียงข้อมูลข้อความและตัวเลข แต่ทะเลสาบยังสามารถเก็บความหลากหลายได้กว้างกว่า ซึ่งรวมถึงโซเชียลมีเดีย ข้อมูลเซ็นเซอร์ และรูปภาพ

คลังข้อมูลและการขุดข้อมูล

DWH ช่วยให้การทำเหมืองข้อมูลช่วยให้บริษัทต่างๆ สามารถทำนายอนาคตได้ วัตถุประสงค์หลักของการขุดข้อมูลคือการเปิดเผยรูปแบบในชุดข้อมูลขนาดใหญ่ ในทางกลับกัน รูปแบบดังกล่าวจะเปิดเผยความสัมพันธ์ระหว่างหมวดหมู่ข้อมูลต่างๆ และหน้าที่ทางธุรกิจที่สำคัญ

ความสัมพันธ์ดังกล่าวให้ข้อมูลแก่ผู้จัดการที่สามารถนำไปดำเนินการได้ โดยพื้นฐานแล้วจะเป็นกลไกใหม่ในการขับเคลื่อนผลลัพธ์ทางธุรกิจที่ต้องการ เช่น การเติบโตของลูกค้า หรือยอดขายที่เพิ่มขึ้นต่อลูกค้าหนึ่งราย ตัวอย่างเช่น การตรวจสอบข้อมูลการขายในอดีตตามส่วนภูมิภาคหรืออุตสาหกรรมอาจเน้นการเติบโตที่ผิดปกติ ซึ่งแหล่งที่มาอาจทำให้ผู้จัดการฝ่ายขายได้เรียนรู้ที่จะนำไปใช้กับกลุ่มอื่นๆ