แนวคิดหลักของคลังข้อมูล: ภาพรวม

เผยแพร่แล้ว: 2018-03-20

สองสามทศวรรษที่ผ่านมาได้เห็นการปฏิวัติในแง่ของเทคโนโลยีบนคลาวด์ เทคโนโลยีเหล่านี้ช่วยให้ องค์กรสามารถจัดเก็บและดึงข้อมูลเกี่ยวกับลูกค้า ผลิตภัณฑ์ และพนักงานได้อย่างราบรื่น ข้อมูลนี้สามารถใช้เพื่อรวบรวมข้อมูลเชิงลึกที่นำไปปฏิบัติได้และนำองค์กรไปสู่ระดับที่สูงขึ้น
แม้ว่า Big Data และ Analytics จะจัดการกับการดำเนินการกับข้อมูลหลังจากที่ดึงข้อมูลมาแล้ว แนวคิดของ Data Warehousing จะเน้นไปที่วิธีการจัดเก็บข้อมูลนั้นในคลาวด์ องค์กรระดับโลกหลายแห่งใช้แนวคิดของ Data Warehousing เพื่อจัดระเบียบข้อมูลที่สตรีมจากศูนย์ปฏิบัติการและสาขาขององค์กรทั่วโลก
แนวคิดของคลังข้อมูลขาดหายไปจนกระทั่งเกิดความเจริญของ Big Data ก่อนหน้านั้น ทุกองค์กรใช้ OLTP (ฐานข้อมูลปฏิบัติการ) ซึ่งเหมาะสำหรับการจัดการ ติดตาม และวิเคราะห์กิจกรรมในแต่ละวัน แต่ล้มเหลวอย่างน่าสมเพชเมื่อต้องจัดการกับชุดข้อมูลในอดีตที่อาจขยายเป็นเทราไบต์ ระบบ OLTP เป็นเพียงแบบจำลองฐานข้อมูลเชิงสัมพันธ์ที่ทำงานบนเอนทิตี-ความสัมพันธ์ ในขณะที่ยังคงใช้อยู่ OLTP จะค่อยๆ หายไป เนื่องจากมีข้อมูลจำนวนมหาศาลกับองค์กรในปัจจุบัน
Enter: คลังข้อมูล!

สารบัญ

คลังข้อมูลคืออะไร?

แนวคิดของ Data Warehouse ช่วยให้องค์กรสามารถรวบรวม จัดเก็บ และส่งมอบข้อมูลสนับสนุนการตัดสินใจ แนวคิดของคลังข้อมูลนั้นกว้าง และคลังข้อมูลเป็นหนึ่งในสิ่งประดิษฐ์ที่สร้างขึ้นระหว่างกระบวนการของคลังสินค้า
คำว่า "คลังข้อมูล" ได้รับการประกาศเกียรติคุณโดย William (Bill) H. Inmon ย้อนกลับไปในปี 1990 ตามข้อมูลของ Inmon คลังข้อมูลเป็นเพียงการรวบรวมข้อมูลเชิงหัวข้อ บูรณาการ ตัวแปรเวลา และไม่เปลี่ยนแปลง เพื่อสนับสนุนการตัดสินใจของผู้บริหาร กระบวนการทำ
ใครคือ Data Scientist, Data Analyst และ Data Engineer?

OLTP ที่เราพูดถึงก่อนหน้านี้มีการเปลี่ยนแปลงบ่อยครั้ง (เกือบทุกวัน) มากจนเป็นไปไม่ได้ที่ผู้บริหารธุรกิจจะวิเคราะห์การตอบกลับหรือข้อร้องเรียนของผลิตภัณฑ์ก่อนหน้านี้เนื่องจากขาดข้อมูลในอดีต
คลังข้อมูลให้ข้อมูลที่รวมไว้ในมุมมองหลายมิติ นอกจากนี้ยังมีเครื่องมือ OLAP (การประมวลผลการวิเคราะห์ออนไลน์) ซึ่งมีประโยชน์อย่างมากเมื่อคุณต้องวิเคราะห์ข้อมูลที่คุณเก็บไว้ Data Warehouse ซึ่งแตกต่างจาก OLTP ยังรองรับการดำเนินการต่างๆ เช่น การทำเหมืองข้อมูล การจัดประเภท คลัสเตอร์ และการวิเคราะห์เชิงคาดการณ์ ด้วยเหตุผลเหล่านี้และอื่น ๆ แนวคิดของ Data Warehousing จึงกลายเป็นส่วนสำคัญของทุกองค์กร

คลังข้อมูลคืออะไร?

ผู้คนที่ค่อนข้างใหม่กว่าแนวคิดของ Data Warehousing มักจะสร้างความสับสนให้กับ "คลังข้อมูล" สำหรับ "ฐานข้อมูล" อย่างไรก็ตาม ขอชี้แจงประเด็นนี้ก่อนที่เราจะดำเนินการต่อไป – คลังข้อมูลไม่ได้เป็นเพียงฐานข้อมูลแต่เป็นมากกว่านั้น ประกอบด้วยสำเนาข้อมูลการปฏิบัติงานที่รวบรวมจากแหล่งข้อมูลหลายแห่งและมีประโยชน์ในระหว่างการตัดสินใจเชิงกลยุทธ์
บางคนยังเชื่อว่าคลังข้อมูลมีเฉพาะข้อมูลในอดีตเท่านั้น อย่างไรก็ตาม มันห่างไกลจากความจริง สามารถสร้างคลังข้อมูลเพื่อรวมข้อมูลในอดีต รวมถึงการวิเคราะห์และการรายงานข้อมูลด้วย ข้อมูลธุรกรรมที่ได้รับการจัดการในที่เก็บข้อมูลจะไม่ถูกจัดเก็บไว้ในคลังสินค้า จุดประสงค์ของการใช้ Data Warehouse คือการวิเคราะห์ข้อมูลในอดีตและรับข้อมูลเชิงลึกที่นำไปใช้ได้จริงอย่างราบรื่น
Paradox ของ Simpson ในโลกคืออะไร? ส่งผลต่อข้อมูลอย่างไร

ความสำคัญของคลังข้อมูล

ตอนนี้เราอยู่ในหน้าเดียวกันแล้วเกี่ยวกับแนวคิดของ Data Warehousing ความจำเป็นของคลังข้อมูล และเห็นความแตกต่างที่สำคัญระหว่าง Data Warehouse และ OLTP ตอนนี้ ให้เราดูความสำคัญของแนวคิดของ Data Warehousing:

รับรองความสอดคล้องของข้อมูล

คลังข้อมูลเก็บข้อมูลจากแหล่งต่างๆ และข้อมูลนั้นอยู่ในหลายรูปแบบ ดังนั้นจึงถูกตั้งโปรแกรมให้ใช้วิธี ETL เพื่อให้แน่ใจว่าข้อมูลโดยรวมมีความสอดคล้องกัน ความสม่ำเสมอเป็นสิ่งที่ทำให้คลังข้อมูลเป็นเครื่องมือที่สมบูรณ์แบบสำหรับผู้มีอำนาจตัดสินใจขององค์กรในการวิเคราะห์และแบ่งปันข้อมูลเชิงลึกกับเพื่อนร่วมงานทั่วโลก การกำหนดมาตรฐานและการจัดรูปแบบข้อมูลยังช่วยลดความเสี่ยงของข้อผิดพลาดขณะวิเคราะห์ข้อมูล จึงให้ความแม่นยำโดยรวมดีขึ้น

อำนวยความสะดวกในการตัดสินใจที่ดีขึ้น

“อันดับแรกคือข้อมูล ตามด้วยทฤษฎี” คลังข้อมูลช่วยให้องค์กรสามารถจัดเก็บและดึงข้อมูลได้อย่างง่ายดาย ดังนั้นจึงทำให้มั่นใจได้ถึงทฤษฎีและกลยุทธ์ที่ดีขึ้นเกี่ยวกับข้อมูลนั้น คลังข้อมูลยังเร็วกว่ามากในการเข้าถึงชุดข้อมูลต่างๆ และทำให้ได้รับข้อมูลเชิงลึกที่นำไปดำเนินการได้ง่ายขึ้น

ปรับปรุงบรรทัดล่างของพวกเขา

คลังข้อมูลช่วยในการปรับปรุงการดำเนินงานโดยรวมขององค์กรใด ๆ โดยอนุญาตให้ผู้มีส่วนได้ส่วนเสียเจาะลึกข้อมูลในอดีตของพวกเขา ในที่สุด สิ่งนี้จะช่วยให้ผู้นำธุรกิจสามารถติดตามกิจกรรมที่ผ่านมาขององค์กรและประเมินกลยุทธ์ที่ประสบความสำเร็จ (หรือไม่สำเร็จ) ได้อย่างรวดเร็ว ซึ่งช่วยให้ผู้บริหารเห็นว่าพวกเขาสามารถปรับเปลี่ยนวิธีการลดต้นทุน เพิ่มประสิทธิภาพ และเพิ่มยอดขายเพื่อปรับปรุงผลกำไรของตนได้จากที่ใด

คำศัพท์เฉพาะที่สำคัญบางประการในและรอบๆ แนวคิดของ Data Warehousing:

ข้อมูลเมตา

ข้อมูลเมตาเป็นเพียงข้อมูลเกี่ยวกับข้อมูลเท่านั้น ตัวอย่างเช่น ถ้าเราพูดถึงหนังสือ ดัชนีของหนังสือสามารถใช้เป็นข้อมูลเมตาสำหรับเนื้อหาของหนังสือได้ กล่าวอีกนัยหนึ่งข้อมูลเมตาสามารถเข้าใจได้ว่าเป็นข้อมูลสรุปสำหรับข้อมูลทั้งหมด
ในแง่ของคลังข้อมูล เราสามารถกำหนดข้อมูลเมตาเป็น −

    • แผนที่เส้นทางไปยังคลังข้อมูล

  • ไดเร็กทอรีที่ช่วยให้ระบบสนับสนุนการตัดสินใจค้นหาเนื้อหาของคลังข้อมูล

ดาต้าคิวบ์

OLAP Data Cube
data cube ถูกกำหนดโดยมิติและข้อเท็จจริง และช่วยเราแสดงข้อมูลในมิติมากกว่าหนึ่งมิติ มิติไม่ได้เป็นเพียงเอนทิตีที่เกี่ยวข้องกับการที่องค์กรเก็บรักษาเรกคอร์ด ส่วนใหญ่จะใช้สำหรับจัดเก็บข้อมูลเพื่อวัตถุประสงค์ในการรายงาน แต่ละมิติของคิวบ์แสดงถึงคุณลักษณะบางอย่างของฐานข้อมูล เช่น ยอดขายรายวัน รายเดือน หรือรายปี ข้อมูลที่รวมอยู่ใน data cube ทำให้สามารถวิเคราะห์ตัวเลขเกือบทั้งหมดสำหรับลูกค้า ตัวแทนขาย ผลิตภัณฑ์ และอื่นๆ อีกมากมาย ดังนั้น data cube สามารถช่วยสร้างแนวโน้มและวิเคราะห์ประสิทธิภาพได้อย่างดีเยี่ยม

รับ ใบรับรองวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก เข้าร่วมโปรแกรม Executive PG, Advanced Certificate Programs หรือ Masters Programs ของเราเพื่อติดตามอาชีพของคุณอย่างรวดเร็ว

ข้อมูลมาร์ท

ข้อมูลมาร์ท
ดาต้ามาร์ทสามารถเข้าใจได้ว่าเป็นที่เก็บข้อมูลที่สร้างขึ้นเพื่อให้บริการเฉพาะส่วนขององค์กร ดาต้ามาร์ทประกอบด้วยชุดย่อยของข้อมูลทั้งองค์กรหนึ่งชุดซึ่งมีค่าสำหรับกลุ่มบุคคลเฉพาะ ตัวอย่างเช่น ดาต้ามาร์ทที่ออกแบบมาโดยเฉพาะสำหรับทีมการตลาดอาจมีเฉพาะข้อมูลที่เกี่ยวข้องกับสินค้า ลูกค้า และการขาย ดาต้ามาร์ทถูกจำกัดให้อยู่ในหัวข้อที่เป็นปัญหา
ของคลังข้อมูลควบคู่ไปกับข้อกำหนดและเทคโนโลยีที่สำคัญ หากคุณพบว่าน่าสนใจ เราขอแนะนำให้คุณอ่านหัวข้อนี้ในเชิงลึกโดยเล่นซอกับแนวคิดของการทำเหมืองข้อมูล การวิเคราะห์ข้อมูล และอื่นๆ การเดินทางนั้นยาวนาน และคลังข้อมูลเป็นเพียงจุดเริ่มต้น

หากคุณมีข้อสงสัยหรือคำถามใด ๆ โปรดแจ้งให้เราทราบในความคิดเห็นด้านล่าง!

เหตุใดบริษัทจึงควรใช้ประโยชน์จาก Data Warhousing?

ระบบคลังข้อมูลสมัยใหม่ช่วยลดความซับซ้อนของงานที่ต้องใช้เวลามากในการออกแบบ สร้าง และปรับใช้คลังข้อมูล เพื่อตอบสนองความต้องการของบริษัทที่เปลี่ยนแปลงอย่างรวดเร็ว เป็นผลให้หลายบริษัทใช้โซลูชันคลังข้อมูลเพื่อรับข้อมูล การวิเคราะห์ข้อมูลที่ได้รับการปรับปรุง รายได้ที่เพิ่มขึ้น และความสามารถในการแข่งขันอย่างมีกลยุทธ์มากขึ้นในตลาด ล้วนเป็นข้อดีของการมีคลังข้อมูล เครื่องมือคลังข้อมูลใช้ประโยชน์จากเทคโนโลยีที่เกี่ยวข้องที่หลากหลาย เช่น ข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง ซอฟต์แวร์ ETL และการขุดข้อมูล เพื่อให้บรรลุผลประโยชน์เหล่านี้

ประโยชน์หลักบางประการของคลังข้อมูล ได้แก่:

1. อนุญาตให้มีข้อมูลเชิงลึกทางประวัติศาสตร์
2. ปรับปรุงคุณภาพข้อมูลและความสม่ำเสมอ
3. เพิ่มผลผลิต
4. การวิเคราะห์ข้อมูลสามารถทำให้มีประสิทธิภาพและรวดเร็วยิ่งขึ้น
5. เพิ่มรายได้
6. โต้ตอบกับทั้งระบบในสถานที่และบนคลาวด์

เครื่องมือคลังข้อมูลที่ดีที่สุดในการใช้คืออะไร?

ธุรกิจจำนวนมากในปัจจุบันพึ่งพาเครื่องมือคลังข้อมูล การเลือกโซลูชันที่เหมาะสมสำหรับการจัดการและบำรุงรักษาคลังข้อมูล ตลอดจนการค้นหาโซลูชันที่เหมาะสมกับเป้าหมายและข้อจำกัดทางธุรกิจอย่างแท้จริงอาจเป็นเรื่องยาก

นี่คือภาพรวมของเครื่องมือคลังข้อมูลบางส่วนที่ธุรกิจอาจใช้เพื่อดึงข้อมูลที่เป็นประโยชน์จากคลังข้อมูลของตน:

1. Amazon Redshift : Amazon Redshift เป็นเครื่องมือ Data Warehousing ที่ทำให้สามารถตรวจสอบข้อมูลด้วยเครื่องมือ Business Intelligence ที่มีอยู่ได้โดยใช้การสืบค้น SQL อย่างง่าย ใช้การคำนวณที่มีประสิทธิภาพสูง การดำเนินการแบบขนาน การเพิ่มประสิทธิภาพการสืบค้นแบบสม่ำเสมอ และพื้นที่จัดเก็บแบบแนวคอลัมน์เพื่อเรียกใช้การสืบค้นเชิงวิเคราะห์ที่ซับซ้อน ตามค่าเริ่มต้น Amazon Redshift จะเข้ารหัสข้อมูลเมื่อไม่ได้ใช้งาน
2. Google BigQuery : Google BigQuery เป็นเครื่องมือคลังข้อมูลที่ไม่ต้องใช้เซิร์ฟเวอร์ คุ้มค่า และปรับขนาดได้สูง ซึ่งรวมถึงการเรียนรู้ของเครื่องและใช้ประโยชน์จาก Business Intelligence Engine มันวิเคราะห์ข้อมูลระดับเพตะไบต์ด้วยความเร็วที่รวดเร็วโดยใช้ภาษา ANSI SQL ให้ข้อมูลเชิงลึกและโซลูชันจากข้อมูลทั่วทั้งคลาวด์ผ่านสถาปัตยกรรมที่ยืดหยุ่น และสามารถจัดเก็บและสืบค้นชุดข้อมูลจำนวนมหาศาลในลักษณะที่คุ้มค่าและมีประสิทธิภาพ
3. Microsoft Azure : Microsoft Azure เป็นเครื่องมือ Data Warehousing ที่รวมผลิตภัณฑ์และบริการคลาวด์มากกว่า 200 รายการที่ช่วยในการออกแบบ เรียกใช้ และจัดการแอปพลิเคชันที่ปรับขนาดได้สูงในเครือข่ายคลาวด์ต่างๆ ช่วยในการปรับใช้เครื่องเสมือน Windows และ Linux ในสภาพแวดล้อมคลาวด์และไฮบริดที่หลากหลาย