Veri Ambarı Geliştirmenin Üç İlkesi

Yayınlanan: 2022-03-11

Gartner, yeni başlatılan iş zekası projelerinin yaklaşık yüzde 70 ila 80'inin başarısız olduğunu tahmin ediyor. Bunun nedeni, kötü araç seçiminden BT ve iş paydaşları arasındaki iletişim eksikliğine kadar sayısız nedendir. BI projelerini endüstriler arasında başarıyla uyguladıktan sonra, bu blog yazısında deneyimlerimi paylaşmayı ve iş zekası projelerinin başarısız olmasının temel nedenlerini vurgulamayı umuyorum. Bu makale, veri ambarlarının nasıl oluşturulduğunu yönetmesi gereken üç ilkeye dayalı olarak başarısızlığa karşı önlemler sunacaktır. Bu veri ambarı kavramlarını takip etmek, bir veri ambarı geliştiricisi olarak, BI uygulamalarının ortak çukurlarından ve hatta çukurlarından kaçınarak geliştirme yolculuğunda gezinmenize yardımcı olacaktır.

İş Zekası Veri Ambarı Uygulaması

Başarılı bir iş zekası veri ambarı için kriterler projeye göre değişse de, tüm projelerde belirli minimumlar beklenir ve gereklidir. Başarılı bir iş zekası veri ambarında genellikle bulunan ana özelliklerin bir listesi:

  • Değer: İş zekası projeleri aylar hatta yıllar sürebilir. Bununla birlikte, sürekli finansman ve ilgi sağlamak için bir veri ambarının faydalarını projede çok erken iş paydaşlarınıza göstermek önemlidir. İdeal olarak, paydaşlara bir projenin ilk üç haftasında yeni sistemden anlamlı bir iş değeri gösterilmelidir.
  • Self-servis BI: BT'nin veri taleplerini yerine getirmesini veya veri analizlerini gerçekleştirmesini bekleme günleri sona erdi. Herhangi bir BI projesinin başarısı, artık iş kullanıcılarını sistemden değer elde etme konusunda ne kadar iyi güçlendirdiği ile ölçülmektedir.
  • Maliyet: BI projeleri genellikle nispeten yüksek ön uygulama maliyetlerine sahiptir. Yüksek başlangıç ​​maliyetini dengelemek ve dengelemek için, düşük bakım maliyetleri olan depolar tasarlamak önemlidir. Müşteri, veri kalitesi sorunlarını sağlamak/teşhis etmek, veri modellerinde rutin değişiklikler yapmak veya ETL hatalarını ele almak için tam teşekküllü bir BI geliştiricileri ekibine ihtiyaç duyarsa, sistem bütçe açısından pahalı olacaktır ve bir süre sonra kapatılma riskiyle karşı karşıya kalacaktır. .
  • Uyarlanabilirlik: Gelişen iş taleplerine uyum sağlama yeteneği çok önemlidir. Piyasada bulunan sayısız BI aracını ve bunların ek işlevsellik ve özellikler içerecek şekilde gelişme hızını akılda tutmak önemlidir. İşletmelerin sürekli geliştiği gerçeğiyle birleştiğinde, depo gereksinimleri değişecek; uyarlanabilirlik, veri ambarlarının gelecekte farklı arka uçlar veya görselleştirme araçları gibi alternatif BI araçlarının kullanımına olanak sağlayacak şekilde tasarlanmasını ve gereksinimlerde genellikle öngörülemeyen değişikliklere uyarlanabilir olmasını gerektirir.

Başarılı çözümler oluşturma ve belki de daha da önemlisi, başarısız projelere dahil olma deneyimim sayesinde, başarılı bir iş zekası sistemi uygulama olasılığını artırmada üç temel ilkenin çok önemli olduğu sonucuna vardım. Ancak, bunları ayrıntılı olarak ele almadan önce, bazı bağlamlarla başlayalım.

Veri Ambarı Nedir?

Farklı veri ambarı kavramlarını incelemeden önce, bir veri ambarının gerçekte ne olduğunu anlamak önemlidir.

Veri ambarları genellikle bir ticari varlığın günlük raporlama gereksinimlerine yardımcı olmak için oluşturulan iş zekası sistemleri olarak düşünülür. OLTP veri sistemleriyle aynı gerçek zamanlı performans gereksinimlerine (standart uygulamalarda) sahip değiller ve OLTP sistemleri yalnızca işletmenin küçük bir alt kümesiyle ilgili verileri içerecekken, veri ambarları, ilgili tüm verileri kapsamaya çalışır. .

Veri ambarı modelleri, yalnızca ambar, yalnızca operasyonel raporlarınızın üretildiği bir araç olarak değil, “her şey verisinin” merkezi merkezi olarak kabul edildiğinde bir işletmeye fayda sağlar. Tüm operasyonel sistemler, verileri beslemek ve operasyonel verimliliğin nasıl iyileştirileceği konusunda geri bildirim almak için veri ambarı ile iki yönlü iletişime sahip olmalıdır. Fiyatlarda artış veya tedarik/envanterde azalma gibi herhangi bir iş değişikliği, işinizin güvenilir bir şekilde tahmin edebilmesi ve sonucu ölçebilmesi için veri ambarı ortamınızda ilk önce prototiplenmeli ve tahmin edilmelidir. Bu bağlamda tüm veri bilimi ve veri analitiği işlevleri veri ambarı etrafında toplanacaktır.

Bir veri ambarının birçok bileşeni vardır ve bu sadece bir veritabanı değildir:

  • Veritabanı , verilerinizi depoladığınız bir ortamdır.
  • Bir veri ambarı , verilerinizden iş değeri çıkarmak için gerekli araçları ve bileşenleri içerecek şekilde bunun ötesine geçer ve entegrasyon ardışık düzenleri, veri kalitesi çerçeveleri, görselleştirme araçları ve hatta makine öğrenimi eklentileri gibi bileşenleri içerebilir.

Veri ambarı kavramları ile geleneksel veritabanları arasındaki farkı gösteren diyagram

Burada bir veritabanı ile bir veritabanı ambar yapısı arasındaki farkın daha görsel bir temsili yer almaktadır. Veritabanları veya Hive gibi yeni mantıksal veri meta depoları, diğer tüm bileşenleri döner gezegenler olarak içeren bir veri ambarının yıldız sisteminin merkezi yıldızını oluşturur. Ancak, bir yıldız sisteminden farklı olarak, bir veri ambarı bir veya daha fazla veritabanına sahip olabilir ve bu veritabanları, makalenin ilerleyen bölümlerinde tartışacağımız gibi yeni teknolojilerle değiştirilebilir olmalıdır.

İlk Veri Ambarı Prensibi: Veri Kalitesi Hükümdar

Veri ambarları, yalnızca içindeki verilere iş paydaşları tarafından güvenildiği ölçüde faydalı ve değerlidir. Bunu sağlamak için, (mümkün olan yerlerde) veri kalitesi sorunlarını otomatik olarak yakalayan ve düzelten çerçeveler oluşturulmalıdır. Veri temizleme, herhangi bir veri sorununu belirlemek için düzenli veri denetimleri veya veri profili oluşturma ile veri entegrasyon sürecinin bir parçası olmalıdır. Bu proaktif önlemler uygulanırken, hatalı veriler bu kapılardan kaydığında ve kullanıcı tarafından rapor edildiğinde reaktif önlemleri de göz önünde bulundurmanız gerekir.

Kullanıcının veri ambarı sistemine güvenini sağlamak için, iş kullanıcıları tarafından vurgulanan tüm kötü veriler öncelikli olarak araştırılmalıdır. Bu çabalara yardımcı olmak için, herhangi bir veri sorununun destek personeli tarafından hızlı bir şekilde tanımlanıp düzeltilebilmesini sağlamak için platformda veri kökeni ve veri kontrol çerçeveleri oluşturulmalıdır. Çoğu veri entegrasyon platformu, MS SQL Server'da DQS veya Informatica'da IDQ gibi bir dereceye kadar veri kalitesi çözümlerini entegre eder.

Veri entegrasyonu boru hatlarınızda ticari bir araç kullanıyorsanız bu yerleşik platformlardan yararlanın, ancak buna ek olarak veya başka türlü, verilerinizin kalitesini korumanıza yardımcı olacak mekanizmaları geliştirdiğinizden emin olun. Örneğin, çoğu veri entegrasyon aracı, veri kökenini izlemek için iyi işlevsellikten yoksundur. Bu sınırlamanın üstesinden gelmek için, sistem içinde meydana gelen her veri akışını izlemek için bir dizi kontrol tablosu kullanılarak özel bir toplu kontrol çerçevesi oluşturulabilir.

Platformunuzda kötü kaliteyle karşılaşırlarsa iş paydaşlarınızın güvenini yeniden kazanmak çok zordur, bu nedenle veri kalitesi çerçevelerine yapılan ön yatırım, maliyete değer.

İkinci Veri Ambarı Prensibi: Üçgeni Çevirin

Bu şekil, çoğu veri ambarının uygulanması ve kullanımındaki işbölümünü göstermektedir.

Temel veritabanı ambarı kavramlarının çizimi

İş analitiği için bir depoya sahip olmanın katma değeri, çabanın çok daha küçük bir bölümünü oluştururken, çoğu çaba depoyu inşa etmek ve sürdürmek için harcanır. Bu, iş zekası projelerinin sıklıkla başarısız olmasının bir başka nedenidir. Bazen proje döngüsünde müşteriye anlamlı bir değer göstermek çok uzun sürer ve sistem nihayet yerine oturduğunda, bundan herhangi bir iş değeri elde etmek için hala çok fazla BT çabası gerektirir. Girişte söylediğimiz gibi, iş zekası sistemlerini tasarlamak ve devreye almak pahalı ve uzun bir süreç olabilir. Bu nedenle, paydaşlar haklı olarak iş zekası ve veri ambarı çabalarının katma değerini hızla toplamaya başlamayı bekleyeceklerdir. Herhangi bir katma değer gerçekleşmezse veya sonuçlar gerçek bir değer olamayacak kadar geçse, onları fişi çekmekten alıkoyan pek bir şey yoktur.

Veri ambarı geliştirmenin ikinci ilkesi, burada gösterildiği gibi üçgeni ters çevirmektir.

Ters çevrilmiş veritabanı ambarı kavramlarının çizimi

İş zekası araçları seçiminiz ve uyguladığınız çerçeveler, depoya giden çabanın daha büyük bir bölümünün, onu inşa etmek ve sürdürmekten ziyade iş değerini elde etmek için olmasını sağlamalıdır. Bu, projeye yatırım yapmanın değerini hemen anlayacakları için iş paydaşlarınızın yüksek düzeyde katılımını sağlayacaktır. Daha da önemlisi, işletmenin BT'ye bu kadar güçlü bir bağımlılığa sahip olmadan değer elde etmede kendi kendine yeterli olmasını sağlarsınız.

Üretim işlevselliğini mümkün olan en kısa sürede teslim ettiğinizden emin olmak için, depoyu oluştururken artımlı geliştirme metodolojilerini izleyerek bu ilkeye bağlı kalabilirsiniz. Kimball'un data mart stratejisini veya Linstedt'in Data Vault veri ambarı tasarım metodolojilerini takip etmek, değişimi sorunsuz bir şekilde hesaba katarken aşamalı olarak inşa eden sistemler geliştirmenize yardımcı olacaktır. Verilerinize kolay anlaşılır bir iş arabirimi sağlamak için platformunuzda MS SSAS küpü veya hatta Business Objects Universe gibi bir anlamsal katman kullanın. İlk durumda, kullanıcıların Excel'den veri sorgulaması için kolay bir mekanizma da sağlayacaksınız; bu hala en popüler veri analizi aracıdır.

Tableau veya PowerBI gibi self servis BI'yı destekleyen BI araçlarını birleştirmek, yalnızca kullanıcı etkileşimini geliştirmeye yardımcı olacaktır, çünkü veri sorgulama arabirimi artık SQL yazmak yerine büyük ölçüde basitleştirilmiştir.

Bir veritabanını doldurmadan önce kaynak verileri bir veri gölünde depolamak, kaynak verilerin, işe alım sürecinin çok erken aşamalarında kullanıcılara sunulmasına yardımcı olacaktır. İş kuantları gibi en azından ileri düzey kullanıcılar artık dosyaların üzerine Hive/Impala gibi araçları bağlayarak kaynak verileri (ham dosyalar aracılığıyla) sindirebilecekler. Bu, işletmenin yeni bir veri noktasını analiz etmesi için gereken süreyi haftalardan günlere, hatta saatlere indirmeye yardımcı olacaktır.

Üçüncü Veritabanı Ambar İlkesi: Tak ve Çalıştır

Veriler, petrolün dijital eşdeğeri olma eşiğinde. Son yıllarda, bir veri ambarı platformunun parçası olarak kullanılabilecek araçların sayısında ve inovasyon oranında bir patlamaya tanık olduk. Sorumluluğun başında, arka uçlar için gelişmiş seçeneklere sahip, şu anda mevcut olan sayısız görselleştirme aracı yer alıyor. Bu ortam ve iş gereksinimlerinin sürekli değişme eğilimi göz önüne alındığında, iş ve teknoloji değişikliklerinin gerektirdiği şekilde, teknoloji yığınınızın bileşenlerini değiştirmeniz veya hatta zamanla başkalarını eklemeniz/kaldırmanız gerekeceğini akılda tutmak önemlidir.

Kişisel deneyime dayanarak, bir platformun bir tür önemli değişiklik olmadan 12 ay dayanabilmesi şanslı olacaktır. Bu durumlarda makul miktarda çaba kaçınılmazdır; ancak teknolojileri veya tasarımı değiştirmek her zaman mümkün olmalı ve platformunuz bu nihai ihtiyacı karşılayacak şekilde tasarlanmalıdır. Bir deponun taşıma maliyeti çok yüksekse, işletme, maliyetin haklı olmadığına karar verebilir ve mevcut çözümü yeni araçlara taşımak yerine inşa ettiğinizden vazgeçebilir.

Gelecekteki akla gelebilecek tüm ihtiyaçları karşılayacak bir sistem kurmak imkansızdır. Bu nedenle, veri ambarları oluştururken, şimdi tasarladığınız ve inşa ettiğiniz her şeyin zamanla değiştirilebileceğinin belli bir düzeyde takdir edilmesi gerekir. Bu amaçla, platformunuzu üzerinde çalıştığı araçlara sıkı sıkıya bağlamak yerine, mümkün olduğunda genel araçların ve tasarımların kullanılmasını savunurum. Tabii ki, bunun dikkatli bir planlama ve değerlendirmeden sonra yapılması gerekir, çünkü birçok araçtaki, özellikle de veri tabanlarındaki güç, bireyselliklerinde ve yakın tamamlayıcılıklarındadır.

Örneğin, Python veya SSIS kullanarak verileri veritabanının dışından çıkarmak ve işlemek yerine yeni iş analitiği verileri oluşturmak için bir veritabanında saklı yordamlar kullanıldığında ETL performansı önemli ölçüde iyileştirilir. Raporlama katmanıyla ilgili olarak, görselleştirme araçları, diğerlerinde hazır olmayan belirli işlevler sunar; örneğin, Power BI özel MDX sorgularını destekler, ancak Tableau desteklemez. Amacım, saklı prosedürlerin terk edilmesini veya sistemlerinizde SSAS küplerinden veya Tableau'dan kaçınılmasını savunmak değil. Niyetim yalnızca, platformunuzu araçlarına sıkı sıkıya bağlamak için herhangi bir kararı haklı çıkarmada dikkatli olmanın önemini teşvik etmektir.

Diğer bir potansiyel düden entegrasyon katmanındadır. Hata ayıklama yetenekleri veya SQL Server platformuyla kullanım kolaylığı nedeniyle veri entegrasyonunuz için SSIS gibi bir araç kullanmak çok kolaydır. Ancak yüzlerce SSIS paketini başka bir araca geçirmek çok pahalı bir proje olacaktır. Çoğunlukla “EL” yaptığınız durumlarda, işleminizi yapmak için genel bir araç kullanmaya bakın. Aşama katmanınızı yüklemek için bir genel yükleyici yazmak için Python veya Java gibi bir programlama dili kullanmak, aksi takdirde ihtiyaç duyacağınız bireysel SSIS paketlerini azaltmanıza yardımcı olacaktır. Bu yaklaşım, yalnızca bakım ve gelecekteki geçiş maliyetlerinin azaltılmasına yardımcı olmakla kalmaz, aynı zamanda yeni bireysel paketler yazmak zorunda kalmadan veri ekleme sürecinin daha fazla yönünü otomatikleştirmeye yardımcı olur (2. İlke ile bağlantılı olarak).

Tüm bu durumlarda, deponun değişikliği kaldıramayacağından veya değişikliğin çok fazla zaman gerektireceğinden dolayı hurdaya ayrılmamasını sağlamak için anlık faydalar ve gelecekteki geçiş maliyetleri arasında pratik bir uzlaşmaya karar vermeniz gerekir. çaba veya yatırım.

Toplama

Belirli bir iş zekası sisteminin başarısız olmasının birçok nedeni vardır ve ayrıca nihai başarısızlığa yol açabilecek bazı yaygın gözden kaçırmalar da vardır. Sürekli değişen teknoloji ortamı, operasyonel sistemlere ikincil öncelik olarak yanlış anlaşıldığı için veri sistemleri için sınırlı bütçe ve verilerle çalışmanın katıksız karmaşıklığı ve zorluğu, tasarım ve bir veri ambarının bileşenlerini oluşturmak.

Bu makalede özetlenen veri ambarı temelleri, bu önemli hususları yaparken size yol göstermeyi amaçlamaktadır. Tabii ki, bu ilkeleri dikkate almak başarıyı garanti etmez, ancak başarısızlıktan kaçınmanıza yardımcı olmak için kesinlikle uzun bir yol kat edeceklerdir.