Brifing: Veri Ambarı
Yayınlanan: 2022-03-11Şirketler ve tüketiciler her zamankinden daha fazla veri üretiyor. Dijital cihazların ve ürünlerin çoğalması, dijital evrenin katlanarak genişlemesini sağlıyor. Kavramsal olarak bir varlık olsa da, bu verilerin ölçeği bir zorluk teşkil ediyor: Şirketler, eyleme geçirilebilir içgörüleri ortaya çıkarmak için bilgilerini pratik olarak nasıl organize edebilir?
Veri madenciliği ve iş zekası, bu tür içgörülerin değerli çıkarımını ve sunumunu sağlarken, veri ambarı (DWH), genellikle birden fazla yerde bulunan geniş temel verilerin hazırlık amaçlı bir araya getirilmesi ve yeniden düzenlenmesidir. DWH'nin daha geniş veri bilimi, veri madenciliği ve iş zekası ekosistemindeki rolünü anlamak, modern yönetici için çok önemlidir.
Veri ambarı nedir?
DWH, çeşitli farklı kaynaklardan toplanan ve raporlama için optimize edilmiş bir yapıda düzenlenen merkezi bir dijital bilgi deposudur. En önemlisi, DWH tüm kuruluşa eyleme geçirilebilir bilgiler sağlayarak çalışanların özel analizler yapmalarını ve daha iyi kararlar vermelerini sağlar.
Temel veri ambarı kavramları
İlişkisel ve boyutlu model
Bir veri ambarının işlevselliğini anlamak için ilişkisel ve boyutlu model arasındaki farkı anlamak önemlidir. Teknik sondaj olsa da, ayırt etmek kolaydır.
Pratik kullanım açısından, ilişkisel ve boyutlu veri tabanları bir kritik kriterde farklılık gösterir: bilgi akışı. İlişkisel veritabanları veri girişi için optimize edilirken, özellikle iş zekası olarak bilinen raporlama ve analitik biçiminde boyutlu veritabanları çıktı için oluşturulur.
İlişkisel model, bilgileri, örneğin bir müşteri adı gibi tek bir bilgi noktası etrafında düzenler. Böyle bir modelde, müşteri adı, ilişkili veya ilgili tablolarda listelenen tüm ilişkili bilgilerle - iletişim bilgileri ve işlem tarihleri gibi - tek bir yerde bulunur.
Buna karşılık, boyutlu veritabanı esasen ilişkisel veritabanını "paketini açar" ve kullanıcıların raporlama ihtiyaçlarını karşılamak için gereken gerekli permütasyondaki verileri kolayca "dilimlemelerine ve zar atmalarına" olanak tanır. Örneğin, yukarıdaki ilişkisel veritabanı girişinde, müşteri iletişim bilgileri telefon numarası, sokak adresi, şehir, eyalet ve posta kodu gibi ayrı alanlara bölünecektir.
Boyutlu veritabanı, esasen ilişkisel veritabanını "paketini açar" ve kullanıcıların verileri kolayca "dilimleyip zar atmasına" olanak tanır.
İlişkisel ve boyutlu veri tabanı arasındaki ayrım soyut görünebilir. Bununla birlikte, giderek daha karmaşık analitik ve raporlama sağlamakla görevli olanlar için, bu farklılığı takdir etmek, bu kaynakları koruyan teknik ekiplerle çalışmak için değerli bir temel anlayış sağlar.
Veri Ambarı - “Açık”
Veri ambarının yaratıcılarından biri olan Bill Inmon tarafından detaylandırıldığı gibi, veri ambarının tasarımını birkaç spesifik özellik yönetir. Inmon'a göre veri ambarı, yönetimin kararlarını destekleyen, konu odaklı, kalıcı, entegre, zaman değişkenli bir veri koleksiyonudur.
Bu bir ağız dolusu, ancak parçalara ayrıldığında, bu tanım DWH temel yapısının net bir resmini çiziyor. Bu kriterlerin hatırlanmasını kolaylaştırmak için Inmon'un kriterlerini “It's On” anagramına göre yeniden düzenledik.
Entegre: Veriler tutarlı biçimlere sahip olmalıdır. Genellikle farklı kaynaklardan alınan veri alanları, tutarlı adlandırma kurallarına sahip olmalıdır.
Zaman değişkeni: DWH, zaman içindeki değişime bağlı olan eğilimleri ortaya çıkarır. Veri noktalarını zaman içinde kaydetmek, veriler arasındaki ilişkileri ortaya çıkarmak için esastır.
Konu Odaklı: DWH, konu odaklı analiz ve raporlama sağlar. Örneğin, bir şirket bir ürünün zaman içindeki satışlarını değerlendirmek ve ardından bölgesel veya müşteri segmentine özgü eğilimleri incelemek isteyebilir.
Kalıcı: Veri ambara girdikten sonra değişmez.
Veri Ambarı, işlem veritabanından farklıdır
DWH ve işlemsel veritabanı sistemleri temelde farklı işlevleri yerine getirir ve farklı kullanıcılara hizmet eder. DWH, raporlama ve analiz için optimize edilmiş olsa da, genellikle Çevrimiçi İşlem İşleme (OLTP) olarak adlandırılan işlem sistemleri, kullanılabilirlik ve işlem hızı için optimize edilmiştir.

OLTP kullanıcıları genellikle ön uç çalışanlardır ve genellikle aynı anda birkaç kayda erişirler. DWH kullanıcıları genellikle, raporları aynı anda birkaç milyona kadar kayıt çağırabilen analistler ve yöneticilerdir.
İşlem sistemi ve DWH, veri ayrıntı düzeyi ve kalıcılığı açısından da farklılık gösterir. OLTP'de veriler, ayrıntılı ve oldukça değişken olan güncel değerleri içerir (birkaç saniyede bir, binlerce işlem bu kayıtların değerlerini değiştirir). Buna karşılık, DWH, yüklendikten sonra değiştirilemeyen yeniden yapılandırılmış veriler içerir.
Tüketici kredisi süreci, bu sistemler arasındaki temel farklılıkları kısa ve öz bir şekilde göstermektedir. Örneğin, bir müşteri bir araba kredisi aldığında, işlem veritabanı araba türü, rengi, satın alma yılı, satın alma fiyatı ve alıcının kişisel bilgileri gibi ayrıntıları yakalar. DWH modeline dönüştürüldüğünde, işlem bilgileri (tek müşteri işlemi etrafındaki) bileşen parçalarına ayrılır. Bu parçalar, sırayla, diğer işlemlerden karşılaştırılabilir parçalarla birleştirilir.
Borç verendeki bir çalışan, DWH'yi sorgulayarak, toplu müşteri verilerinden oluşan raporlara erişebilir. Örneğin, bir pazarlama müdürü, reklam harcamalarını optimize etmeye çalışırken, belirli bir türde veya en yüksek kredi onay oranına sahip fiyat aralığındaki veya zaman içinde kredi başvurusunda bulunanların ortalama yaş ve gelir düzeyine sahip arabalar arayabilir. Bu tür bilgiler, reklam harcamalarını daha hedefli mesajlaşma ile daha alakalı kanallara yeniden yönlendirebilir.
Data Warehouse ve Data Mart ve Data Lake Karşılaştırması
DWH'ye, tanımlayıcı adları farklı işlevler öneren ilgili veri tabanları (data mart ve data lake) eşlik edebilir. DWH'nin bir alt kümesi olan data mart, örneğin bir bölüm veya belirli bir iş birimi gibi belirli bir kullanıcı grubuna hizmet eder. DWH, satışlar, müşteriler, ürünler, envanter, tedarikçiler gibi birden çok departmanla ilgili birden fazla konuyu tutarken, bir veri mart tipik olarak satış veya finans gibi bir departman için bir konu alanını tutar.
İki tür veri marketi vardır - bağımlı ve bağımsız - ve her biri benzersiz faydalar sunar. Bağımlı data mart, DWH'den yararlanır ve tutarlılık avantajına sahiptir. Tüm veriler DWH içinde merkezileştirilmiş ve tutarlı olduğundan, elde edilen veri marketleri de tutarlıdır. Daha sağlam olmasına rağmen, bağımlı veri marketleri bir DWH gerektirir ve bu nedenle geliştirmeleri daha maliyetlidir.
Öte yandan bağımsız veri marketleri, mini bir DWH gibi doğrudan aynı kaynak veritabanlarından veri çeker. Geliştirmek için daha hızlı ve daha az maliyetli olmasına rağmen, bağımsız veri pazarları, bağımsız olarak geliştirilen veri pazarlarında veri tanımları tutarsız hale gelebileceğinden, artan risk taşır. Bununla birlikte, disiplinle geliştirilirse, bağımsız veri marketleri nihayetinde bir DWH'de birleştirilebilir.
Veri gölleri genellikle ucuz ve ölçeklenebilir ticari donanımlardan oluşan bir kümede yapılandırılır. Bu, depolama kapasitesi konusunda endişelenmenize gerek kalmadan verilerin göle atılmasına olanak tanır. DWH tipik olarak metin ve sayısal verilerle sınırlıyken, göl, sosyal medya, sensör verileri ve görüntüler dahil olmak üzere daha geniş bir çeşitliliği de barındırabilir.
Veri Ambarı ve Veri Madenciliği
DWH, şirketleri geleceği tahmin etme gücüyle donatan veri madenciliğini mümkün kılıyor. Veri madenciliğinin temel amacı, büyük veri kümelerindeki kalıpları ortaya çıkarmaktır. Bu tür modeller, sırayla, farklı veri kategorileri ve bunların altında yatan iş işlevleri arasındaki ilişkileri ortaya çıkarır.
Bu tür ilişkiler, yöneticilere, müşteri büyümesi veya müşteri başına satış artışı gibi istenen iş sonuçlarını yönlendirmek için esasen yeni kaldıraçlar olan eyleme geçirilebilir bilgiler sağlar. Örneğin, coğrafi veya endüstri segmentine göre geçmiş satış verilerini incelemek, kaynağı satış yöneticilerine diğer segmentlere uygulamak için öğrenmeler sağlayabilen anormal büyümeyi vurgulayabilir.