Veri Ambarı ve Veri Madenciliği Nedir?

Yayınlanan: 2018-02-22

Kurumsal veriler, diğer veri havuzlarından fiziksel olarak ayrı olan bilgi silolarında depolandı ve her silo özel işlevlere hizmet etti - ancak bu, Büyük Veri dünyaya çarpmadan önceydi (eğer diyebiliriz ki, bir fırtına). Şimdi, aynı yöntemleri bu kadar büyük veri kümelerinde uygulamak neredeyse imkansız. Fiziksel olarak ayrılmış bu kadar çok bilgi silolarından yalnızca basit bir sorguyu çalıştırmak için gerektireceği veri özütlerinin sayısını hayal edin. Bunların hepsi, kuruluşlarda ve büyük veri mühendisliği yöntemlerinde bulunan son derece büyük veri yığını sayesinde.

Veri Ambarı ve Veri madenciliğinin sahneye nasıl girdiğine yakından bakalım. Bu veri depolama sorunuyla mücadele etmek için Veri Ambarı geliştirilmiştir. Temel olarak, Veri Ambarı, çeşitli kaynaklardan gelen ve çeşitli formatlarda olan birleşik bir veri deposu olarak düşünülebilir. Veri Madenciliği ise söz konusu Veri Ambarı'ndan bilgi çıkarma işlemidir.

Bu yazımızda Veri Ambarı ve Veri Madenciliği konularına detaylı bir şekilde bakacağız. Daha iyi anlaşılması için makaleyi şu şekilde yapılandırdık:

  • Veri Ambarı Nedir?
  • Veri Ambarı Süreçleri
  • Veri Madenciliği Nedir?
  • KDD Süreci
  • Veri Madenciliğinin Gerçek Hayat Kullanım Örnekleri

İçindekiler

Veri Ambarı Nedir?

Veri Ambarı'nı tanımlayacak olursak, konu odaklı, zaman değişkenli, uçucu olmayan, bütünleşik bir veri topluluğu olarak açıklanabilir. Veri Ambarı'na giriş ayrıca dış kaynaklardan derlenmiş verileri de içerir. Bir Depo tasarlamanın amacı, verileri farklı bir toplu düzeyde raporlayarak iş kararlarını analiz etmek ve teşvik etmektir. Buradan daha fazla ilerlemeden önce, bu terimlerin bir Veri Ambarı bağlamında ne anlama geldiğine bakalım:

  • Konu Odaklı

    Kuruluşlar, belirli bir konu alanını analiz etmek için Veri Ambarı'nı kullanabilir. Satış ekibinizin son 5 yılda ne kadar iyi performans gösterdiğini görmek istediğinizi varsayalım – Deponuzu sorgulayabilirsiniz ve size bilmeniz gereken her şeyi anlatacaktır. Bu durumda “satış” konu olarak ele alınabilir.

  • Zaman Değişkeni

    Veri Ambarı, kuruluşlar için geçmiş verileri depolamaktan sorumludur. Örneğin, bir işlem sistemi bir müşterinin en son adresini tutabilir, ancak bir Veri Ambarı önceki tüm adresleri de tutacaktır. Geçmiş verileri tutmanın yanı sıra sürekli olarak çeşitli kaynaklardan veri eklemeye devam eder - onu zamana bağlı bir model yapan şey budur. Depolanan veriler her zaman zamanla değişecektir.

  • Uçucu Olmayan

    Veriler bir Veri Ambarı'nda saklandıktan sonra değiştirilemez veya değiştirilemez. Değiştirmek istediğimiz verilerin yalnızca değiştirilmiş bir kopyasını ekleyebiliriz.

  • Birleşik:

    Daha önce de söylediğimiz gibi, bir Veri Ambarı, birden fazla kaynaktan gelen verileri tutar. Diyelim ki iki veri kaynağımız var – A ve B. Her iki kaynakta da tamamen farklı türde veriler depolanmış olabilir, ancak bunlar bir Ambar'a getirildiklerinde ön işleme tabi tutulurlar. Bir Veri Ambarı, bir dizi kaynaktan gelen verileri bu şekilde entegre eder.

Python ile Veri Bilimine Başlayın

Veri Ambarı Süreçleri

Veri Ambarı ve Veri Madenciliği
Yukarıdaki resme bir göz atın. Çeşitli kaynaklardan (operasyonel sistem, ERP, CRM, Flat Files vb.) toplanan veriler, veri ambarına eklenmeden önce ETL sürecinden geçirilir. Bu, esas olarak, varsa, anormallikleri verilerden kaldırmak için yapılır - böylece Veri Ambarı'na herhangi bir zarar gelmez. ETL, - Çıkarma, Dönüşüm ve Yükleme anlamına gelir. Bu süreçlerin her birine ayrıntılı olarak bir göz atalım. Daha iyi anlamak için bir benzetme kullanacağız – bir altın hücumu düşünün ve okumaya devam edin!

  • çıkarma

    Çıkarma, esasen, mümkün olduğunca az kaynak kullanarak kaynak sistemlerden gerekli tüm verileri toplamak için yapılır.

Bu adımı, mümkün olduğu kadar büyük altın külçeleri aramak için nehirde gezinmek gibi düşünün .

  • dönüşüm

    Temel amaç, çıkarılan verileri genel bir formatta veritabanına eklemektir. Bunun nedeni, farklı kaynakların verileri depolamak için farklı biçimlere sahip olmasıdır; örneğin, bir veri kaynağının verileri "gg/aa/yyyy" biçiminde ve diğerinde "gg-aa-yy" biçiminde olabilir. Bu adımda, bunu tüm kaynaklardan gelen veriler için kullanılacak olan genelleştirilmiş bir biçime dönüştüreceğiz.

Artık bir altın külçeniz var. Ne yaparsın? Eritin ve kirleri çıkarın.

  • Yükleniyor

    Bu adımda, dönüştürülen veriler hedef veritabanına yüklenir.

Artık saf altının var - onu bir yüzük haline getir ve sat!
Çeşitli kaynaklardan veri getirme ve Veri Ambarı'nda (elbette ETL sürecinden sonra) depolama süreci, Veri Ambarı olarak bilinir.
Artık verileriniz yerinde - hepsi temizlendi ve kullanıma hazır. Bir sonraki adım ne olmalı? Bilgi çıkarma - evet!

Kurtarmaya Veri Madenciliği!

Veri Analitiğine Nasıl Geçiş Yapabilirsiniz?

Veri Madenciliği Nedir?

Veri Madenciliği, oldukça basit bir şekilde, veri kümelerinden önceden bilinmeyen ancak potansiyel olarak yararlı bilgilerin çıkarılması işlemidir. “Önceden bilinmeyen” ile, ancak veri ambarını derinlemesine inceledikten sonra elde edilebilecek, yani yüzeyde bir anlam ifade etmeyecek bilgiyi kastediyoruz. Veri Madenciliği, temel olarak veri öğeleri arasında var olan küresel kalıpları araştırır.

Örneğin, bir süpermarket işlettiğinizi hayal edin. Şimdi, bir müşterinin satın alma geçmişi yüzeyde pek bir şey ortaya koymayabilir, ancak dikkatli bir şekilde analiz edilirse – olası kalıpları fark edersek, o zaman sadece bu bilgi çok şey vermek için yeterlidir. Henüz tahmin etmediyseniz, bir genç kızın (müşterinin) hamile olduğunu sadece satın alma geçmişini dikkatlice inceleyerek ve trendleri ve kalıpları arayarak bulan bir süpermarket olan Target'tan bahsediyoruz . Böylece, yüzeyde çok önemsiz görünen bilgilerin dikkatli bir şekilde çıkarıldığında çok değerli olduğu ortaya çıktı - ve "önceden bilinmeyen bilgi" ile kastettiğimiz tam olarak budur.

Size Veri Ambarı ve Veri Madenciliği lezzetini verirsek ve büyük resmi tamamen görmezden gelirsek, bunun size haksızlık olacağını düşünüyoruz – Veritabanlarında Bilgi Keşfi (KDD). Veri Madenciliği, bir KDD sürecinin adımlarından birini oluşturur. Biraz daha KDD hakkında konuşalım.

Dünyanın en iyi Üniversitelerinden veri bilimi sertifikası kazanın . Kariyerinizi hızlandırmak için Yönetici PG Programlarımıza, İleri Düzey Sertifika Programlarımıza veya Yüksek Lisans Programlarımıza katılın.

Veritabanlarında Bilgi Keşfi (KDD)

Veri madenciliği, KDD sürecindeki en önemli adımlardan biridir. KDD temel olarak veri seçiminden mayınlı verilerin nihai olarak değerlendirilmesine kadar her şeyi kapsar. KDD döngüsünün tamamı aşağıdaki resimde gösterilmektedir:

Veri Ambarı ve Veri Madenciliği

seçim

Kesin hedef verileri bilmek son derece önemlidir. Veri Madenciliğini Veri Ambarı alt kümesine analiz etmek çok önemli bir adımdır çünkü alakasız veri öğelerinin kaldırılması Veri Madenciliği aşaması sırasında arama alanını azaltacaktır .

ön işleme

Bu adımda, seçilen veriler herhangi bir anormallik ve aykırı değerden arındırılır. Temel olarak, veriler bu aşamada tamamen temizlenir. Örneğin, bazı eksik veri alanları varsa, bunlar uygun değerlerle doldurulur. Örneğin, kuruluşunuzun çalışanlarının ayrıntılarını saklayan tabloda, "Orta Ad" için bir sütun olduğunu varsayalım. Şanslar, birçok çalışan için boş olacak. Böyle bir senaryoda, uygun bir değer seçilir (örn. N/A).

dönüşüm

Bu aşama, bilgi kalitesini korurken veri öğelerinin çeşitliliğini azaltmaya çalışır.

Veri madenciliği

Bu, bir KDD sürecinin ana aşamasıdır. Dönüştürülen veriler, gruplama, kümeleme, regresyon vb. gibi veri madenciliği yöntemlerine tabi tutulur. Bu, en iyi sonuçları elde etmek için yinelemeli olarak yapılır. Gereksinimlere bağlı olarak farklı teknikler kullanılabilir.

Değerlendirme

Bu son adımdır. Bunda, elde edilen bilgiler belgelenir ve daha fazla analiz için sunulur. Bu adımda edinilen bilgilerin güzel ve anlaşılır bir şekilde tasvir edilmesi için çeşitli Veri Görselleştirme araçları kullanılmaktadır.
Simpson'ın Paradoksu Verileri Nasıl Etkiler?

Veri Madenciliğinin Gerçek Hayat Kullanım Örnekleri

Amazon, Flipkart, Netflix'ten Facebook, Twitter, Instagram ve hatta Walmart'a kadar her kuruluş Veri Madenciliğini iyi bir şekilde kullanıyor. Bu bölümde, günlük yaşamınızın ayrılmaz bir parçası olan dört geniş Veri Madenciliği kullanım örneğinden bahsedeceğiz.

  • Servis sağlayıcıları

    Telekom servis sağlayıcıları, bir müşteri onları başka bir sağlayıcı için terk ettiğinde kullandıkları bir terim olan "kayıp" ı tahmin etmek için Veri Madenciliğini kullanır. Bunun dışında, her müşteriye bir olasılık puanı vermek için fatura bilgilerini, web sitesi ziyaretlerini, müşteri hizmetleri etkileşimlerini ve benzeri şeyleri harmanlarlar. Ardından, daha yüksek "çalkalama" riski taşıyan müşterilere teklifler ve teşvikler sunulur.

  • E-Ticaret

    E-ticaret, Veri Madenciliği söz konusu olduğunda kolayca en bilinen kullanım durumudur. Bunların en ünlülerinden biri elbette Amazon. Son derece sofistike madencilik teknikleri kullanıyorlar. Örneğin, "Bu ürünü görenler bunu da beğendi" işlevine göz atın!

  • süpermarketler

    Süpermarketler de Veri Madenciliğinin ilginç bir kullanım örneğidir. Müşterilerin satın alma geçmişini araştırmak, onların satın alma modellerini anlamalarını sağlar. Bu bilgiler daha sonra süpermarketler tarafından müşterilere kişiselleştirilmiş teklifler sunmak için kullanılır. Oh, ve size Target'in Veri Madenciliğini kullanarak ne yaptığını anlattık mı? (Evet yaptık!)

  • Perakende

    Perakendeciler, müşterilerini Yenilik, Sıklık ve Parasal (RFM) gruplarına ayırır. Veri Madenciliğini kullanarak bu gruplara pazarlamayı hedeflerler. Az ama sık harcama yapan ve son satın alma işlemi oldukça yakın zamanda olan bir müşteriye, yalnızca bir kez çok harcama yapan bir müşteriden farklı şekilde davranılacaktır.

Veri Bilimcisi, Veri Analisti ve Veri Mühendisi kimdir?

Kapatılıyor…

Veri Ambarı ve Veri Madenciliği , bugün dünyayı tam anlamıyla yöneten en önemli süreçlerden ikisini oluşturuyor. Bugün neredeyse her büyük şey, karmaşık veri madenciliğinin bir sonucudur. Madenciliği yapılmamış veriler, hiçbir veri kadar yararlı (veya yararsız) olduğu için.

Yine, Veri Madenciliği ve Veri Ambarı arasındaki farkı anlamak için, Veri Madenciliğine girişten, tamamen farklı kaynaklardan gelen verileri tek bir veritabanında merkezileştiren bir yöntem olan Veri Ambarı'na kadar kendinizi şımartmanız gerekir. Veri ambarını, derlenmiş geçmiş veriler veya çoğunlukla organik ve entegre bilgiler veren gerçek zamanlı veri beslemesi olarak tanımlayabiliriz.

Bu makalenin size Veri Ambarı ve Veri Madenciliği ve çok daha fazlası hakkında netlik kazandırdığını umuyoruz. Sonuç olarak, tek bir veritabanında bilgi toplama, depolama ve düzenleme süreci, Veri Ambarı ile Veri Madenciliği olarak kabul edilir. Veri Madenciliği, çoğunlukla farklı bir bakış açısı kullanarak verilerden anlamlı bilgiler çıkarmaktır. Toplanan tüm faydalı bilgiler daha sonra şirketin büyümesine engel olabilecek ve hatta maliyetleri düşürebilecek gelecekteki sorunları çözmek için kullanılabilir. Parlak ve büyüleyici bir gelecek arıyorsanız ve keşif tutkunuzsa, Veri Ambarı ve Veri Madenciliği Nedir'i öğrenmekle başlamak sizin için mükemmel bir seçenek olacaktır.

Bu makalenin, bu iki terimin ne anlama geldiği ve çok daha fazlası hakkında size netlik kazandırdığını umuyoruz! Veri bilimi hakkında bilgi edinmek istiyorsanız, çalışan profesyoneller için oluşturulan ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk sunan IIIT-B & upGrad'ın Veri Biliminde PG Diplomasına göz atın, 1- endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

İşletmeler Veri Ambarı ve Veri Madenciliğini nasıl kullanıyor?

Hem veri madenciliği hem de veri ambarı, bilgiyi (veya veriyi) kullanılabilir bilgiye dönüştürmek için iş zekası teknikleridir.

Veri madenciliği istatistiksel bir analiz yöntemidir. Teknik araçlar, trendleri ararken gigabaytlarca veriyi sorgulamak ve sıralamak için analistler tarafından kullanılır. İşletmeler daha sonra bu verileri, tüketicilerinin ve tedarikçilerinin davranışlarını anlamalarına dayalı olarak daha iyi iş kararları vermek için kullanırlar.

Veri Ambarı, raporlama ve analizi kolaylaştırmak için verilerin nasıl saklanacağını tasarlama sürecidir. Veri ambarı uzmanlarına göre, sayısız veri deposu hem kavramsal hem de fiziksel olarak entegre ve birbiriyle ilişkilidir. Bir şirketin verileri genellikle birden çok veritabanına kaydedilir.

Veri Ambarı ve Veri Madenciliği arasındaki temel fark nedir? İş dünyasında hangisi daha pratik?

Veri ambarı, bir veri depolama sistemidir. Genellikle çeşitli amaçlar için birden çok kaynaktan elde edilen çeşitli veri türlerini içerir. Bu verilerin daha sonra geri alınabilmesi için disiplinli bir şekilde saklanması işlemi, veri ambarı olarak bilinir.

Veri çıkarma işlemi veri madenciliği olarak bilinir. Belirli bir hedef için en uygun bilgiyi bulmayı gerektirir. Veri ambarınızdan veya tamamen başka bir yerden gelebilir. Tıpkı gerçek cevherde olduğu gibi, madenciliğini yaptığınız verileri rafine etmeyi ve temizlemeyi öngörüyorsunuz.

Depolama sistemleriniz ne kadar iyi olursa, benim için o kadar kolay olur.

Veri Madenciliği ve KDD süreçleri benzer mi?

KDD ve Veri Madenciliği sıklıkla birbirinin yerine geçen terimler olmasına rağmen, bunlar iki farklı ancak birbiriyle ilişkili kavrama atıfta bulunur.

Veri Madenciliği, KDD sürecinde verilerdeki kalıpları tanımakla ilgilenen bir bileşendir, KDD ise verilerden bilgi çıkarma sürecinin tamamıdır. Başka bir deyişle, Veri Madenciliği, KDD sürecinin nihai amacına ulaşmak için sadece belirli bir algoritmanın uygulanmasıdır.