Keşifsel Veri Analizi ve İşletmeniz İçin Önemi

Yayınlanan: 2018-02-22

Veri Analizi konusundaki tartışmaların çoğu, bunun “bilim” yönü ile ilgilidir. Elbette, tüm sürecin arkasında çok fazla bilim var – algoritmalar, formüller ve hesaplamalar, ancak “sanatı” ondan alamazsınız. Analizin planlanmasından nihai sonucun anlamlandırılmasına kadar tüm süreci yapılandırmak, basit bir başarı değildir ve bir sanat biçiminden daha az değildir. Bugünkü konumuz tam olarak budur – Keşifsel Veri Analizi. Bu makalede, keşifsel veri analizinin ne olduğuna, bunun için ortak araç ve tekniklerin neler olduğuna ve bir kuruluşa nasıl yardımcı olduğuna bakacağız.

İçindekiler

Keşfedici Veri Analizi Nedir?

Keşfedici Veri Analizi, veri analizi sürecindeki önemli adımlardan biridir. Burada odak, eldeki verileri anlamlandırmaktır - veri kümenize sorulacak doğru soruları formüle etmek, gerekli yanıtları almak için veri kaynaklarını nasıl manipüle etmek gibi şeyler ve diğerleri. Bu, görsel bir yöntem kullanılarak trendlere, kalıplara ve aykırı değerlere ayrıntılı bir bakış atılarak yapılır.
keşifsel veri analizi
Keşifsel Veri Analizi, verilerinizin makine öğrenimi veya modellemesine geçmeden önce çok önemli bir adımdır. Uygun bir model geliştirmek ve sonuçları doğru bir şekilde yorumlamak için gereken bağlamı sağlar.
Veri Manipülasyonu: Veri Yalanlarını Nasıl Anlayabilirsiniz?

Yıllar geçtikçe, makine öğrenimi yükselişte ve bu, bir dizi güçlü makine öğrenimi algoritmasını doğurdu. O kadar güçlü ki, sizi Keşifsel Veri Analizi aşamasını atlamaya neredeyse teşvik ediyorlar. Neden bu tür algoritmalardan yararlanmak ve EDA'yı atlamak istediğiniz anlaşılabilir olsa da – Verileri yalnızca bir kara kutuya beslemek ve sonuçları beklemek çok iyi bir fikir değildir. Keşifsel Veri Analizinin, gözden kaçırılması çok kolay olan birçok kritik bilgiyi sağladığı, soruları çerçevelemekten sonuçları görüntülemeye kadar uzun vadede analize yardımcı olan bilgileri sağladığı tekrar tekrar gözlemlenmiştir. Yeni başlayan biriyseniz ve veri bilimi hakkında daha fazla bilgi edinmek istiyorsanız, en iyi üniversitelerden veri bilimi eğitimimize göz atın.

EDA'nın yönleri, analiz edecek verilerimiz olduğu sürece var olsa da, Keşifsel Veri Analizi, 1970'lerde “Bit” (İkili Rakamın kısaltması) kelimesini ortaya atan aynı bilim adamı olan John Türkiye tarafından resmen geliştirildi. EDA genellikle bilimden çok bir felsefe olarak görülür ve tanımlanır, çünkü ona yaklaşmak için kesin ve kesin kurallar yoktur. Keşifsel Veri Analizinin amacı, aşağıdakiler gibi belirli görevlerin üstesinden gelmek için gereklidir:

    • Eksik ve hatalı verileri tespit etmek;

    • Verilerinizin altında yatan yapının haritalanması ve anlaşılması;

    • Veri kümenizdeki en önemli değişkenleri belirleme;

    • Belirli bir modelle ilgili bir hipotezi test etme veya varsayımları kontrol etme;

    • Tutarlı bir model oluşturmak (verilerinizi minimum değişkenler kullanarak açıklayabilecek bir model);

  • Parametreleri tahmin etme ve hata paylarını hesaplama.

Keşfedici Veri Analizinde Kullanılan Araçlar ve Teknikler

S-Plus ve R, Keşifsel Veri Analizi gerçekleştirmek için kullanılan en önemli istatistiksel programlama dilleridir. Bu diller, aşağıdakiler gibi belirli istatistiksel işlevleri gerçekleştirmenize yardımcı olan çok sayıda araçla birlikte gelir:

Sınıflandırma ve boyut küçültme teknikleri

keşifsel veri analizi
Sınıflandırma, temel olarak, ortak bir parametre/değişkene dayalı olarak farklı veri kümelerini gruplamak için kullanılır. Bahsettiğimiz veriler çok boyutludur ve çok boyutlu bir veri kümesi üzerinde sınıflandırma veya kümeleme yapmak kolay değildir. Bu nedenle, buna yardımcı olmak için, PCA ve LDA gibi Boyutsallık Azaltma teknikleri gerçekleştirilir - bunlar, verilerinizdeki herhangi bir değerli bilgiyi kaybetmeden veri kümesinin boyutluluğunu azaltır.
Simpson'ın Paradoksu Verileri Nasıl Etkiler?

Tek değişkenli görselleştirme

keşifsel veri analizi
Tek değişkenli görselleştirmeler, temel olarak, ham veri kümesindeki her bir alanın özet istatistiklerle birlikte olasılık dağılımlarıdır. Tek değişkenli görselleştirmeler, grafik gösterimi için frekans dağılım tabloları, çubuk grafikler, histogramlar veya pasta grafikler kullanır.

İki değişkenli görselleştirmeler

keşifsel veri analizi
Bunlar, veri bilimcilerinin veri kümenizdeki değişkenler arasındaki ilişkiyi değerlendirmesine olanak tanır ve baktığınız değişkeni hedeflemenize yardımcı olur. İki Değişkenli Analiz için uygun grafikler, söz konusu değişkenin türüne bağlıdır. Örneğin, iki sürekli değişkenle uğraşıyorsanız, seçtiğiniz grafik bir dağılım grafiği olmalıdır. Biri kategorik, diğeri sürekli ise kutu çizim tercih edilir ve her iki değişken de kategorik olduğunda mozaik çizim seçilir.
Veri Güvenliği İşi Patlıyor!

Çok değişkenli görselleştirmeler

keşifsel veri analizi
Çok değişkenli görselleştirmeler, farklı veri alanları arasındaki etkileşimlerin anlaşılmasına yardımcı olur. Herhangi bir zamanda birden fazla istatistiksel sonuç değişkeninin gözlemini ve analizini içerir.

K-kümeleme anlamına gelir

keşifsel veri analizi
K-ortalama kümeleme, temel olarak en yakın ortalamaya dayalı olarak her küme için "merkezler" oluşturmak için kullanılır. Oluşturulan kümeler yinelemelerle değişmeyi bırakana kadar kümeleri oluşturmaya ve yeniden oluşturmaya devam eden yinelemeli bir tekniktir. Bir veri kümesindeki aykırı değerleri bulmak için kullanılabilir (herhangi bir küme şeklinde olmayacak noktalar ideal olarak aykırı değerler olacaktır).

tahmine dayalı modeller

keşifsel veri analizi
Adından da anlaşılacağı gibi, tahmine dayalı modelleme, sonuçları tahmin etmek için istatistikleri kullanan bir yöntemdir. Tahminlerin çoğu gelecekte ne olacağını tahmin etmeyi amaçlasa da, tahmine dayalı modelleme, ne zaman meydana geleceğine bakılmaksızın, bilinmeyen herhangi bir olaya da uygulanabilir. Örneğin, bu teknik suçu tespit etmek ve suç gerçekleştikten sonra bile şüphelileri belirlemek için kullanılabilir. Tahmine dayalı modellemeyi gerçekleştirmenin en yaygın yolu doğrusal regresyon kullanmaktır (resme bakın).
Veri Ambarı ve Veri Madenciliği Nedir?

Keşifsel Veri Analizi işinize nasıl yardımcı olur ve nereye sığar?

Keşifsel Veri Analizi, bilim insanlarının ürettikleri sonuçların doğru yorumlanıp yorumlanmadığını ve gerekli iş bağlamlarına uygulanıp uygulanmadığını anlamalarına yardımcı olarak herhangi bir işletmeye en yüksek değeri sağlar. Keşfedici Veri Analizi, teknik olarak sağlam sonuçlar sağlamaktan başka, sordukları soruların doğru olup olmadığını teyit ederek paydaşlara da fayda sağlar. Keşifsel Veri Bilimi, genellikle, paydaşların veya veri bilimcilerinin genel olarak araştırmayı umursamayacakları, ancak yine de iş hakkında oldukça bilgilendirici olduğu kanıtlanabilecek öngörülemeyen içgörülerle ortaya çıkar.
Kuruluşların Keşifsel Veri Analizini doğrudan İş Zekası yazılımlarına dahil etmelerine yardımcı olan bir dizi veri bağlayıcısı vardır. Bunu, (örneğin) R'de BI verilerini kullanan ve modele yeni bilgiler aktıkça otomatik olarak güncellenen istatistiksel modeller oluşturup çalıştırarak, verilerin diğer yoldan da akmasına izin verecek şekilde ayarlayabilirsiniz.
Keşifsel Veri Analizinin potansiyel kullanım durumları çok çeşitlidir, ancak sonuçta hepsi şuna kadar iner - Keşifsel Veri Analizi, herhangi bir varsayımda bulunmadan veya yönde herhangi bir adım atmadan önce verilerinizi tanımak ve anlamakla ilgilidir. Veri Madenciliği. Yanlış modeller oluşturmaktan veya yanlış veriler üzerinde doğru modeller oluşturmaktan kaçınmanıza yardımcı olur.
Bu adımı doğru bir şekilde gerçekleştirmek, herhangi bir kuruluşa verilerine gerekli güveni verecektir - bu da sonunda güçlü makine öğrenimi algoritmalarını devreye almaya başlamalarını sağlayacaktır. Ancak bu önemli adımı görmezden gelmek, İş Zekası Sisteminizi çok sarsıcı bir temel üzerine kurmanıza neden olabilir.
Veri Analitiğini İş Sonuçlarına Bağlamanın 12 Yolu

Sonuç olarak…
Keşifsel Veri Analizi, tüm bilgi çıkarma süreci boyunca oldukça açık bir şekilde önemli adımlardan biridir. Genel analiz süreciniz için güçlü bir temel oluşturmak istiyorsanız, tüm gücünüzle EDA aşamasına odaklanmalısınız. Dürüst olmak gerekirse, bu adımı gerçekleştirmek için biraz istatistik gerekiyor. Bu konuda geride kaldığınızı düşünüyorsanız, Veri Bilimi İçin Gerekli İstatistiklerin Temelleri başlıklı makalemizi okumayı unutmayın.

Dünyanın en iyi Üniversitelerinden çevrimiçi veri bilimi kurslarını öğrenin. Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.

Python öğrenmekle ilgileniyorsanız ve çeşitli araçlar ve kütüphaneler konusunda ellerinizi kirletmek istiyorsanız, Veri Biliminde Yönetici PG Programına göz atın. Ah, “Keşif Verisi Analizini” bilimden çok bir sanat olarak görme konusundaki duruşumuz hakkında ne düşünüyorsunuz? Aşağıdaki yorumlarda bize bildirin!

Bir Veri Bilimcisi, işinizi geliştirmek için neden Keşifsel Veri Analizini kullanmalıdır?

Keşifsel Veri Analizinin birincil amacı, herhangi bir varsayımda bulunmadan önce verilerin analizine yardımcı olmaktır. Belirgin hataların saptanmasına, veri modellerinin daha iyi anlaşılmasına, aykırı değerlerin veya beklenmeyen olayların saptanmasına ve değişkenler arasındaki ilginç bağıntıların keşfedilmesine yardımcı olabilir.

Veri bilimcileri, ürettikleri sonuçların istenen iş sonuçları ve hedefleri için doğru ve kabul edilebilir olduğundan emin olmak için keşif analizi kullanabilir. EDA ayrıca paydaşlara uygun soruları sormalarını sağlayarak yardımcı olur. Standart sapmalar, kategorik değişkenler ve güven aralıkları EDA ile cevaplanabilir. EDA'nın tamamlanmasının ve içgörülerin çıkarılmasının ardından özellikleri, makine öğrenimi de dahil olmak üzere daha gelişmiş veri analizine veya modellemeye uygulanabilir.

EDA için en popüler kullanım örnekleri nelerdir?

Veri bilimcilerinin diğer modelleme türlerini bağlamadan önce EDA'yı kullanması nadir değildir. Aykırı değerleri, eğilimleri, kalıpları ve hataları belirlemek için veri kümelerine bakmak için genellikle veri analizinde kullanılır. Örneğin, EDA yaygın olarak BI araçlarının ve uzmanlarının satış trendleri, en iyi kategoriler vb. hakkındaki bilgileri ortaya çıkarmak için verileri analiz ettiği perakendede kullanılır. yeni grip mevsiminde daha yaygın olabilecek, hasta popülasyonunun homojenliğini doğrulayan vb.

Keşfedici Veri Analizi türleri nelerdir?

Keşfedici Veri Analizi türleri şunlardır:

1. Tek Değişkenli Grafik Olmayan : Tek değişkenli grafiksel olmayan EDA'nın standart amacı, örnek dağılımını/verilerini anlamak ve popülasyon gözlemleri yapmaktır.
2. Tek değişkenli grafik: Histogramlar, Gövde ve yaprak grafikleri, Kutu Grafikleri, vb.
3. Çok Değişkenli Grafik Olmayan : Bu EDA teknikleri, iki veya daha fazla veri değişkeni arasındaki ilişkiyi göstermek için çapraz tablolama veya istatistik kullanır.
4. Çok değişkenli grafik : Çok değişkenli verilerde iki veya daha fazla veri türü arasındaki ilişkilerin grafiksel temsilleri kullanılır.