Veri Madenciliğinde Normalleştirme Nedir ve Nasıl Yapılır?

Yayınlanan: 2020-11-23

Şirketler, müşterileri hakkında daha fazla bilgi edinmek için verilere giderek daha fazla güveniyor. Bu nedenle, veri analistlerinin büyük ham veri bloklarını keşfetme ve analiz etme ve bunlardan anlamlı müşteri eğilimleri ve kalıpları toplama konusunda daha büyük bir sorumluluğu vardır. Bu veri madenciliği olarak bilinir. Veri analistleri, yeni içgörüler elde etmek için veri madenciliği tekniklerini, gelişmiş istatistiksel analizleri ve veri görselleştirme teknolojilerini kullanır.

Bunlar, bir işletmenin iş performansını iyileştirmek, satışları büyütmek ve genel masrafları azaltmak için etkili pazarlama stratejileri geliştirmesine yardımcı olabilir. Veri madenciliği için araçlar ve algoritmalar olmasına rağmen, gerçek dünya verileri heterojen olduğu için bu kolay bir yol değildir. Bu nedenle, veri madenciliği söz konusu olduğunda oldukça fazla zorluk vardır. Veri madenciliğinde uzmanlık kazanmak istiyorsanız veri bilimini öğrenin.

Yaygın zorluklardan biri, genellikle veritabanlarının farklı birimlerin, aralıkların ve ölçeklerin niteliklerini içermesidir. Böyle büyük ölçüde değişen verilere algoritmalar uygulamak, doğru sonuçlar vermeyebilir. Bu , veri madenciliğinde veri normalleştirmesini gerektirir .

Heterojen verileri normalleştirmek için gerekli bir işlemdir. Veriler, 0.0 ila 1.0 veya -1.0 ila 1.0 gibi daha küçük bir aralığa yerleştirilebilir. Basit bir deyişle, veri normalleştirme, verilerin sınıflandırılmasını ve anlaşılmasını kolaylaştırır.

İçindekiler

Veri Madenciliğinde Normalleştirme Neden Gereklidir?

Veri normalizasyonu esas olarak yinelenen verileri en aza indirmek veya hariç tutmak için gereklidir. Verilerdeki ikilik kritik bir konudur. Bunun nedeni, verileri ilişkisel veritabanlarında depolamak ve aynı verileri birden fazla yerde tutmanın giderek daha sorunlu hale gelmesidir. Veri madenciliğinde normalleştirme, aşağıda belirtildiği gibi belirli avantajların elde edilmesini sağladığı için faydalı bir prosedürdür:

Veri madenciliği algoritmalarını bir dizi normalleştirilmiş veriye uygulamak çok daha kolaydır.
Bir dizi normalleştirilmiş veriye uygulanan veri madenciliği algoritmalarının sonuçları daha doğru ve etkilidir.
Veriler normalleştirildiğinde, veritabanlarından verilerin çıkarılması çok daha hızlı hale gelir.
Normalleştirilmiş verilere daha spesifik veri analiz yöntemleri uygulanabilir.

Okuyun: Veri Madenciliği Teknikleri

Veri Madenciliğinde Veri Normalleştirme için 3 Popüler Teknik

Veri madenciliğinde normalleştirmeyi gerçekleştirmenin üç popüler yöntemi vardır . İçerirler:

Min Maks Normalizasyon

Anlaması daha kolay olan şey – 200 ile 1000000 arasındaki fark veya 0,2 ile 1 arasındaki fark. Gerçekten de, minimum ve maksimum değerler arasındaki fark daha az olduğunda, veriler daha okunabilir hale gelir. Min-maks normalleştirme, bir veri aralığını 0 ile 1 arasında değişen bir ölçeğe dönüştürerek çalışır.

Min-Maks Normalizasyon Formülü

Formülü anlamak için işte bir örnek. Bir şirketin, çalışanlarının yıllara dayanan iş tecrübesine dayanarak bir terfi kararı vermek istediğini varsayalım. Bu nedenle, şuna benzeyen bir veritabanını analiz etmesi gerekiyor:

Çalışan Adı	Yılların Deneyimi
ABC	8
XYZ	20
PQR	10
MNO	15

Minimum değer 8'dir
Maksimum değer 20'dir

Bu formül verileri 0 ile 1 arasında ölçeklediğinden,

Yeni dakika 0
Yeni maksimum 1

Burada V, özniteliğin ilgili değeri anlamına gelir, yani, 8, 10, 15, 20

Minimum-maks normalleştirme formülünü uyguladıktan sonra , öznitelikler için V' değerleri aşağıdadır:

8 yıllık tecrübe için: v'= 0
10 yıllık deneyim için: v' = 0.16
15 yıllık deneyim için: v' = 0,58
20 yıllık deneyim için: v' = 1

Bu nedenle, min-maks normalleştirme, büyük sayıları çok daha küçük değerlere indirebilir. Bu, değişen sayılar arasındaki farkı okumayı son derece kolaylaştırır.

Ondalık Ölçeklendirme Normalleştirme

Ondalık ölçekleme, veri madenciliğinde normalleştirme için başka bir tekniktir . Bir sayıyı ondalık basamağa dönüştürerek çalışır.

Ondalık Ölçeklendirme Formülü

Burada:

V', ondalık ölçeklemeyi uyguladıktan sonraki yeni değerdir
V, özniteliğin ilgili değeridir

Şimdi, J tamsayısı ondalık noktaların hareketini tanımlar. Peki, nasıl tanımlanmalı? Veri tablosundaki maksimum değerde bulunan basamak sayısına eşittir. İşte bir örnek:

Bir şirketin yeni katılanların maaşlarını karşılaştırmak istediğini varsayalım. İşte veri değerleri:

Çalışan Adı	Aylık maaş
ABC	10.000
XYZ	25.000
PQR	8.000
MNO	15.000

Şimdi, verilerdeki maksimum değeri arayın. Bu durumda, 25.000'dir. Şimdi bu değerdeki basamak sayısını sayın. Bu durumda, '5'. Yani burada 'j' 5'e eşittir, yani 100.000. Bu, V'nin (özniteliğin değeri) burada 100.000'e bölünmesi gerektiği anlamına gelir.

Sıfır ondalık ölçekleme formülünü uyguladıktan sonra yeni değerler şunlardır:

İsim	Aylık maaş	Ondalık Ölçeklendirmeden Sonra Maaş
ABC	10.000	0.1
XYZ	25.000	0.25
PQR	8, 000	0.08
MNO	15.000	0.15

Bu nedenle, ondalık ölçekleme, büyük sayıları, anlaşılması kolay daha küçük ondalık değerlere dönüştürebilir. Ayrıca, farklı birimlere atfedilen veriler, daha küçük ondalık değerlere dönüştürüldüğünde okunması ve anlaşılması kolay hale gelir.

Mutlaka Okuyun: Veri Madenciliği Proje Fikirleri ve Konuları

Z-Skor Normalizasyonu

Z-Skor değeri, veri noktasının ortalamadan ne kadar uzakta olduğunu anlamaktır. Teknik olarak ortalamanın altındaki veya üstündeki standart sapmaları ölçer. -3 standart sapmadan +3 standart sapmaya kadar değişir. Veri madenciliğinde Z-puanı normalleştirmesi , testlerden veya anketlerden elde edilen sonuçlar gibi bir ortalama (ortalama) değere göre bir değeri karşılaştırmaya ihtiyaç duyulan bu tür veri analizi için yararlıdır.

Örneğin, bir kişinin ağırlığı 150 pound'dur. Şimdi, bu değeri geniş bir veri tablosunda listelenen bir popülasyonun ortalama ağırlığı ile karşılaştırmaya ihtiyaç varsa, özellikle birinin ağırlığı kilogram olarak kaydediliyorsa, bu tür değerleri incelemek için Z-skor normalizasyonu gereklidir.

Çözüm

Veriler farklı kaynaklardan geldiğinden, herhangi bir veri yığınında farklı niteliklere sahip olmak çok yaygındır. Bu nedenle veri madenciliğinde normalleştirme, verilerin ön işleme tabi tutulması ve analize hazırlanması gibidir.

Veri bilimi hakkında bilgi edinmek istiyorsanız, IIIT -B & upGrad'ın çalışan profesyoneller için oluşturulmuş ve 10'dan fazla vaka çalışması ve proje, uygulamalı uygulamalı atölye çalışmaları, endüstri uzmanlarıyla mentorluk, 1 Endüstri danışmanlarıyla bire bir, en iyi firmalarla 400+ saat öğrenim ve iş yardımı.

Veri madenciliğinde Normalleştirme ile ne kastedilmektedir?

Normalleştirme, bir özniteliğin verilerini -1.0 ila 1.0 veya 0.0 ila 1.0 gibi daha dar bir aralığa düşecek şekilde ölçeklendirme işlemidir. Genel olarak sınıflandırma algoritmaları için faydalıdır. Normalleştirme, tipik olarak çeşitli ölçeklerdeki özelliklerle uğraşırken gereklidir; aksi takdirde, daha büyük bir ölçekte değerlere sahip olan diğer nitelikler nedeniyle, eşit derecede önemli bir özelliğin etkinliğini daha düşük bir ölçekte seyreltebilir. Diğer bir deyişle, çok sayıda özelliğin var olduğu ancak değerlerinin çeşitli ölçeklerde olduğu durumlarda, veri madenciliği faaliyetleri yapılırken bu durum yetersiz veri modellerine neden olabilir. Sonuç olarak, tüm özellikleri aynı ölçeğe koymak için normalleştirilirler.

Farklı Normalleştirme türleri nelerdir?

Normalleştirme, oluşturduğunuz her veritabanı için izlenmesi gereken bir prosedürdür. Normal Formlar, bir veritabanı mimarisi alma ve ona bir dizi resmi kriter ve kural uygulama eylemini ifade eder. Normalleşme süreci şu şekilde sınıflandırılır: Birinci Normal Form (1 NF), İkinci Normal Form (2 NF), Üçüncü Normal Form (3 NF), Boyce Codd Normal Form veya Dördüncü Normal Form ( BCNF veya 4 NF), Beşinci Normal Form (5 NF) ve Altıncı Normal Form (6 NF) (6 NF).

Min-Maks Normalleştirme Nedir?

Verileri normalleştirmek için en yaygın yöntemlerden biri min-maks Normalleştirmedir. Her özellik için minimum değer 0'a, en yüksek değer 1'e ve diğer tüm değerler 0 ile 1 arasında bir ondalık sayıya dönüştürülür. Örneğin, bir özelliğin minimum değeri 20 ise ve en yüksek değer 40 idi, 30, 20 ile 40 arasında yarı yolda olduğu için yaklaşık 0,5'e dönüştürülür. Min-max Normalizasyonun önemli bir dezavantajı, aykırı değerleri iyi işlememesidir. Örneğin, 0 ile 40 arasında değişen 99 değeriniz varsa ve bunlardan biri 100 ise, 99 değerin tümü 0 ile 0,4 arasında değişen değerlere dönüştürülecektir.