Ce este normalizarea în data mining și cum se face?

Publicat: 2020-11-23

Companiile se bazează din ce în ce mai mult pe date pentru a afla mai multe despre clienții lor. Astfel, analiștii de date au o responsabilitate mai mare de a explora și analiza blocuri mari de date brute și de a culege din acestea tendințe și modele semnificative ale clienților. Acest lucru este cunoscut sub numele de data mining. Analiștii de date folosesc tehnici de extragere a datelor, analize statistice avansate și tehnologii de vizualizare a datelor pentru a obține noi perspective.

Acestea pot ajuta o companie să dezvolte strategii de marketing eficiente pentru a îmbunătăți performanța afacerii, a crește vânzările și a reduce costurile generale. Deși există instrumente și algoritmi pentru data mining, acesta nu este un cakewalk, deoarece datele din lumea reală sunt eterogene. Astfel, există destul de multe provocări atunci când vine vorba de data mining. Învățați știința datelor dacă doriți să obțineți experiență în data mining.

Una dintre provocările comune este că, de obicei, bazele de date conțin atribute ale diferitelor unități, intervale și scări. Aplicarea algoritmilor unor astfel de date drastic variate poate să nu ofere rezultate precise. Acest lucru necesită normalizarea datelor în data mining .

Este un proces necesar necesar pentru normalizarea datelor eterogene. Datele pot fi plasate într-un interval mai mic, cum ar fi 0,0 până la 1,0 sau -1,0 până la 1,0. Cu cuvinte simple, normalizarea datelor face ca datele să fie mai ușor de clasificat și de înțeles.

Cuprins

De ce este necesară normalizarea în data mining?

Normalizarea datelor este necesară în principal pentru a minimiza sau a exclude datele duplicat. Duplicitatea datelor este o problemă critică. Acest lucru se datorează faptului că este din ce în ce mai problematică stocarea datelor în baze de date relaționale, păstrând date identice în mai multe locuri. Normalizarea în data mining este o procedură benefică, deoarece permite obținerea unor avantaje, după cum se menționează mai jos:

  • Este mult mai ușor să aplicați algoritmi de extragere a datelor pe un set de date normalizate.
  • Rezultatele algoritmilor de extragere a datelor aplicați unui set de date normalizate sunt mai precise și mai eficiente.
  • Odată ce datele sunt normalizate, extragerea datelor din baze de date devine mult mai rapidă.
  • Metode mai specifice de analiză a datelor pot fi aplicate datelor normalizate.

Citiți: Tehnici de extragere a datelor

3 tehnici populare pentru normalizarea datelor în data mining

Există trei metode populare pentru a realiza normalizarea în mineritul de date . Ei includ:

Normalizare min Max

Ce este mai ușor de înțeles – diferența dintre 200 și 1000000 sau diferența dintre 0,2 și 1. Într-adevăr, atunci când diferența dintre valorile minime și maxime este mai mică, datele devin mai lizibile. Normalizarea min-max funcționează prin conversia unui interval de date într-o scară care variază de la 0 la 1.

Formula de normalizare Min-Max

Pentru a înțelege formula, iată un exemplu. Să presupunem că o companie dorește să decidă cu privire la o promovare pe baza anilor de experiență de muncă a angajaților săi. Deci, trebuie să analizeze o bază de date care arată astfel:

numele angajatului Ani de experienta
ABC 8
XYZ 20
PQR 10
MNO 15

  • Valoarea minimă este 8
  • Valoarea maximă este 20

Deoarece această formulă scalează datele între 0 și 1,

  • Noul min este 0
  • Noul maxim este 1

Aici, V reprezintă valoarea respectivă a atributului, adică 8, 10, 15, 20

După aplicarea formulei de normalizare min-max, următoarele sunt valorile V' pentru atribute:

  • Pentru 8 ani de experiență: v'= 0
  • Pentru 10 ani de experiență: v' = 0,16
  • Pentru 15 ani de experiență: v' = 0,58
  • Pentru 20 de ani de experiență: v' = 1

Deci, normalizarea min-max poate reduce numerele mari la valori mult mai mici. Acest lucru face extrem de ușor de citit diferența dintre numerele de distanță.

Normalizare scalare zecimală

Scalare zecimală este o altă tehnică de normalizare în data mining . Funcționează prin conversia unui număr într-un punct zecimal.

Formula de scalare zecimală

Aici:

  • V' este noua valoare după aplicarea scalei zecimale
  • V este valoarea respectivă a atributului

Acum, întregul J definește mișcarea punctelor zecimale. Deci, cum să-l definești? Este egal cu numărul de cifre prezente în valoarea maximă din tabelul de date. Iată un exemplu:

Să presupunem că o companie dorește să compare salariile noilor tamplari. Iată valorile datelor:

numele angajatului Salariu
ABC 10.000
XYZ 25.000
PQR 8.000
MNO 15.000

Acum, căutați valoarea maximă în date. În acest caz, este de 25.000. Acum numărați numărul de cifre din această valoare. În acest caz, este „5”. Deci aici „j” este egal cu 5, adică 100.000. Aceasta înseamnă că V (valoarea atributului) trebuie împărțită aici la 100.000.

După aplicarea formulei de scalare zecimală zero, iată noile valori:

Nume Salariu Salariul după scalarea zecimală
ABC 10.000 0,1
XYZ 25.000 0,25
PQR 8.000 0,08
MNO 15.000 0,15

Astfel, scalarea zecimală poate reduce tonul numerelor mari în valori zecimale mai mici ușor de înțeles. De asemenea, datele atribuite diferitelor unități devin ușor de citit și de înțeles odată ce sunt convertite în valori zecimale mai mici.

Trebuie citit: Idei și subiecte pentru proiecte de exploatare a datelor

Normalizarea scorului Z

Valoarea Z-Score este de a înțelege cât de departe este punctul de date de medie. Din punct de vedere tehnic, măsoară abaterile standard sub sau peste medie. Acesta variază de la -3 abateri standard până la +3 abateri standard. Normalizarea scorului Z în data mining este utilă pentru acele tipuri de analiză a datelor în care este nevoie de a compara o valoare în raport cu o valoare medie (medie), cum ar fi rezultatele din teste sau sondaje.

De exemplu, greutatea unei persoane este de 150 de lire sterline. Acum, dacă este nevoie de a compara acea valoare cu greutatea medie a unei populații listată într-un tabel vast de date, este necesară normalizarea scorului Z pentru a studia astfel de valori, mai ales dacă greutatea cuiva este înregistrată în kilograme.

Concluzie

Deoarece datele provin din surse diferite, este foarte comun să existe atribute diferite în orice lot de date. Astfel, normalizarea în data mining este ca preprocesarea și pregătirea datelor pentru analiză.

Dacă sunteți curios să aflați despre știința datelor, consultați programul Executive PG în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1 -on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Ce se înțelege prin normalizare în data mining?

Normalizarea este procesul de scalare a datelor unui atribut astfel încât să se încadreze într-un interval mai restrâns, cum ar fi de la -1,0 la 1,0 sau de la 0,0 la 1,0. Este benefic pentru algoritmii de clasificare în general. Normalizarea este de obicei necesară atunci când se ocupă de caracteristici la diferite scări; în caz contrar, poate dilua eficacitatea unui atribut la fel de semnificativ pe o scară mai mică datorită altor atribute care au valori la o scară mai mare. Cu alte cuvinte, atunci când există numeroase caracteristici, dar valorile lor sunt la diferite scări, acest lucru ar putea duce la modele de date inadecvate atunci când se desfășoară activități de data mining. Ca rezultat, ele sunt normalizate pentru a pune toate caracteristicile la aceeași scară.

Care sunt diferitele tipuri de normalizare?

Normalizarea este o procedură care trebuie urmată pentru fiecare bază de date pe care o creați. Formele normale se referă la actul de a lua o arhitectură de bază de date și de a aplica un set de criterii și reguli formale acesteia. Procesul de normalizare este clasificat după cum urmează: Prima formă normală (1 NF), a doua formă normală (2 NF), a treia formă normală (3 NF), Boyce Codd formă normală sau a patra formă normală ( BCNF sau 4 NF), a cincea formă normală (5 NF) și a șasea formă normală (6 NF) (6 NF).

Ce este normalizarea min-max?

Una dintre cele mai răspândite metode de normalizare a datelor este normalizarea min-max. Pentru fiecare caracteristică, valoarea minimă este convertită la 0, cea mai mare valoare este convertită la 1 și toate celelalte valori sunt convertite la o zecimală între 0 și 1. De exemplu, dacă valoarea minimă a unei caracteristici a fost 20 și cea mai mare valoare a fost 40, 30 ar fi convertit la aproximativ 0,5, deoarece este la jumătatea distanței dintre 20 și 40. Un dezavantaj semnificativ al normalizării min-max este că nu gestionează bine valorile aberante. De exemplu, dacă aveți 99 de valori cuprinse între 0 și 40, iar una dintre ele este 100, toate cele 99 de valori vor fi convertite în valori cuprinse între 0 și 0,4.