O que é normalização em mineração de dados e como fazê-lo?
Publicados: 2020-11-23As empresas estão cada vez mais confiando em dados para aprender mais sobre seus clientes. Assim, os analistas de dados têm uma responsabilidade maior de explorar e analisar grandes blocos de dados brutos e extrair tendências e padrões significativos dos clientes. Isso é conhecido como mineração de dados. Os analistas de dados usam técnicas de mineração de dados, análise estatística avançada e tecnologias de visualização de dados para obter novos insights.
Isso pode ajudar uma empresa a desenvolver estratégias de marketing eficazes para melhorar o desempenho dos negócios, aumentar as vendas e reduzir os custos indiretos. Embora existam ferramentas e algoritmos para mineração de dados, não é fácil, pois os dados do mundo real são heterogêneos. Assim, existem alguns desafios quando se trata de mineração de dados. Aprenda ciência de dados se quiser ganhar experiência em mineração de dados.
Um dos desafios comuns é que, geralmente, os bancos de dados contêm atributos de diferentes unidades, faixas e escalas. A aplicação de algoritmos a esses dados de variação drástica pode não fornecer resultados precisos. Isso exige normalização de dados na mineração de dados .
É um processo necessário necessário para normalizar dados heterogêneos. Os dados podem ser colocados em um intervalo menor, como 0,0 a 1,0 ou -1,0 a 1,0. Em palavras simples, a normalização de dados torna os dados mais fáceis de classificar e entender.
Índice
Por que a normalização na mineração de dados é necessária?
A normalização de dados é necessária principalmente para minimizar ou excluir dados duplicados. A duplicidade de dados é uma questão crítica. Isso ocorre porque é cada vez mais problemático armazenar dados em bancos de dados relacionais, mantendo dados idênticos em mais de um local. A normalização na mineração de dados é um procedimento benéfico, pois permite obter certas vantagens, conforme mencionado abaixo:
- É muito mais fácil aplicar algoritmos de mineração de dados em um conjunto de dados normalizados.
- Os resultados dos algoritmos de mineração de dados aplicados a um conjunto de dados normalizados são mais precisos e eficazes.
- Uma vez normalizados os dados, a extração de dados dos bancos de dados se torna muito mais rápida.
- Métodos de análise de dados mais específicos podem ser aplicados a dados normalizados.
Leia: Técnicas de Mineração de Dados
3 Técnicas populares para normalização de dados em mineração de dados
Existem três métodos populares para realizar a normalização na mineração de dados . Eles incluem:
Normalização Mín. Máx.
O que é mais fácil de entender – a diferença entre 200 e 1000000 ou a diferença entre 0,2 e 1. De fato, quando a diferença entre os valores mínimo e máximo é menor, os dados se tornam mais legíveis. A normalização min-max funciona convertendo um intervalo de dados em uma escala que varia de 0 a 1.
Fórmula de normalização mín.-máx.

Para entender a fórmula, aqui está um exemplo. Suponha que uma empresa queira decidir sobre uma promoção com base nos anos de experiência de trabalho de seus funcionários. Então, ele precisa analisar um banco de dados que se parece com isso:
| nome do empregado | anos de experiência |
| abc | 8 |
| XYZ | 20 |
| PQR | 10 |
| MNO | 15 |
- O valor mínimo é 8
- O valor máximo é 20
Como esta fórmula dimensiona os dados entre 0 e 1,
- O novo mínimo é 0
- O novo máximo é 1
Aqui, V representa o respectivo valor do atributo, ou seja, 8, 10, 15, 20
Após aplicar a fórmula de normalização min-max, a seguir estão os valores de V' para os atributos:
- Para 8 anos de experiência: v'= 0
- Para 10 anos de experiência: v' = 0,16
- Para 15 anos de experiência: v' = 0,58
- Para 20 anos de experiência: v' = 1
Assim, a normalização min-max pode reduzir números grandes a valores muito menores. Isso torna extremamente fácil de ler a diferença entre os números de alcance.
Normalização de escala decimal
A escala decimal é outra técnica de normalização na mineração de dados . Ele funciona convertendo um número em um ponto decimal.
Fórmula de escala decimal

Aqui:
- V' é o novo valor após aplicar a escala decimal
- V é o respectivo valor do atributo
Agora, o inteiro J define o movimento dos pontos decimais. Então, como defini-lo? É igual ao número de dígitos presentes no valor máximo na tabela de dados. Aqui está um exemplo:

Suponha que uma empresa queira comparar os salários dos novos associados. Aqui estão os valores dos dados:
| nome do empregado | Salário |
| abc | 10.000 |
| XYZ | 25.000 |
| PQR | 8.000 |
| MNO | 15.000 |
Agora, procure o valor máximo nos dados. Neste caso, é 25.000. Agora conte o número de dígitos neste valor. Neste caso, é '5'. Então aqui 'j' é igual a 5, ou seja, 100.000. Isso significa que o V (valor do atributo) precisa ser dividido por 100.000 aqui.
Depois de aplicar a fórmula de escala zero decimal, aqui estão os novos valores:
| Nome | Salário | Salário após escala decimal |
| abc | 10.000 | 0,1 |
| XYZ | 25.000 | 0,25 |
| PQR | 8.000 | 0,08 |
| MNO | 15.000 | 0,15 |
Assim, a escala decimal pode atenuar números grandes em valores decimais menores fáceis de entender. Além disso, os dados atribuídos a diferentes unidades tornam-se fáceis de ler e entender, uma vez que são convertidos em valores decimais menores.
Leitura obrigatória: ideias e tópicos de projetos de mineração de dados
Normalização do Z-Score
O valor do Z-Score é entender o quão longe o ponto de dados está da média. Tecnicamente, mede os desvios padrão abaixo ou acima da média. Varia de -3 desvio padrão até +3 desvio padrão. A normalização do Z-score na mineração de dados é útil para os tipos de análise de dados em que há necessidade de comparar um valor com relação a um valor médio, como resultados de testes ou pesquisas.
Por exemplo, o peso de uma pessoa é de 150 libras. Agora, se houver a necessidade de comparar esse valor com o peso médio de uma população listada em uma vasta tabela de dados, a normalização do Z-score é necessária para estudar tais valores, especialmente se o peso de alguém for registrado em quilogramas.
Conclusão
Como os dados vêm de fontes diferentes, é muito comum ter atributos diferentes em qualquer lote de dados. Assim, a normalização na mineração de dados é como pré-processar e preparar os dados para análise.
Se você está curioso para aprender sobre ciência de dados, confira o Programa PG Executivo em Ciência de Dados do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1 -on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.
O que significa Normalização na Mineração de Dados?
A normalização é o processo de dimensionar os dados de um atributo de forma que caia em um intervalo mais estreito, como -1,0 a 1,0 ou 0,0 a 1,0. É benéfico para algoritmos de classificação em geral. Normalmente, a normalização é necessária ao lidar com características em várias escalas; caso contrário, pode diluir a eficácia de um atributo igualmente significativo em uma escala menor devido a outros atributos terem valores em uma escala maior. Em outras palavras, quando existem inúmeras características, mas seus valores estão em várias escalas, isso pode resultar em modelos de dados inadequados ao realizar atividades de mineração de dados. Como resultado, eles são normalizados para colocar todas as características na mesma escala.
Quais são os diferentes tipos de Normalização?
A normalização é um procedimento que deve ser seguido para cada banco de dados que você cria. As Formas Normais referem-se ao ato de pegar uma arquitetura de banco de dados e aplicar um conjunto de critérios e regras formais a ela. O processo de normalização é classificado da seguinte forma: Primeira Forma Normal (1 NF), Segunda Forma Normal (2 NF), Terceira Forma Normal (3 NF), Forma Normal de Boyce Codd ou Quarta Forma Normal ( BCNF ou 4 NF), Quinta Forma Normal (5 NF) e Sexta Forma Normal (6 NF) (6 NF).
O que é Normalização Min-Max?
Um dos métodos mais comuns para normalizar dados é a normalização min-max. Para cada recurso, o valor mínimo é convertido em 0, o valor mais alto é convertido em 1 e todos os outros valores são convertidos em um decimal entre 0 e 1. Por exemplo, se o valor mínimo de um recurso for 20 e o valor o valor mais alto era 40, 30 seria convertido para cerca de 0,5, uma vez que está na metade do caminho entre 20 e 40. Uma desvantagem significativa da normalização min-max é que ela não lida bem com valores discrepantes. Por exemplo, se você tiver 99 valores variando de 0 a 40 e um deles for 100, todos os 99 valores serão convertidos em valores variando de 0 a 0,4.
