데이터 마이닝에서 정규화란 무엇이며 어떻게 수행합니까?
게시 됨: 2020-11-23기업은 고객에 대해 더 많이 알기 위해 데이터에 점점 더 의존하고 있습니다. 따라서 데이터 분석가는 원시 데이터의 큰 블록을 탐색 및 분석하고 의미 있는 고객 동향과 패턴을 수집해야 하는 더 큰 책임이 있습니다. 이를 데이터 마이닝이라고 합니다. 데이터 분석가는 데이터 마이닝 기술, 고급 통계 분석 및 데이터 시각화 기술을 사용하여 새로운 통찰력을 얻습니다.
이는 비즈니스가 비즈니스 성과를 개선하고 판매를 확대하며 간접비를 줄이기 위한 효과적인 마케팅 전략을 개발하는 데 도움이 될 수 있습니다. 데이터 마이닝을 위한 도구와 알고리즘이 있지만 실제 데이터는 이질적이므로 케이크워크가 아닙니다. 따라서 데이터 마이닝과 관련하여 몇 가지 문제가 있습니다. 데이터 마이닝에 대한 전문 지식을 얻으려면 데이터 과학을 배우십시오.
일반적인 문제 중 하나는 일반적으로 데이터베이스에 다른 단위, 범위 및 규모의 속성이 포함되어 있다는 것입니다. 이러한 엄청난 범위의 데이터에 알고리즘을 적용하면 정확한 결과를 제공하지 못할 수 있습니다. 이것은 데이터 마이닝에서 데이터 정규화를 요구합니다 .
이기종 데이터를 정규화하는 데 필요한 과정입니다. 데이터는 0.0 ~ 1.0 또는 -1.0 ~ 1.0과 같이 더 작은 범위에 넣을 수 있습니다. 간단히 말해서 데이터 정규화는 데이터를 분류하고 이해하기 쉽게 만듭니다.
목차
데이터 마이닝에서 정규화가 필요한 이유는 무엇입니까?
데이터 정규화는 주로 중복 데이터를 최소화하거나 제외하는 데 필요합니다. 데이터의 이중성은 중요한 문제입니다. 이는 관계형 데이터베이스에 데이터를 저장하고 동일한 데이터를 둘 이상의 장소에 보관하는 것이 점점 더 문제가 되기 때문입니다. 데이터 마이닝의 정규화는 아래와 같이 특정 이점을 얻을 수 있으므로 유익한 절차입니다.
- 정규화된 데이터 집합에 데이터 마이닝 알고리즘을 적용하는 것이 훨씬 쉽습니다.
- 정규화된 데이터 집합에 적용된 데이터 마이닝 알고리즘의 결과는 더 정확하고 효과적입니다.
- 데이터가 정규화되면 데이터베이스에서 데이터 추출이 훨씬 빨라집니다.
- 정규화된 데이터에는 보다 구체적인 데이터 분석 방법을 적용할 수 있습니다.
읽기: 데이터 마이닝 기술
데이터 마이닝에서 데이터 정규화를 위한 3가지 인기 있는 기술
데이터 마이닝에서 정규화 를 수행하는 데 널리 사용되는 세 가지 방법이 있습니다 . 여기에는 다음이 포함됩니다.
최소 최대 정규화
200과 1000000의 차이 또는 0.2와 1의 차이가 더 이해하기 쉽습니다. 실제로 최소값과 최대값의 차이가 작을수록 데이터 가독성이 높아집니다. 최소-최대 정규화는 데이터 범위를 0에서 1 사이의 척도로 변환하여 작동합니다.
최소-최대 정규화 공식
공식을 이해하기 위해 여기에 예가 있습니다. 회사에서 직원의 수년 간의 근무 경험을 기반으로 승진을 결정하려고 한다고 가정합니다. 따라서 다음과 같은 데이터베이스를 분석해야 합니다.
직원 이름 | 다년간의 경험 |
알파벳 | 8 |
XYZ | 20 |
PQR | 10 |
MNO | 15 |
- 최소값은 8입니다.
- 최대값은 20입니다.
이 공식은 0과 1 사이의 데이터를 스케일링하므로,
- 새로운 최소값은 0입니다.
- 새로운 최대값은 1입니다.
여기서 V는 속성의 각 값을 나타냅니다. 즉, 8, 10, 15, 20
최소-최대 정규화 공식을 적용한 후 속성에 대한 V' 값 은 다음과 같습니다.
- 8년 경력: v'= 0
- 10년의 경험: v' = 0.16
- 15년의 경험: v' = 0.58
- 20년의 경험: v' = 1
따라서 최소-최대 정규화는 큰 숫자를 훨씬 더 작은 값으로 줄일 수 있습니다. 이렇게 하면 범위 번호 간의 차이를 매우 쉽게 읽을 수 있습니다.
십진법 스케일링 정규화
Decimal scaling은 데이터 마이닝에서 정규화를 위한 또 다른 기술입니다 . 숫자를 소수점으로 변환하여 작동합니다.
소수 스케일링 공식
여기:
- V'는 소수 스케일링을 적용한 후의 새 값입니다.
- V는 속성의 해당 값입니다.
이제 정수 J는 소수점의 움직임을 정의합니다. 그래서, 그것을 정의하는 방법? 데이터 테이블의 최대값에 있는 자릿수와 같습니다. 다음은 예입니다.

회사에서 신입 사원의 급여를 비교하려고 한다고 가정해 보겠습니다. 다음은 데이터 값입니다.
직원 이름 | 샐러리 |
알파벳 | 10,000 |
XYZ | 25,000 |
PQR | 8,000 |
MNO | 15,000 |
이제 데이터에서 최대값을 찾으십시오. 이 경우 25,000입니다. 이제 이 값의 자릿수를 계산합니다. 이 경우 '5'입니다. 따라서 여기서 'j'는 5, 즉 100,000과 같습니다. 이것은 여기서 V(속성 값)를 100,000으로 나누어야 함을 의미합니다.
0 소수점 스케일링 공식을 적용한 후 새 값은 다음과 같습니다.
이름 | 샐러리 | 소수점 이하 자릿수 후 급여 |
알파벳 | 10,000 | 0.1 |
XYZ | 25,000 | 0.25 |
PQR | 8,000 | 0.08 |
MNO | 15,000 | 0.15 |
따라서 10진수 스케일링은 큰 숫자를 이해하기 쉬운 더 작은 10진수 값으로 축소할 수 있습니다. 또한 다른 단위에 기인한 데이터는 더 작은 십진수 값으로 변환되면 읽기 쉽고 이해하기 쉬워집니다.
반드시 읽어야 할 내용: 데이터 마이닝 프로젝트 아이디어 및 주제
Z-점수 정규화
Z-Score 값은 데이터 포인트가 평균에서 얼마나 멀리 떨어져 있는지 이해하는 것입니다. 기술적으로 평균 이하 또는 이상의 표준 편차를 측정합니다. 범위는 -3 표준 편차에서 최대 +3 표준 편차입니다. 데이터 마이닝의 Z-점수 정규화는 테스트 또는 설문 조사의 결과와 같이 평균(평균) 값과 관련하여 값을 비교할 필요가 있는 종류의 데이터 분석에 유용합니다.
예를 들어, 사람의 체중은 150파운드입니다. 이제 그 값을 방대한 데이터 테이블에 나열된 인구의 평균 체중과 비교할 필요가 있는 경우, 특히 누군가의 체중이 킬로그램으로 기록된 경우 그러한 값을 연구하기 위해 Z-점수 정규화가 필요합니다.
결론
데이터가 서로 다른 소스에서 왔기 때문에 데이터 배치에서 서로 다른 속성을 갖는 것이 매우 일반적입니다. 따라서 데이터 마이닝의 정규화는 분석을 위해 데이터를 사전 처리하고 준비하는 것과 같습니다.
데이터 과학에 대해 자세히 알아보려면 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크숍 , 업계 전문가와의 멘토링, 1 - 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.
데이터 마이닝에서 정규화란 무엇을 의미합니까?
정규화는 -1.0에서 1.0 또는 0.0에서 1.0과 같이 더 좁은 범위에 속하도록 속성의 데이터를 조정하는 프로세스입니다. 일반적으로 분류 알고리즘에 유용합니다. 정규화는 일반적으로 다양한 규모의 특성을 다룰 때 필요합니다. 그렇지 않으면 더 큰 척도의 값을 갖는 다른 속성으로 인해 더 낮은 척도에서 동등하게 중요한 속성의 효율성을 희석시킬 수 있습니다. 즉, 많은 특성이 존재하지만 그 값이 다양한 척도에 있을 때 데이터 마이닝 활동을 수행할 때 데이터 모델이 부적절할 수 있습니다. 결과적으로 모든 특성이 동일한 척도에 놓이도록 정규화됩니다.
정규화의 다른 유형은 무엇입니까?
정규화는 생성하는 각 데이터베이스에 대해 따라야 하는 절차입니다. Normal Forms는 데이터베이스 아키텍처를 취하고 일련의 공식 기준과 규칙을 적용하는 행위를 말합니다. 정규화 프로세스는 다음과 같이 분류됩니다: 제1 정규형(1 NF), 제2 정규형(2 NF), 제3 정규형(3 NF), Boyce Codd 정규형 또는 제4 정규형( BCNF 또는 4 NF), 제5 정규형 (5 NF) 및 여섯 번째 정규형(6 NF)(6 NF).
최소-최대 정규화란 무엇입니까?
데이터를 정규화하는 가장 일반적인 방법 중 하나는 최소-최대 정규화입니다. 각 기능에 대해 최소값은 0으로 변환되고 가장 높은 값은 1로 변환되며 다른 모든 값은 0과 1 사이의 십진수로 변환됩니다. 예를 들어 특성의 최소값이 20이고 가장 높은 값은 40이었고, 30은 20과 40 사이의 중간이므로 약 0.5로 변환됩니다. 최소-최대 정규화의 한 가지 중요한 단점은 이상값을 잘 처리하지 못한다는 것입니다. 예를 들어 0에서 40 사이의 값이 99개 있고 그 중 하나가 100인 경우 99개의 값은 모두 0에서 0.4 사이의 값으로 변환됩니다.