데이터 전처리 단계: 알아야 할 사항은 무엇입니까?

게시 됨: 2020-12-22

데이터 마이닝에는 원시 데이터를 추가로 분석하고 중요한 통찰력을 얻을 수 있는 유용한 정보로 변환하는 작업이 수반됩니다. 소스에서 얻은 원시 데이터는 종종 완전히 사용할 수 없는 복잡한 상태에 있을 수 있습니다. 이 데이터는 분석을 위해 전처리가 필요하며, 이에 대한 단계는 다음과 같습니다.

데이터 정리

데이터 정리는 데이터 마이닝에서 데이터 전처리 의 첫 번째 단계입니다 . 소스에서 직접 얻은 데이터에는 일반적으로 관련 없는 특정 행, 불완전한 정보 또는 악의적인 빈 셀이 있을 수 있습니다.

이러한 요소는 모든 데이터 분석가에게 많은 문제를 야기합니다. 예를 들어 분석가의 플랫폼이 요소를 인식하지 못하고 오류를 반환할 수 있습니다. 누락된 데이터가 있는 경우 데이터 행을 무시하거나 추세 또는 자체 평가에 따라 누락된 값을 채우려고 시도할 수 있습니다. 전자는 일반적으로 수행되는 것입니다.

그러나 '시끄러운' 데이터에 직면할 때 더 큰 문제가 발생할 수 있습니다. 데이터 분석 플랫폼이나 코딩 플랫폼에서 이해할 수 없을 정도로 난잡한 노이즈 데이터를 처리하기 위해 많은 기술이 활용됩니다.

데이터를 정렬할 수 있는 경우 노이즈를 줄이는 일반적인 방법은 '비닝' 방법입니다. 여기에서 데이터는 동일한 크기의 빈으로 나뉩니다. 그 후, 각 빈은 추가 분석을 수행하기 위해 평균값 또는 경계값으로 대체될 수 있습니다.

또 다른 방법은 회귀를 사용하여 데이터를 '평활화'하는 것입니다. 회귀는 선형 또는 다중일 수 있지만 동기는 추세를 볼 수 있을 정도로 데이터를 매끄럽게 만드는 것입니다. 세 번째 접근 방식인 또 다른 일반적인 접근 방식은 '클러스터링'으로 알려져 있습니다.

데이터 마이닝의 이 데이터 전처리 방법 에서 주변 데이터 포인트는 단일 데이터 그룹으로 클러스터링된 다음 추가 분석에 사용됩니다.

읽기: 기계 학습의 데이터 전처리

데이터 변환

데이터 마이닝 프로세스에서는 일반적으로 데이터가 매우 특정한 형식이나 구문으로 되어 있어야 합니다. 최소한 데이터는 데이터 분석 플랫폼에서 분석하고 이해할 수 있는 형식이어야 합니다. 이를 위해 데이터 마이닝의 변환 단계가 활용됩니다. 데이터를 변환할 수 있는 몇 가지 방법이 있습니다.

인기 있는 방법은 정규화입니다. 이 접근 방식에서는 데이터의 모든 포인트를 해당 필드의 가장 높은 데이터 값에서 뺀 다음 해당 필드의 데이터 범위로 나눕니다. 이것은 데이터를 임의의 숫자에서 -1과 1 사이의 범위로 줄입니다.

현재 형식의 데이터가 데이터 분석가에 의해 보다 단순한 속성 세트로 변환되는 속성 선택도 수행될 수 있습니다. 데이터 이산화는 데이터를 더 쉽게 이해할 수 있도록 간격 수준이 필드의 원시 값을 대체하는 덜 사용되는 컨텍스트별 기술입니다.

'개념 계층 생성'에서는 특정 속성의 각 데이터 포인트가 상위 계층 수준으로 변환됩니다. 데이터 마이닝의 데이터 변환에 대해 자세히 알아보세요.

데이터 축소

우리는 매일 수조 바이트와 데이터 행이 생성되는 세상에 살고 있습니다. 생성되는 데이터의 양은 나날이 증가하고 있으며, 이에 비해 데이터를 처리하기 위한 인프라는 같은 속도로 개선되지 않고 있습니다. 따라서 많은 양의 데이터를 처리하는 것은 시스템과 서버 모두에서 매우 어렵고 심지어 불가능할 수도 있습니다.

이러한 문제로 인해 데이터 분석가는 데이터 마이닝에서 데이터 사전 처리 의 일부로 데이터 축소를 자주 사용합니다 . 이는 다음 기술을 통해 데이터의 양을 줄이고 분석을 더 쉽게 만듭니다.

데이터 큐브 집계에서 '데이터 큐브'라는 요소는 엄청난 양의 데이터로 생성되며 큐브의 모든 계층은 요구 사항에 따라 사용됩니다. 큐브는 한 시스템이나 서버에 저장한 다음 다른 시스템에서 사용할 수 있습니다.

'속성 부분집합 선택'에서는 분석에 즉각적으로 중요한 속성만 선택하여 별도의 더 작은 데이터 세트에 저장합니다.

숫자 감소는 위에서 설명한 회귀 단계와 매우 유사합니다. 회귀 또는 기타 수학적 방법을 통해 추세를 생성하여 데이터 포인트 수를 줄입니다.

'차원 축소'에서 인코딩은 모든 데이터를 검색하면서 처리되는 데이터의 양을 줄이는 데 사용됩니다.

데이터가 점점 더 중요해질 것이라는 점을 고려하면 데이터 마이닝을 최적화하는 것이 필수적입니다. 데이터 마이닝에서 이러한 데이터 전처리 단계는 모든 데이터 분석가에게 유용합니다.

데이터 과학에 대해 자세히 알아보려면 IIIT-B & upGrad의 데이터 과학 PG 디플로마를 확인하세요. 이 PG 디플로마는 실무 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크숍, 업계 전문가와의 멘토링, 1- 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

세계 최고의 대학에서 데이터 과학 인증 을 받으십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 통해 경력을 빠르게 추적하십시오.

데이터 전처리란 무엇입니까?

어디에서나 많은 데이터를 사용할 수 있는 경우 데이터 분석을 부적절하게 조사하면 잘못된 결론이 나올 수 있습니다. 따라서 분석을 수행하기 전에 데이터의 표현과 품질이 우선되어야 합니다. 데이터 전처리는 어떤 목적으로 활용되기 전에 데이터를 변경하거나 제거하는 프로세스입니다. 이 프로세스는 성능을 보장하거나 향상시키며 데이터 마이닝 프로세스에서 중요한 단계입니다. 데이터 전처리는 일반적으로 특히 컴퓨터 생물학에서 기계 학습 프로젝트의 가장 중요한 측면입니다.

데이터 전처리가 필요한 이유는 무엇입니까?

실제 데이터는 대부분의 경우 불완전하기 때문에 데이터 전처리가 필요합니다. 즉, 일부 특성이나 값, 또는 둘 모두가 없거나 집계 정보만 액세스할 수 있고, 실수나 이상값으로 인해 시끄럽고, 코드, 이름 등의 변형. 따라서 데이터에 속성 또는 속성 값이 부족하고 노이즈 또는 이상값이 있고 중복되거나 잘못된 데이터가 포함된 경우 부정확한 것으로 간주됩니다. 이들 중 하나는 결과의 품질을 낮춥니다. 따라서 데이터의 불일치, 노이즈, 불완전성을 제거하여 데이터를 올바르게 분석하고 사용할 수 있도록 데이터 전처리가 필요합니다.

데이터 마이닝에서 데이터 전처리의 중요성은 무엇입니까?

데이터 마이닝에서 데이터 전처리의 뿌리를 찾을 수 있습니다. 데이터 전처리는 부재 값을 추가하고, 정보를 통합하고, 데이터를 분류하고, 궤적을 매끄럽게 하는 것을 목표로 합니다. 데이터 전처리를 사용하면 데이터 세트에서 바람직하지 않은 정보를 제거할 수 있습니다. 이 프로세스를 통해 사용자는 나중에 마이닝 단계에서 조작할 더 중요한 데이터가 포함된 데이터 세트를 갖게 됩니다. 데이터 마이닝과 함께 데이터 전처리를 사용하면 사용자가 데이터 세트를 편집하여 혼동 행렬에 포함된 정확한 수량자를 얻는 데 필수적인 데이터 손상 또는 사람의 실수를 수정하는 데 도움이 됩니다. 정확도를 높이기 위해 사용자는 데이터 파일을 결합하고 전처리를 활용하여 데이터에서 원치 않는 노이즈를 제거할 수 있습니다. 주성분 분석 및 기능 선택과 같은 보다 정교한 접근 방식은 데이터 전처리의 통계 공식을 사용하여 GPS 추적기 및 모션 캡처 장치에서 캡처한 대규모 데이터 세트를 분석합니다.