탐색적 데이터 분석 및 비즈니스에 대한 중요성

게시 됨: 2018-02-22

데이터 분석에 대한 대부분의 논의는 데이터 분석의 "과학" 측면을 다룹니다. 확실히, 알고리즘, 공식 및 계산과 같은 전체 프로세스 뒤에는 많은 과학이 있지만 "예술"을 제거할 수는 없습니다. 분석 계획에서 최종 결과 이해에 이르기까지 전체 프로세스를 구조화하는 것은 결코 쉬운 일이 아니며 하나의 예술 형식입니다. 그것이 바로 오늘의 주제인 탐색적 데이터 분석 아래에 있는 것입니다. 이 기사에서는 탐색적 데이터 분석이 무엇인지, 이를 위한 일반적인 도구와 기술이 무엇인지, 조직에 어떤 도움이 되는지 살펴보겠습니다.

목차

탐색적 데이터 분석이란 무엇입니까?

탐색적 데이터 분석은 데이터 분석 프로세스의 중요한 단계 중 하나입니다. 여기서 초점은 데이터 세트에 대한 올바른 질문 공식화, 필요한 답변을 얻기 위해 데이터 소스를 조작하는 방법 등과 같은 손에 있는 데이터를 이해하는 데 있습니다. 이는 시각적 방법을 사용하여 추세, 패턴 및 이상값을 자세히 살펴봄으로써 수행됩니다.
탐색적 데이터 분석
탐색적 데이터 분석은 데이터의 기계 학습 또는 모델링으로 넘어가기 전에 중요한 단계입니다. 적절한 모델을 개발하고 결과를 올바르게 해석하는 데 필요한 컨텍스트를 제공합니다.
데이터 조작: 데이터 거짓말을 어떻게 식별할 수 있습니까?

수년에 걸쳐 기계 학습이 증가하고 있으며 이는 여러 강력한 기계 학습 알고리즘을 탄생시켰습니다. 탐색적 데이터 분석 단계를 건너뛰고 싶을 정도로 강력합니다. 왜 그러한 알고리즘을 활용하고 EDA를 건너뛰고 싶은지 이해할 수 있지만, 블랙박스에 데이터를 입력하고 결과를 기다리는 것은 그다지 좋은 생각이 아닙니다. 탐색적 데이터 분석은 놓치기 쉬운 많은 중요한 정보, 즉 질문의 틀을 잡는 것부터 결과를 표시하는 것까지 장기적으로 분석에 도움이 되는 정보를 제공한다는 사실이 거듭 관찰되었습니다. 초보자이고 데이터 과학에 대해 더 자세히 알고 싶다면 최고의 대학에서 제공하는 데이터 과학 교육을 확인하십시오.

EDA의 측면은 분석할 데이터가 있는 한 존재해 왔지만 1970년대에 "Bit"(Binary Digit의 약자)라는 단어를 만든 동일한 과학자인 John Turkey가 탐색적 데이터 분석을 공식적으로 개발했습니다. EDA는 접근에 대한 엄격하고 빠른 규칙이 없기 때문에 종종 과학 이상의 철학으로 간주되고 설명됩니다. 탐색적 데이터 분석의 목적은 다음과 같은 특정 작업을 처리하는 데 필수적입니다.

    • 누락 및 오류 데이터 발견;

    • 데이터의 기본 구조 매핑 및 이해

    • 데이터세트에서 가장 중요한 변수 식별

    • 특정 모델과 관련된 가설 검증 또는 가정 확인

    • 간결한 모델 설정(최소 변수를 사용하여 데이터를 설명할 수 있는 모델)

  • 매개변수를 추정하고 오차 한계를 파악합니다.

탐색적 데이터 분석에 사용되는 도구 및 기법

S-Plus와 R은 탐색적 데이터 분석을 수행하는 데 사용되는 가장 중요한 통계 프로그래밍 언어입니다. 이러한 언어는 다음과 같은 특정 통계 기능을 수행하는 데 도움이 되는 다양한 도구와 함께 번들로 제공됩니다.

분류 및 차원 축소 기술

탐색적 데이터 분석
분류는 기본적으로 공통 매개변수/변수를 기반으로 서로 다른 데이터 세트를 그룹화하는 데 사용됩니다. 우리가 이야기하는 데이터는 다차원적이며, 다차원적 데이터셋에 대한 분류나 클러스터링을 수행하는 것은 쉽지 않습니다. 따라서 이를 돕기 위해 PCA 및 LDA와 같은 차원 축소 기술이 수행됩니다. 이러한 기술은 데이터의 중요한 정보를 잃지 않고 데이터 세트의 차원을 줄입니다.
심슨의 역설은 데이터에 어떤 영향을 미칩니까?

일변량 시각화

탐색적 데이터 분석
단변량 시각화는 기본적으로 요약 통계와 함께 원시 데이터 세트의 모든 필드에 대한 확률 분포입니다. 단변량 시각화는 그래픽 표현을 위해 빈도 분포 테이블, 막대 차트, 히스토그램 또는 파이 차트를 사용합니다.

이변량 시각화

탐색적 데이터 분석
이를 통해 데이터 과학자는 데이터 세트의 변수 간의 관계를 평가할 수 있으며 보고 있는 변수를 대상으로 지정할 수 있습니다. 이변량 분석에 적합한 그래프는 해당 변수의 유형에 따라 다릅니다. 예를 들어, 두 개의 연속 변수를 처리하는 경우 산점도를 그래프로 선택해야 합니다. 하나는 범주형이고 다른 하나는 연속형이면 상자 그림이 선호되고 두 변수가 모두 범주형이면 모자이크 그림이 선택됩니다.
데이터 보안 비즈니스가 급성장하고 있습니다!

다변수 시각화

탐색적 데이터 분석
다변수 시각화는 서로 다른 데이터 필드 간의 상호 작용을 이해하는 데 도움이 됩니다. 주어진 시간에 하나 이상의 통계적 결과 변수를 관찰하고 분석하는 것을 포함합니다.

K-평균 클러스터링

탐색적 데이터 분석
K-means 클러스터링은 기본적으로 가장 가까운 평균을 기반으로 각 클러스터에 대한 "중심"을 생성하는 데 사용됩니다. 클러스터가 반복으로 변경되지 않을 때까지 클러스터를 계속 생성하고 다시 생성하는 반복적인 기술입니다. 데이터 세트에서 이상값을 찾는 데 사용할 수 있습니다(클러스터의 형태가 아닌 점은 이상적으로는 이상값임).

예측 모델

탐색적 데이터 분석
이름에서 알 수 있듯이 예측 모델링은 통계를 사용하여 결과를 예측하는 방법입니다. 대부분의 예측은 미래에 일어날 일을 예측하는 것을 목표로 하지만 예측 모델링은 발생할 가능성이 있는 시기에 관계없이 알 수 없는 이벤트에도 적용할 수 있습니다. 예를 들어, 이 기술을 사용하여 범죄를 감지하고 범죄가 발생한 후에도 용의자를 식별할 수 있습니다. 예측 모델링을 수행하는 가장 일반적인 방법은 선형 회귀를 사용하는 것입니다(이미지 참조).
데이터 웨어하우징 및 데이터 마이닝이란?

탐색적 데이터 분석은 귀하의 비즈니스에 어떤 도움이 되며 어디에 적합합니까?

탐색적 데이터 분석은 과학자들이 산출한 결과가 올바르게 해석되고 필요한 비즈니스 컨텍스트에 적용되는지 이해하도록 도와줌으로써 모든 비즈니스에 최고의 가치를 제공합니다. 기술적으로 건전한 결과를 보장하는 것 외에도 탐색적 데이터 분석은 이해 관계자가 묻는 질문이 올바른지 여부를 확인함으로써 이해 관계자에게 이익이 됩니다. 탐색적 데이터 과학은 종종 예측할 수 없는 통찰력으로 나타납니다. 이해 관계자나 데이터 과학자는 일반적으로 조사하는 데 관심을 두지 않지만 비즈니스에 대해 여전히 매우 유익한 것으로 판명될 수 있습니다.
조직이 탐색적 데이터 분석을 비즈니스 인텔리전스 소프트웨어에 직접 통합하는 데 도움 이 되는 여러 데이터 커넥터 가 있습니다. BI 데이터를 사용하고 새 정보가 모델로 흘러갈 때 자동으로 업데이트되는 통계 모델을 (예를 들어) R에서 빌드 및 실행하여 데이터가 다른 방향으로도 흐르도록 설정할 수도 있습니다.
탐색적 데이터 분석의 잠재적 사용 사례는 광범위하지만 궁극적으로 모든 것은 이것으로 귀결됩니다. 탐색적 데이터 분석은 데이터에 대해 가정을 하거나 방향을 잡기 전에 데이터를 알고 이해하는 것입니다. 데이터 마이닝의. 부정확한 모델을 생성하거나 잘못된 데이터에 대한 정확한 모델을 구축하는 것을 방지하는 데 도움이 됩니다.
이 단계를 올바르게 수행하면 조직이 데이터에 대해 필요한 확신을 갖게 되며, 이는 결국 강력한 기계 학습 알고리즘 배포를 시작할 수 있게 해줍니다. 그러나 이 중요한 단계를 무시하면 매우 불안정한 기반 위에 비즈니스 인텔리전스 시스템을 구축할 수 있습니다.
데이터 분석을 비즈니스 결과에 연결하는 12가지 방법

결론적으로…
탐색적 데이터 분석은 지식 추출의 전체 과정에서 중요한 단계 중 하나입니다. 전체 분석 프로세스를 위한 강력한 기반을 설정하려면 EDA 단계에 모든 힘과 능력을 집중해야 합니다. 솔직히 말해서 이 단계에 성공하려면 약간의 통계가 필요합니다. 이 면에서 뒤처져 있다고 생각되면 데이터 과학에 필요한 통계의 기초에 대한 기사를 읽는 것을 잊지 마십시오.

세계 최고의 대학에서 온라인으로 데이터 과학 과정을 배우십시오. 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

파이썬을 배우는 데 관심이 있고 다양한 도구와 라이브러리에 손을 대고 싶다면 데이터 과학의 Executive PG Program을 확인하십시오. 아, 그리고 "탐색 데이터 분석"을 과학보다 예술로 간주하는 우리의 입장에 대해 어떻게 생각하십니까? 아래 의견에 알려주십시오!

데이터 과학자가 탐색적 데이터 분석을 사용하여 비즈니스를 개선해야 하는 이유는 무엇입니까?

탐색적 데이터 분석의 주요 목표는 가정을 하기 전에 데이터 분석을 지원하는 것입니다. 명백한 오류 감지, 데이터 패턴에 대한 더 나은 이해, 이상치 또는 예상치 못한 이벤트 감지, 변수 간의 흥미로운 상관 관계 발견에 도움이 될 수 있습니다.

데이터 과학자는 탐색적 분석을 사용하여 생성한 결과가 정확하고 원하는 비즈니스 결과 및 목표에 대해 수용 가능한지 확인할 수 있습니다. EDA는 또한 이해 관계자가 적절한 질문을 하고 있는지 확인하여 도움을 줍니다. 표준 편차, 범주형 변수 및 신뢰 구간은 모두 EDA로 답할 수 있습니다. EDA 완료 및 통찰력 추출 후, 그 기능은 기계 학습을 포함한 고급 데이터 분석 또는 모델링에 적용할 수 있습니다.

EDA의 가장 인기 있는 사용 사례는 무엇입니까?

데이터 과학자가 다른 유형의 모델링을 연결하기 전에 EDA를 사용하는 것은 드문 일이 아닙니다. 데이터 분석에서 이상값, 추세, 패턴 및 오류를 식별하기 위해 데이터 세트를 살펴보는 데 자주 사용됩니다. 예를 들어 EDA는 일반적으로 BI 도구와 전문가가 데이터를 분석하여 판매 동향, 상위 카테고리 등에 대한 통찰력을 발견하는 소매업에서 사용되며, EDA는 시장이나 산업의 새로운 동향을 식별하고 새로운 독감 시즌에 더 유행할 수 있는 독감, 환자 인구의 동질성 확인 등

탐색적 데이터 분석의 유형은 무엇입니까?

탐색적 데이터 분석의 유형은 다음과 같습니다.

1. 일변량 비그래픽: 일변량 비그래픽 EDA의 표준 목적은 표본 분포/데이터를 이해하고 모집단을 관찰하는 것입니다.
2. 일변량 그래픽 : 히스토그램, 줄기 및 잎 도표, 상자 도표 등
3. 다변수 비그래픽: 이 EDA 기술은 교차표 또는 통계를 사용하여 둘 이상의 데이터 변수 간의 관계를 나타냅니다.
4. 다변량 그래픽: 둘 이상의 데이터 유형 간의 관계를 그래픽으로 표현한 것이 다변량 데이터에 사용됩니다.