데이터 과학 통계 기초 기초

게시 됨: 2018-02-27

데이터 과학자 지망생이라면 Statistics for Data Science 의 핵심 개념에 익숙합니다. 박사가 될 필요는 없습니다. 데이터 과학에서 두각을 나타내려면 통계학을 전공해야 하지만 저녁 파티에서 몇 가지 기본 알고리즘을 설명할 수 있을 만큼 충분히 알아야 합니다.

앞으로 데이터 과학을 위한 통계 기본 사항의 몇 가지 전제 조건을 안내해 드리겠습니다 .

데이터 과학의 세계에 막 입문했다면 데이터 과학의 전제 조건으로 "수학"을 말하는 사람들을 보았을 것입니다. 솔직히 말해서 수학 자체는 아니지만 데이터 과학 통계를 배워야 합니다.

요즘 Tensorflow와 같은 라이브러리는 거의 모든 복잡한 수학을 사용자에게 숨기고 있습니다. 우리에게도 좋지만 이러한 것들이 작동하는 기본 원칙에 대한 기본적인 이해를 갖는 것은 여전히 ​​좋습니다. 데이터 분석을 잘 이해하면 모든 것을 더 잘 이해할 수 있습니다.

이 기사는 데이터 과학자로서 당신의 대의에 도움이 될 뿐만 아니라 고급 통계 컴퓨팅의 큰 시간을 이수한 것처럼 들릴 수 있는 몇 가지 이론, 개념 및 방정식으로 무장하는 데 도움이 될 것입니다.

목차

통계 분포

이것은 데이터 과학을 위한 필수 조건 통계로 무장할 때 알아야 할 가장 중요한 것 중 하나일 것입니다.

  • 포아송 분포

    데이터 과학 통계 푸아송 분포는 통계에서 가장 필수적인 도구 중 하나입니다. 시간 간격에서 발생할 가능성이 있는 이벤트 수를 계산하는 데 사용됩니다. 예를 들어, 특정 기간에 발생할 가능성이 있는 전화 통화 수.
    이 방정식(λ)에서 재미있어 보이는 기호는 람다 로 알려져 있습니다 . 시간 간격당 발생하는 이벤트의 평균 수를 나타내는 데 사용됩니다.

    포아송 분포가 사용되는 또 다른 좋은 예는 제조 손실을 계산하는 것입니다. 기계가 금속판을 생산하고 야드당 X개의 결함이 있다고 가정합니다. 예를 들어 오류율이 시트 1야드당 2라고 가정하면 푸아송 분포를 사용하여 1야드에서 정확히 2개의 오류가 발생할 확률을 계산할 수 있습니다.

  • 이항 분포

    데이터 과학 통계
    기본 통계를 접한 적이 있다면 이항 분포를 접했을 수 있습니다.

    편견 없는 동전을 세 번 던지는 실험을 했다고 가정해 봅시다.
    동전을 세 번 던질 때 앞면이 나올 확률을 말할 수 있습니까?

    첫째, 기본 조합론에서 우리는 동전을 세 번 던졌을 때 8가지 가능한 결과 조합이 있음을 알 수 있습니다. 이제 0, 1, 2 또는 3개의 앞면이 있을 확률을 표시할 수 있습니다. 이 플롯은 이 문제에 필요한 이항 분포를 제공합니다. 그래프로 표시하면 일반적인 정규 분포 곡선과 매우 유사하게 보입니다. 이론상 둘 다 매우 유사합니다. 이항 분포가 이산 값(주전 던지기 횟수가 제한됨)인 반면 정규 분포는 연속 값을 처리합니다.

    위에서 이야기한 것 외에도 많은 배포판이 있습니다. 관심이 있고 Data Science에 필요한 통계로 더 잘 무장하고 싶다면 다음 배포판도 읽어보는 것이 좋습니다.

  • 기하학적 분포
  • 초기하 분포
  • 이산 균일 분포
  • 음의 이항 분포
탐색적 데이터 분석 및 비즈니스에 대한 중요성

일부 정리 및 알고리즘

데이터 과학을 위한 통계 에 대해 이야기할 때 데이터 과학자로서 작업하게 될 많은 라이브러리의 기초가 되는 기본 정리와 알고리즘을 무시할 수 없습니다. 분류 알고리즘, 클러스터링 알고리즘, 신경망 알고리즘, 결정 트리 등이 있습니다. 이 섹션에서 우리는 당신이 알아야 할 몇 가지 기본 정리에 대해 이야기할 것입니다. 또한 다른 복잡한 정리를 쉽게 이해하는 데 도움이 될 것입니다.

베이즈 정리

이것은 컴퓨터 공학에서 정규 교육을 받은 적이 있는 경우 접하게 되는 일반적인 이론 중 하나입니다. Bayes Theorem과 그 개념을 정교하게 과도하게 논의한 책이 수년 동안 많이 있었습니다.

Bayes Theorem은 복잡한 개념을 크게 단순화합니다. 몇 가지 간단한 변수를 사용하여 많은 통계적 사실을 설명합니다. " 조건부 확률 " 의 개념을 지원합니다 (예: A가 발생하면 B가 발생하는 역할을 함). 이것에 대해 가장 눈에 띄는 점은 주어진 데이터 포인트만 사용하여 모든 가설의 확률을 예측할 수 있다는 사실입니다.

Bayes는 나이를 아는 것만으로도 암에 걸릴 확률을 예측하는 데 도움이 될 수 있습니다. 또한 단어 수를 기반으로 이메일이 스팸인지 여부를 알려줄 수도 있습니다. 이 정리는 본질적으로 불확실성을 제거하는 데 사용됩니다.

재미있는 사실: Bayes Theorem은 2차 세계 대전에서 U-boat의 위치를 ​​예측하고 독일 코드를 번역하기 위한 Enigma 기계의 구성을 예측하는 데 도움이 되었습니다. 현대 데이터 과학에서도 Bayes는 많은 알고리즘에서 광범위한 응용 프로그램을 찾습니다.
데이터 웨어하우징 및 데이터 마이닝이란?

K-최근접이웃 알고리즘

데이터 과학 통계
이것은 이해와 구현 측면에서 매우 쉬운 알고리즘입니다. "게으른 알고리즘"이라고 할 정도로. 그 단순성은 통계의 어떤 기초보다 논리적 추론을 기반으로 한다는 사실 자체에 있습니다. 평신도 용어로 이 알고리즘은 서로 가장 가까운 그룹을 찾습니다.

K-NN은 유클리드 거리의 개념을 사용합니다. 지정된 초점 수와 그 주변의 로컬 그룹을 검색합니다. 그 숫자는 "k"로 표시됩니다. 'k'의 값은 사용자가 결정한 값이므로 얼마나 커야 하는지 알아내는 방법은 여러 가지가 있습니다.

이 개념은 기능 클러스터링, 기본 시장 세분화 및 데이터 항목 그룹에서 이상값을 찾는 데 유용합니다. 대부분의 최신 프로그래밍 언어는 단 두 줄의 코드로 K-NN 알고리즘을 구현합니다.

배깅(Bootstrap 집계)

배깅은 본질적으로 의사결정나무와 같은 단일 알고리즘의 두 개 이상의 모델을 만드는 것을 의미합니다. 각 모델은 다른 샘플 데이터(이것을 부트스트랩 샘플이라고 함)에 대해 학습됩니다.

따라서 각 의사 결정 트리는 서로 다른 샘플 데이터를 사용하여 만들어집니다. 이는 샘플 크기에 대한 과적합 문제를 해결합니다. 이와 같이 의사결정 트리를 그룹화하면 새 트리가 추가될 때마다 전체 분산이 감소하므로 기본적으로 총 오류를 줄이는 데 도움이 됩니다. 이러한 결정 트리의 백을 랜덤 포레스트라고 합니다.

Python으로 데이터 과학 시작하기

ROC 곡선 분석

데이터 과학 통계
ROC라는 용어는 수신기 작동 특성을 나타냅니다. ROC 분석 곡선은 데이터 과학에서 광범위하게 사용됩니다. 전체 감도 대 낙진율을 측정하여 테스트가 얼마나 잘 수행될 것인지 예측합니다. ROC 분석은 모든 모델의 실행 가능성을 결정할 때 매우 중요합니다.

어떻게 작동합니까?

기계 학습 모델이 일부 부정확한 예측을 제공할 수 있습니다. 그 중 일부는 특정 값이 'true'여야 했지만 대신 'false'로 설정되었거나 그 반대의 경우도 있기 때문입니다.

그렇다면 당신이 맞을 확률은 얼마입니까?

ROC 곡선을 사용하여 예측이 얼마나 정확한지 확인할 수 있습니다. 두 가지 다른 비유를 사용하여 임계값을 어디에 둘 것인지도 알 수 있습니다. 임계값은 이진 분류가 양수인지 음수인지(참 또는 거짓)을 결정하는 곳입니다.

두 비유가 서로 가까워질수록 곡선 아래의 면적은 0이 되는 경향이 있습니다. 이것은 본질적으로 모델이 부정확한 경향이 있음을 의미합니다. 면적이 클수록 모델의 정확도가 높아집니다. 이것은 모델이 올바른지 여부를 초기에 문제를 감지하는 데 도움이 되므로 모델링을 테스트할 때 사용되는 첫 번째 테스트 중 하나입니다.

ROC 곡선의 실제 예 – 특정 테스트 또는 테스트 조합에 대한 컷오프에 대한 임상 민감도와 특이성 간의 연결/상충 관계를 그래픽 방식으로 묘사하는 데 사용됩니다. 추가로 ROC 곡선 아래의 면적은 위에서 언급한 테스트를 사용할 때의 이점에 대한 공정한 아이디어를 제공합니다. 따라서 ROC 곡선은 적절한 컷오프를 선택하기 위해 생화학에서 광범위하게 사용됩니다. 이상적으로 가장 좋은 컷오프는 가장 낮은 거짓양성률과 가장 높은 참양성률을 함께 갖는 컷오프입니다.

데이터 분석으로 어떻게 전환할 수 있습니까?

데이터 과학에서 통계의 중요성

위의 논의를 통해 이제 통계의 기본 개념과 통계의 기초를 알았으므로 데이터 과학을 위한 통계 학습의 중요성에 대해 이야기해 보겠습니다. 데이터 분석을 위한 통계는 데이터를 구성하고 심층적인 통찰력을 찾고 데이터를 분석 및 수량화하는 중요한 도구와 기술을 제공합니다.

통계 기본 개념과 데이터 탐색, 분석, 모델링 및 표현에 대한 통계의 영향에 대한 개요를 제공했습니다. 또한 통계의 기본을 무시하면서 불일치가 있는 경우 문제에 표시합니다. 가장 빠르게 성장하는 산업에 참여하는 데 관심이 있다면 UpGrad의 웹사이트로 직접 방문하여 데이터 과학 통계 자습서를 따르십시오. 온라인 및 오프라인 과정을 동시에 제공합니다. 최소한 통계의 기초와 통계의 기초에서 게임을 에이스하면 취업 준비가 된 것입니다.

결론적으로…
위의 주제 목록은 통계에서 알아야 할 모든 것을 포괄적으로 나열한 것이 아닙니다. 이 목록은 데이터 과학 여정에서 마주할 수 있는 모든 것과 이에 대비할 수 있는 방법에 대한 정보를 제공하기 위한 것입니다.

전체적으로 이 기사에서는 데이터 과학 통계 의 핵심 개념 중 일부를 소개합니다 . 함께 설명된 개념을 깊이 이해하면 다른 개념을 쉽게 이해하는 데 도움이 됩니다. 더 자세히 알아보고 데이터 과학을 마스터하려면 최고의 온라인 데이터 과학 과정을 찾으십시오.

데이터 과학에서 통계의 중요성은 무엇입니까?

통계는 빅데이터의 구조를 식별하기 위한 기술과 도구를 제공할 뿐만 아니라 개인과 조직이 데이터에 의해 드러난 현실을 더 잘 이해할 수 있도록 분류 및 구성이 가능한 적절한 통계 방법을 사용하여 확률 분포 및 추정을 계산하는 데 도움이 됩니다. 이상과 경향을 찾아 데이터의 구조를 찾습니다. 통계는 또한 그래프와 네트워크를 사용하여 데이터 시각화 및 모델링에 도움이 됩니다. 변수의 영향을 받는 데이터 클러스터 또는 기타 구조를 식별하는 데 도움이 되며 모델의 가정 수를 줄여 보다 정확하고 유용하게 만듭니다.

데이터 과학에 필요한 통계의 핵심 기본 개념은 무엇입니까?

통계의 핵심 개념은 데이터 과학에 필수입니다. 다음은 데이터 과학 여정을 시작하는 데 도움이 되는 몇 가지 주요 개념입니다.

1. 확률(Probability) : 데이터 사이언스의 기초가 된다. 확률 이론은 예측을 공식화하는 데 매우 유용합니다. 데이터는 모든 확률과 통계의 기초입니다.
2. 샘플링: 데이터 샘플링은 더 큰 데이터 수집에서 패턴과 추세를 찾기 위해 대표적인 데이터 포인트 선택을 선택, 조작 및 분석하는 것과 관련된 통계 분석 기법입니다.
3. 데이터의 경향과 분포 : 데이터의 분포는 중요한 요소이다. 정규 분포와 같은 잘 알려진 분포의 의미는 엄청납니다. 결과적으로 데이터의 분포와 왜도를 결정하는 것은 중요한 개념입니다.
4. 가설검정 : 가설검정은 예상되는 결과에 따라 조치를 취해야 하거나 하지 말아야 할 상황을 식별합니다.
5. 변형: 데이터의 왜곡, 오류 및 이동을 나타냅니다.
6. 회귀 : 데이터 과학은 기존 솔루션의 이해와 새로운 혁신의 발견을 돕기 때문에 중요합니다.

통계는 데이터 과학에서 어떻게 사용됩니까?

데이터 과학자는 통계를 사용하여 기업이 더 나은 제품 결정을 내리고, 시험을 설계 및 해석하고, 판매를 주도하는 요인을 결정하고, 판매 동향 및 패턴을 예측하도록 돕습니다. 데이터 및 알고리즘 성능의 시각적 표현은 이상값, 특정 사소한 패턴 및 메트릭 요약을 찾는 데 도움이 됩니다.