확률 분포: 설명된 분포 유형
게시 됨: 2020-12-16목차
확률 및 확률 분포 소개
확률 분포를 이해하려면 먼저 확률이 무엇인지 이해해야 합니다. 확률은 실험에서 이벤트가 발생할 가능성을 측정한 것입니다. 간단히 말해서 이벤트가 발생할 가능성이 얼마나 되는지 알려줍니다. 이벤트가 발생할 확률 값의 범위는 0(가장 가능성 없음)에서 1(가장 가능성 있음)입니다.
확률 분포는 실험에 대한 다양한 결과의 확률을 제공하는 함수입니다. 랜덤 변수가 취할 수 있는 가능한 값과 이러한 값이 얼마나 자주 발생하는지 보여줍니다.
확률 분포에서 이러한 모든 확률의 합은 항상 1로 집계됩니다. 데이터 과학 영역에서 확률 분포의 용도 중 하나는 신뢰 구간을 계산하고 가설 검정에서 임계 영역을 계산하는 것입니다.
연속 및 이산 분포
사용할 확률 분포 유형은 변수에 불연속 값이 포함되어 있는지 연속 값이 포함되어 있는지 여부에 따라 다릅니다. 이산 분포는 제한된 값 집합만 사용할 수 있는 반면 연속 분포는 지정된 범위 내의 모든 값을 사용할 수 있습니다.
연속 분포는 특정 범위에 무한한 값이 있을 수 있고 각 값의 확률이 0이기 때문에 확률 밀도로 표현됩니다. 이산 분포의 경우 값의 수가 제한되어 있으므로 각 값에 대한 확률을 얻을 수 있습니다.
분포 유형 - 이산 분포
이항 분포
단일 시행의 결과 수가 2개에 불과한 분포 유형입니다. 각 시도는 다른 시도와 독립적입니다. 즉, 각 시행의 결과는 다른 시행의 결과에 영향을 미치지 않습니다. 이 실험에서 수행된 시도는 서로 동일합니다.

따라서 각 시도에 대해 성공 및 실패 확률이 동일합니다. 예를 들어 시도의 성공 확률이 0.8이면(실패 확률은 0.2임) 나머지 시도에서도 동일 합니다.
다중 명목 분포
이것은 결과 수가 2보다 클 수 있는 이항 분포의 일반화된 버전입니다. 이 분포의 다른 속성은 이항 분포의 속성과 유사합니다. 예를 들어, 공정한 주사위를 던질 때 이러한 시행이 서로 독립적이므로 각 결과의 확률이 모든 시행에 대해 동일할 것이라고 가정합니다.
베르누이 분포
이것은 이항 분포의 또 다른 변형입니다. 실험에서 수행된 시행의 수가 1(n = 1)인 이항 분포의 특수한 경우입니다. 시행이 한 번뿐이므로 일반적으로 성공 확률인 하나의 매개변수(p)만 사용하여 정의할 수 있습니다.
읽기: Python의 이항 분포
음의 이항 분포
음의 이항 분포의 다음 조건은 이항 분포와 다릅니다.
- 실험에서 수행되는 시도의 수는 고정되어 있지 않습니다.
- 확률 변수는 원하는 성공 횟수를 달성하는 데 필요한 시행 횟수를 나타냅니다.
이항 분포의 경우 확률 변수는 필요한 성공 횟수입니다. 즉, 얼마나 많은 트레일이 실패하더라도 성공 횟수에만 초점을 맞춥니다. 그러나 음의 이항 분포의 경우 성공 횟수를 달성하기 위해 몇 번 시행해야 하는지에 초점을 맞춥니다. 즉, 실패 횟수(음수)도 고려하므로 음의 이항 분포라고 합니다.
프로세스는 원하는 수의 성공에 도달할 때까지만 계속됩니다. 이로 인해 실험의 시행 횟수가 임의적입니다. 파스칼 분포라고도 합니다.
포아송 분포
포아송 분포는 같은 기간 동안 발생한 사건의 평균 수를 알고 있는 경우 특정 기간에 발생하는 이산적인 사건 수의 확률을 제공합니다. 이러한 이벤트는 독립적으로 발생하며 다른 이벤트에 영향을 미치지 않습니다. 이 분포를 구현하기 위해 발생률이 일정 기간 동안 일정하게 유지된다고 가정합니다.

이산 균일 분포
균일 분포에서 모든 결과의 확률은 동일합니다. 예를 들어, 공정한 주사위를 던졌을 때 1에서 6 사이의 결과가 나올 확률이 같다고 가정합니다. 이 분포의 확률 질량 함수는 1/n이며 여기서 n은 이산 값의 총 수입니다.
배포 유형 – 연속 배포
연속 균일 분포
분포의 균일성은 연속 값에도 적용될 수 있습니다. 지정된 범위 사이에서 확률 분포가 균일함을 나타냅니다. 그래프에 그릴 때의 모양 때문에 직사각형 분포라고도 합니다.
정규 분포
정규 분포(종 모양 곡선이라고도 함)는 평균의 양쪽 끝에서 대칭인 연속 분포 유형입니다. 일반적으로 표본의 절반은 평균의 왼쪽에 있고 나머지 절반은 오른쪽에 있음을 나타냅니다. 정규 분포의 경우 평균, 최빈값 및 중앙값이 동일합니다.
정규 분포 데이터는 일반적으로 경험적 규칙을 따릅니다. 경험적 규칙은 다음과 같이 표준 편차 및 평균의 관점에서 데이터의 확산을 보여줍니다.
- 랜덤 변수가 평균의 1 표준 편차 내에 속할 확률은 68%입니다.
- 랜덤 변수가 평균의 2 표준 편차 내에 포함될 확률은 95%입니다.
- 확률 변수가 평균의 3 표준 편차 내에 포함될 확률은 99.7%입니다.
T – 분포
정규 분포 와 유사 하지만 데이터의 극단값에 대한 확률이 더 높습니다. 이로 인해 평균에서 더 멀리 떨어진 값을 취하기 쉽습니다. 그래프에 그릴 때 곡선은 정규 분포 곡선보다 짧고 굵게 보입니다.
샘플의 크기가 작을 때 선호됩니다. 표본의 크기가 증가함에 따라 t-분포 곡선이 정규 분포 곡선처럼 보이기 시작합니다. 정규 분포 및 t-분포 공식은 계산하는 데 매우 복잡하고 시간이 많이 걸리므로 대신 Z-점수 및 T- 점수 값을 각각 계산합니다.
더 읽어보기: 초보자를 위한 13가지 흥미로운 데이터 구조 프로젝트 아이디어 및 주제
Chi – 제곱 분포
카이제곱 분포는 정규 분포에서 가져온 확률 변수의 제곱 합계의 분포입니다. 이 분포에 사용된 자유도는 정규 분포에서 가져온 변수의 수와 같습니다. 카이제곱 분포의 평균은 자유도의 수와 같습니다.

이 분포는 신뢰 구간 계산 및 가설 검정에 널리 사용됩니다. 감마 분포 의 특정한 경우입니다 . 또한 표본 데이터가 전체 모집단 을 잘 나타내는지 여부를 나타내는 데 도움이 되는 관찰된 분포에 대한 적합도 검정인 카이 제곱 검정에도 사용됩니다 .
결론
이 기사에서는 이산 및 연속 분포 유형의 몇 가지 예에 대한 개요를 제공했습니다. 이러한 서로 다른 분포는 서로 다른 목적을 수행하는 데 사용되며 각각 고유한 가정이 있습니다.
세계 최고의 대학에서 ML 과정 을 배우십시오 . 석사, 이그 제 큐 티브 PGP 또는 고급 인증 프로그램을 획득하여 경력을 빠르게 추적하십시오.
실제 상황에서는 이러한 분포의 가정이 충족되지 않을 수 있지만 이러한 분포는 조직의 중요한 결정을 내리는 데 도움이 됩니다.
기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.
이항 분포와 정규 분포를 구별하는 것은 무엇입니까?
이항 분포에서는 주어진 두 데이터 포인트 사이에 데이터 포인트가 없습니다. 이것은 이산 데이터 포인트를 특징으로 하는 정규 분포와 극명한 대조를 이룹니다. 정규 분포는 이항 분포와 달리 이산적이지 않습니다. 이항 분포는 발생 횟수가 유한하지만 정규 분포는 발생 횟수가 무한합니다. 그럼에도 불구하고 표본 크기가 충분히 크면 이항 분포의 형태가 정규 분포의 형태와 유사합니다.
이항 분포와 베르누이 분포를 구별하는 것은 무엇입니까?
사건의 단일 시행 결과는 베르누이 분포로 처리되지만 단일 사건의 여러 시행 결과는 이항 분포로 처리됩니다. 이벤트의 결과가 한 번만 요구되는 경우에는 베르누이 분포를 적용하지만, 결과가 여러 번 요구되는 경우에는 이항 분포를 사용합니다.
불확실성이 있을 때 확률 분포를 어떻게 사용할 수 있습니까?
확률 공간은 가능한 결과의 표본 공간과 각 이벤트의 가능성을 추정하는 확률 측정을 포함하는 실험에 대한 불확실성을 나타냅니다. 불확실성 분석에서 직사각형 분포는 가장 널리 사용되는 확률 분포입니다. 모든 결과는 직사각형 분포에서 발생할 가능성이 동일합니다. 불확실성 기여자를 표준 편차 등가로 변환하려면 값을 3의 제곱근으로 나누어야 합니다.