Распределение вероятностей: объяснение типов распределений

Опубликовано: 2020-12-16

Оглавление

Введение в вероятность и распределение вероятностей

Чтобы понять распределение вероятностей, давайте сначала поймем, что такое вероятность. Вероятность – это мера вероятности события, происходящего в эксперименте. Проще говоря, он говорит нам, насколько вероятно, что событие произойдет. Значение вероятности наступления события находится в диапазоне от 0 (наименее вероятно) до 1 (наиболее вероятно).

Распределение вероятностей — это функция, которая предоставляет вероятности различных исходов для экспериментов. Он показывает возможные значения, которые может принимать случайная величина, и как часто эти значения встречаются.

В распределении вероятностей сумма всех этих вероятностей всегда равна 1. В области науки о данных одно из применений распределения вероятностей — расчет доверительных интервалов и расчет критических областей при проверке гипотез.

Непрерывное и дискретное распределение

Тип используемого распределения вероятностей зависит от того, содержит ли переменная дискретные значения или непрерывные значения. Дискретное распределение может принимать только ограниченный набор значений, тогда как непрерывное распределение может принимать любое значение в пределах указанного диапазона.

Непрерывные распределения представлены с точки зрения плотности вероятности, поскольку в определенном диапазоне могут быть бесконечные значения, и вероятность каждого значения будет равна нулю. В случае дискретного распределения мы можем получить вероятность для каждого значения, поскольку количество значений ограничено.

Типы распределений — дискретное распределение

Биномиальное распределение

Это тип распределения, при котором количество исходов в одном испытании равно только двум. Каждое испытание не зависит от другого испытания; то есть результат каждого испытания не влияет на исход других испытаний. Испытания, которые проводятся в этом эксперименте, идентичны друг другу.

Таким образом, вероятность успеха и неудачи будет одинаковой для каждого испытания. Например, если вероятность успеха для испытания равна 0,8 (что означает, что вероятность неудачи будет равна 0,2), то она будет такой же и для остальных испытаний .

Многономинальное распределение

Это обобщенная версия биномиального распределения, в которой количество результатов может быть больше двух. Остальные свойства этого распределения аналогичны свойствам биномиального распределения. Например, рассмотрим случай, когда бросается правильная игральная кость, вероятность каждого исхода будет одинаковой для всех испытаний, поскольку эти испытания не зависят друг от друга.

Распределение Бернулли

Это еще один вариант биномиального распределения. Это особый случай биномиального распределения, когда количество испытаний, проведенных в эксперименте, равно 1 (n = 1). Поскольку существует только одно испытание, его можно определить, используя только один параметр (p), которым обычно является вероятность успеха.

Читайте: Биномиальное распределение в Python

Отрицательное биномиальное распределение

Следующие условия в отрицательном биномиальном распределении отличаются от биномиального распределения:

    • Количество испытаний, проводимых в эксперименте, не фиксируется.
    • Случайная величина указывает количество испытаний, необходимых для достижения желаемого количества успехов.

Для биномиального распределения случайной величиной является количество необходимых успехов, т.е. мы фокусируемся только на количестве успехов, независимо от того, сколько трасс терпит неудачу. Но в случае отрицательного биномиального распределения основное внимание уделяется тому, сколько испытаний потребуется для достижения количества успехов, т.е. также учитывается количество неудач (негативов), поэтому его называют отрицательным биномиальным распределением.

Процесс продолжается только до тех пор, пока не будет достигнуто желаемое количество успехов. Это приводит к тому, что количество испытаний для эксперимента является произвольным. Его также называют распределением Паскаля.

Распределение Пуассона

Распределение Пуассона обеспечивает вероятность дискретного количества событий, происходящих в определенный период времени, при условии, что мы знаем среднее количество событий, произошедших за тот же период. Эти события происходят независимо и не влияют на другие события. Для реализации этого распределения предполагается, что частота возникновения остается постоянной в течение периода времени.

Дискретное равномерное распределение

При равномерном распределении вероятности всех исходов равны. Например, рассмотрим, когда бросается правильная игральная кость, вероятность любого результата в диапазоне от 1 до 6 будет равной. Функция массы вероятности этого распределения равна 1/n, где n — общее количество дискретных значений.

Типы распределений — непрерывное распространение

Непрерывное равномерное распределение

Равномерность распределения может применяться и к непрерывным значениям. Это указывает на то, что распределение вероятностей является однородным в указанном диапазоне. Его также называют прямоугольным распределением из-за формы, которую оно принимает при нанесении на график.

Нормальное распределение

Нормальное распределение (также известное как колоколообразная кривая) — это тип непрерывного распределения, симметричного с обоих концов среднего значения. Обычно это указывает на то, что половина выборок лежит слева от среднего, а другая половина — справа. Для нормального распределения среднее значение, мода и медиана равны.

Нормально распределенные данные обычно подчиняются эмпирическому правилу. Эмпирическое правило показывает разброс данных с точки зрения стандартного отклонения и среднего значения следующим образом:

    • 68% вероятность того, что случайная величина находится в пределах 1 стандартного отклонения от среднего.
    • 95% вероятность того, что случайная величина находится в пределах 2 стандартных отклонений от среднего значения.
    • 99,7% вероятность того, что случайная величина находится в пределах 3 стандартных отклонений от среднего.

Т – Распределение

Оно похоже на нормальное распределение, но имеет более высокую вероятность по отношению к экстремальным значениям данных. Это делает его более склонным принимать значения, которые далеки от среднего. На графике кривая кажется короче и толще, чем кривая нормального распределения.

Предпочтительно, когда количество образцов меньше по размеру. С увеличением размера выборки кривая t-распределения начинает напоминать кривую нормального распределения. Поскольку формулы для нормального распределения и t-распределения очень сложны и требуют много времени для расчета, вместо этого мы вычисляем значения Z-показателя и Т-показателя соответственно.

Читайте также: 13 интересных идей и тем для проектов по структуре данных для начинающих

Чи – квадратное распределение

Распределение хи-квадрат — это распределение суммы квадратов случайных величин, взятых из нормального распределения. Степени свободы, используемые в этом распределении, равны количеству переменных, взятых из нормального распределения. Среднее значение распределения хи-квадрат равно количеству степеней свободы.

Это распределение широко используется при расчете доверительных интервалов и при проверке гипотез. Это частный случай гамма-распределения . Он также используется в тесте хи-квадрат, который представляет собой тест на соответствие для наблюдаемого распределения, который помогает определить, являются ли данные выборки хорошим представлением всей совокупности.

Заключение

В этой статье дан обзор нескольких примеров дискретных и непрерывных типов распределений. Эти разные дистрибутивы используются для разных целей, и у каждого есть свои предположения.

Изучите курс машинного обучения в лучших университетах мира. Заработайте программы Masters, Executive PGP или Advanced Certificate Programs, чтобы ускорить свою карьеру.

Хотя в реальных ситуациях допущения этих распределений могут не выполняться, они помогают в принятии важных для организации решений.

Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Чем отличается биномиальное распределение от нормального распределения?

В биномиальном распределении нет точек данных между любыми двумя заданными точками данных. Это резко контрастирует с нормальным распределением, которое имеет дискретные точки данных. Нормальное распределение не является дискретным, в отличие от биномиального распределения. Биномиальное распределение имеет конечное число вхождений, тогда как нормальное распределение имеет бесконечное число вхождений. Даже в этом случае, если размер выборки достаточно велик, форма биномиального распределения будет напоминать форму нормального распределения.

Чем отличается биномиальное распределение от распределения Бернулли?

Исход одного испытания события рассматривается с помощью распределения Бернулли, а результат нескольких испытаний одного события рассматривается с помощью биномиального распределения. Когда результат события требуется только один раз, применяется распределение Бернулли, но биномиальное распределение используется, когда результат требуется несколько раз.

Когда есть неопределенность, как мы можем использовать распределение вероятностей?

Вероятностное пространство — это представление нашей неопределенности в отношении эксперимента, которое включает выборочное пространство возможных результатов и вероятностную меру, которая оценивает вероятность каждого события. В анализе неопределенностей прямоугольное распределение является наиболее широко используемым распределением вероятностей. Все исходы равновероятны в прямоугольном распределении. Вам придется разделить ваши значения на квадратный корень из 3, чтобы преобразовать вклады вашей неопределенности в эквиваленты стандартного отклонения.