Wahrscheinlichkeitsverteilung: Arten von Verteilungen erklärt
Veröffentlicht: 2020-12-16Inhaltsverzeichnis
Einführung in die Wahrscheinlichkeit und Wahrscheinlichkeitsverteilung
Um die Wahrscheinlichkeitsverteilung zu verstehen, wollen wir zuerst verstehen, was Wahrscheinlichkeit ist. Die Wahrscheinlichkeit ist das Maß für die Wahrscheinlichkeit, dass ein Ereignis in einem Experiment eintritt. Vereinfacht gesagt sagt es uns, wie wahrscheinlich es ist, dass das Ereignis eintritt. Der Wert der Wahrscheinlichkeit des Eintretens eines Ereignisses reicht von 0 (am wenigsten wahrscheinlich) bis 1 (am wahrscheinlichsten).
Die Wahrscheinlichkeitsverteilung ist eine Funktion, die die Wahrscheinlichkeiten verschiedener Ergebnisse für Experimente bereitstellt. Es zeigt die möglichen Werte, die eine Zufallsvariable annehmen kann und wie oft diese Werte auftreten.
Bei der Wahrscheinlichkeitsverteilung summiert sich die Summe all dieser Wahrscheinlichkeiten immer zu 1. In der Data-Science-Domäne wird die Wahrscheinlichkeitsverteilung unter anderem zur Berechnung von Konfidenzintervallen und zur Berechnung der kritischen Regionen in den Hypothesentests verwendet.
Kontinuierliche und diskrete Verteilungen
Die Art der zu verwendenden Wahrscheinlichkeitsverteilung hängt davon ab, ob die Variable diskrete Werte oder kontinuierliche Werte enthält. Eine diskrete Verteilung kann nur einen begrenzten Satz von Werten annehmen, während kontinuierliche Verteilungen jeden Wert innerhalb des angegebenen Bereichs annehmen können.
Die kontinuierlichen Verteilungen werden als Wahrscheinlichkeitsdichte dargestellt, da es in einem bestimmten Bereich unendlich viele Werte geben kann und die Wahrscheinlichkeit jedes Werts null ist. Im Falle einer diskreten Verteilung können wir für jeden Wert eine Wahrscheinlichkeit erhalten, da die Anzahl der Werte begrenzt ist.
Arten von Ausschüttungen – Diskrete Ausschüttung
Binomialverteilung
Es ist eine Verteilungsart, bei der die Anzahl der Ergebnisse in einem einzelnen Versuch nur zwei beträgt. Jeder Versuch ist unabhängig von einem anderen Versuch; Das heißt, das Ergebnis jeder Studie hat keinen Einfluss auf das Ergebnis anderer Studien. Die Versuche, die in diesem Experiment durchgeführt werden, sind miteinander identisch.

Somit wäre die Erfolgs- und Misserfolgswahrscheinlichkeit für jeden Versuch gleich. Wenn zum Beispiel die Erfolgswahrscheinlichkeit für einen Versuch 0,8 beträgt (was bedeutet, dass die Wahrscheinlichkeit eines Scheiterns 0,2 wäre), dann gilt dies auch für die restlichen Versuche .
Multinominale Verteilung
Dies ist die verallgemeinerte Version der Binomialverteilung, bei der die Anzahl der Ergebnisse größer als zwei sein kann. Die anderen Eigenschaften dieser Verteilung ähneln denen der Binomialverteilung. Stellen Sie sich zum Beispiel vor, wenn ein fairer Würfel geworfen wird, ist die Wahrscheinlichkeit jedes Ergebnisses für alle Versuche gleich, da diese Versuche voneinander unabhängig sind.
Bernoulli-Verteilung
Dies ist eine weitere Variante der Binomialverteilung. Es handelt sich um einen Sonderfall der Binomialverteilung, bei dem die Anzahl der in einem Experiment durchgeführten Versuche 1 beträgt (n = 1). Da es nur einen Versuch gibt, kann er mit nur einem Parameter (p) definiert werden, der im Allgemeinen die Erfolgswahrscheinlichkeit ist.
Lesen Sie: Binomialverteilung in Python
Negative Binomialverteilung
Folgende Bedingungen bei einer negativen Binomialverteilung unterscheiden sich von der Binomialverteilung: –
- Die Anzahl der in einem Experiment durchgeführten Versuche ist nicht festgelegt.
- Die Zufallsvariable gibt die Anzahl der Versuche an, die erforderlich sind, um eine gewünschte Anzahl von Erfolgen zu erzielen.
Für die Binomialverteilung ist die Zufallsvariable die Anzahl der erforderlichen Erfolge, dh wir konzentrieren uns nur auf die Anzahl der Erfolge, egal wie viele Trails fehlschlagen. Im Falle einer negativen Binomialverteilung konzentriert es sich jedoch darauf, wie viele Versuche erforderlich sind, um die Anzahl der Erfolge zu erreichen, dh die Anzahl der Misserfolge (Negative) wird ebenfalls berücksichtigt, weshalb es sich um eine negative Binomialverteilung handelt.
Der Prozess wird nur fortgesetzt, bis die gewünschte Anzahl von Erfolgen erreicht worden ist. Dies führt dazu, dass die Anzahl der Versuche für ein Experiment willkürlich ist. Sie wird auch als Pascal-Verteilung bezeichnet.
Poisson-Verteilung
Die Poisson-Verteilung liefert die Wahrscheinlichkeit, dass eine diskrete Anzahl von Ereignissen in einem bestimmten Zeitraum auftritt, vorausgesetzt, wir kennen die durchschnittliche Anzahl von Ereignissen, die während desselben Zeitraums aufgetreten sind. Diese Ereignisse treten unabhängig voneinander auf und haben keine Auswirkungen auf andere Ereignisse. Zur Implementierung dieser Verteilung wird davon ausgegangen, dass die Häufigkeit des Auftretens über den Zeitraum konstant bleibt.

Diskrete gleichmäßige Verteilung
Bei der Gleichverteilung sind die Wahrscheinlichkeiten aller Ergebnisse gleich. Stellen Sie sich zum Beispiel vor, wenn ein fairer Würfel geworfen wird, ist die Wahrscheinlichkeit für jedes Ergebnis im Bereich von 1 bis 6 gleich. Die Wahrscheinlichkeitsmassenfunktion dieser Verteilung ist 1/n, wobei n die Gesamtzahl der diskreten Werte ist.
Arten von Ausschüttungen – Kontinuierliche Ausschüttung
Kontinuierliche Gleichverteilung
Die Gleichmäßigkeit in der Verteilung kann auch auf stetige Werte angewendet werden. Es zeigt an, dass die Wahrscheinlichkeitsverteilung innerhalb des angegebenen Bereichs einheitlich ist. Aufgrund der Form, die sie annimmt, wenn sie in einem Diagramm dargestellt wird, wird sie auch als rechteckige Verteilung bezeichnet.
Normalverteilung
Eine Normalverteilung (auch bekannt als Glockenkurve) ist eine Art kontinuierliche Verteilung, die von beiden Enden des Mittelwerts symmetrisch ist. Es zeigt im Allgemeinen an, dass die eine Hälfte der Stichproben auf der linken Seite des Mittelwerts liegt, während die andere Hälfte auf der rechten Seite liegt. Bei einer Normalverteilung sind Mittelwert, Modus und Median gleich.
Normalverteilte Daten folgen im Allgemeinen der empirischen Regel. Die empirische Regel zeigt die Streuung der Daten bezüglich Standardabweichung und Mittelwert wie folgt: –
- 68 % Wahrscheinlichkeit, dass die Zufallsvariable innerhalb einer Standardabweichung vom Mittelwert liegt.
- 95 % Wahrscheinlichkeit, dass die Zufallsvariable innerhalb von 2 Standardabweichungen vom Mittelwert liegt.
- Wahrscheinlichkeit von 99,7 %, dass die Zufallsvariable innerhalb von 3 Standardabweichungen vom Mittelwert liegt.
T – Verteilung
Sie ähnelt einer Normalverteilung, weist jedoch eine höhere Wahrscheinlichkeit gegenüber den Extremwerten der Daten auf. Dies macht es wahrscheinlicher, Werte anzunehmen, die weiter vom Mittelwert entfernt sind. In einem Diagramm dargestellt, erscheint die Kurve kürzer und dicker als die Normalverteilungskurve.
Es wird bevorzugt, wenn die Anzahl der Proben kleiner ist. Mit zunehmender Stichprobengröße erscheint die t-Verteilungskurve wie eine Normalverteilungskurve. Da die Formeln für Normalverteilung und t-Verteilung sehr komplex und zeitaufwändig zu berechnen sind, berechnen wir stattdessen die Werte von Z-Score bzw. T-Score .
Lesen Sie auch: 13 interessante Ideen und Themen für Datenstrukturprojekte für Anfänger
Chi – Quadratische Verteilung
Die Chi-Quadrat-Verteilung ist die Verteilung der Summe der Quadrate der Zufallsvariablen, die einer Normalverteilung entnommen wurden. Die in dieser Verteilung verwendeten Freiheitsgrade sind gleich der Anzahl der Variablen aus der Normalverteilung. Der Mittelwert einer Chi-Quadrat-Verteilung ist gleich der Anzahl der Freiheitsgrade.

Diese Verteilung wird häufig bei der Berechnung der Konfidenzintervalle und beim Testen von Hypothesen verwendet. Es ist ein spezieller Fall der Gammaverteilung . Es wird auch im Chi-Quadrat-Test verwendet, bei dem es sich um den Anpassungstest für die beobachtete Verteilung handelt, mit dem angezeigt werden kann, ob die Stichprobendaten eine gute Darstellung der gesamten Population darstellen.
Fazit
Dieser Artikel gab einen Überblick über einige Beispiele diskreter und kontinuierlicher Verteilungsarten. Diese unterschiedlichen Verteilungen werden für unterschiedliche Zwecke verwendet, und jede hat ihre eigenen Annahmen.
Lernen Sie ML-Kurse von den besten Universitäten der Welt. Erwerben Sie Master-, Executive PGP- oder Advanced Certificate-Programme, um Ihre Karriere zu beschleunigen.
Obwohl in realen Situationen die Annahmen dieser Verteilungen möglicherweise nicht erfüllt werden, helfen diese Verteilungen, wichtige Entscheidungen für die Organisation zu treffen.
Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.
Was unterscheidet die Binomialverteilung von der Normalverteilung?
Bei einer Binomialverteilung gibt es keine Datenpunkte zwischen zwei beliebigen Datenpunkten. Dies steht in krassem Gegensatz zu einer Normalverteilung, die diskrete Datenpunkte aufweist. Eine Normalverteilung ist im Gegensatz zur Binomialverteilung nicht diskret. Eine Binomialverteilung hat eine endliche Anzahl von Vorkommen, während eine Normalverteilung eine unendliche Anzahl von Vorkommen hat. Selbst dann, wenn der Stichprobenumfang groß genug ist, wird die Form der Binomialverteilung der der Normalverteilung ähneln.
Was unterscheidet die Binomialverteilung von der Bernoulli-Verteilung?
Das Ergebnis eines einzelnen Versuchs eines Ereignisses wird von der Bernoulli-Verteilung behandelt, aber das Ergebnis mehrerer Versuche eines einzelnen Ereignisses wird von der Binomialverteilung behandelt. Wenn das Ergebnis eines Ereignisses nur einmal benötigt wird, wird die Bernoulli-Verteilung angewendet, aber die Binomialverteilung wird verwendet, wenn das Ergebnis mehrmals benötigt wird.
Wie können wir bei Unsicherheit die Wahrscheinlichkeitsverteilung verwenden?
Ein Wahrscheinlichkeitsraum ist eine Darstellung unserer Unsicherheit über ein Experiment, das einen Stichprobenraum möglicher Ergebnisse und ein Wahrscheinlichkeitsmaß umfasst, das die Wahrscheinlichkeit jedes Ereignisses schätzt. In der Unsicherheitsanalyse ist die Rechteckverteilung die am weitesten verbreitete Wahrscheinlichkeitsverteilung. Alle Ergebnisse treten mit gleicher Wahrscheinlichkeit in einer Rechteckverteilung auf. Sie müssen Ihre Werte durch die Quadratwurzel von 3 dividieren, um Ihre Unsicherheitsbeiträge in Äquivalente der Standardabweichung umzuwandeln.
