4 Datentypen: Nominal, Ordinal, Diskret, Kontinuierlich

Veröffentlicht: 2020-12-01

Inhaltsverzeichnis

Einführung

Bei Data Science dreht sich alles um das Experimentieren mit rohen oder strukturierten Daten. Daten sind der Treibstoff, der ein Unternehmen auf den richtigen Weg bringen oder zumindest umsetzbare Erkenntnisse liefern kann, die dabei helfen können, aktuelle Kampagnen zu planen, die Einführung neuer Produkte einfach zu organisieren oder verschiedene Experimente auszuprobieren.

All diese Dinge haben eine gemeinsame treibende Komponente und das sind Daten. Wir treten in das digitale Zeitalter ein, in dem wir viele Daten produzieren. Beispielsweise produziert ein Unternehmen wie Flipkart täglich mehr als 2 TB an Daten.

Wenn diese Daten in unserem Leben so wichtig sind, wird es wichtig, sie richtig zu speichern und fehlerfrei zu verarbeiten. Beim Umgang mit Datensätzen spielt die Datenkategorie eine wichtige Rolle, um zu bestimmen, welche Vorverarbeitungsstrategie für einen bestimmten Datensatz geeignet ist, um die richtigen Ergebnisse zu erzielen, oder welche Art von statistischer Analyse für die besten Ergebnisse angewendet werden sollte. Lassen Sie uns in einige der häufig verwendeten Datenkategorien eintauchen.

Qualitativer Datentyp

Qualitative oder kategoriale Daten beschreiben das betrachtete Objekt unter Verwendung einer endlichen Menge diskreter Klassen. Dies bedeutet, dass diese Art von Daten nicht einfach mit Zahlen gezählt oder gemessen und daher in Kategorien eingeteilt werden können. Das Geschlecht einer Person (männlich, weiblich oder andere) ist ein gutes Beispiel für diesen Datentyp.

Diese werden normalerweise aus Audio-, Bild- oder Textmedien extrahiert. Ein weiteres Beispiel kann eine Smartphone-Marke sein, die Informationen über die aktuelle Bewertung, die Farbe des Telefons, die Kategorie des Telefons usw. bereitstellt. Alle diese Informationen können als qualitative Daten kategorisiert werden. Darunter gibt es zwei Unterkategorien:

Nominal

Dies sind die Werte, die keine natürliche Ordnung besitzen. Lassen Sie uns dies anhand einiger Beispiele verstehen. Die Farbe eines Smartphones kann als nominaler Datentyp betrachtet werden, da wir eine Farbe nicht mit anderen vergleichen können.

Es ist nicht möglich zu sagen, dass „Rot“ größer als „Blau“ ist. Das Geschlecht einer Person ist ein weiteres, bei dem wir nicht zwischen männlich, weiblich oder anderen unterscheiden können. Handy-Kategorien, ob Mittelklasse-, Budget-Segment oder Premium-Smartphone, sind ebenfalls nominelle Datentypen.

Lesen Sie: Karriere in der Datenwissenschaft

Ordinal

Diese Arten von Werten haben eine natürliche Ordnung, während sie ihre Werteklasse beibehalten. Wenn wir die Größe einer Bekleidungsmarke berücksichtigen, können wir sie leicht nach ihrem Namensschild in der Reihenfolge klein < mittel < groß sortieren. Das Notensystem bei der Bewertung von Kandidaten in einem Test kann auch als ordinaler Datentyp betrachtet werden, bei dem A+ definitiv besser ist als B-Note.

Diese Kategorien helfen uns bei der Entscheidung, welche Kodierungsstrategie auf welche Art von Daten angewendet werden kann. Die Datencodierung für qualitative Daten ist wichtig, da maschinelle Lernmodelle diese Werte nicht direkt verarbeiten können und in numerische Typen konvertiert werden mussten, da die Modelle mathematischer Natur sind.

Für den nominellen Datentyp, bei dem es keinen Vergleich zwischen den Kategorien gibt, kann eine One-Hot-Codierung angewendet werden, die der binären Codierung ähnlich ist, wenn man bedenkt, dass es eine geringere Anzahl gibt, und für den ordinalen Datentyp kann eine Etikettencodierung angewendet werden, die eine Form einer Ganzzahl ist Codierung.

Quantitativer Datentyp

Dieser Datentyp versucht, Dinge zu quantifizieren, und er tut dies, indem er numerische Werte berücksichtigt, die ihn in der Natur zählbar machen. Der Preis eines Smartphones, der angebotene Rabatt, die Anzahl der Bewertungen für ein Produkt, die Frequenz des Prozessors eines Smartphones oder der Arbeitsspeicher dieses bestimmten Telefons, all diese Dinge fallen unter die Kategorie der quantitativen Datentypen.

Das Wichtigste ist, dass es eine unendliche Anzahl von Werten geben kann, die ein Feature annehmen kann. Beispielsweise kann der Preis eines Smartphones von x bis zu einem beliebigen Wert variieren und anhand von Bruchwerten weiter aufgeschlüsselt werden. Die zwei Unterkategorien, die sie eindeutig beschreiben, sind:

Diskret

Die Zahlenwerte, die darunter fallen, sind Ganzzahlen oder ganze Zahlen werden dieser Kategorie zugeordnet. Die Anzahl der Lautsprecher im Telefon, Kameras, Kerne im Prozessor, die Anzahl der unterstützten Sims, all dies sind einige Beispiele für den diskreten Datentyp.

Kontinuierlich

Die Bruchzahlen werden als fortlaufende Werte betrachtet. Dies können die Betriebsfrequenz der Prozessoren, die Android-Version des Telefons, die WLAN-Frequenz, die Temperatur der Kerne usw. sein.

Muss gelesen werden: Data Scientist Gehalt in Indien

Können sich ordinaler und diskreter Typ überschneiden?

Wenn Sie darauf achten, können Sie den Ordnungsklassen eine Nummer geben, und dann sollte es als diskreter Typ oder Ordnungszahl bezeichnet werden? Die Wahrheit ist, dass es immer noch ordinal ist. Der Grund dafür ist, dass selbst wenn die Nummerierung erfolgt ist, sie nicht die tatsächlichen Abstände zwischen den Klassen wiedergibt.

Betrachten Sie zum Beispiel das Bewertungssystem eines Tests. Die jeweiligen Noten können A, B, C, D, E sein, und wenn wir sie von Anfang an nummerieren, wären es 1,2,3,4,5. Gemäß den numerischen Unterschieden ist der Abstand zwischen der E-Klasse und der D-Klasse jetzt derselbe wie der Abstand zwischen der D- und der C-Klasse, was nicht sehr genau ist, da wir alle wissen, dass die C-Klasse im Vergleich zur E-Klasse immer noch akzeptabel ist, aber die Mitte Unterschied erklärt sie für gleich.

Sie können die gleiche Technik auch auf ein Umfrageformular anwenden, in dem die Benutzererfahrung auf einer Skala von sehr schlecht bis sehr gut aufgezeichnet wird. Die Unterschiede zwischen den verschiedenen Klassen sind nicht eindeutig und können daher nicht direkt quantifiziert werden.

Verschiedene Tests

Wir haben alle wichtigen Klassifikationen von Daten besprochen. Dies ist wichtig, da wir jetzt die Tests priorisieren können, die in verschiedenen Kategorien durchgeführt werden sollen. Jetzt ist es sinnvoll, für quantitative Daten ein Histogramm oder ein Häufigkeitsdiagramm und für qualitative Daten ein Tortendiagramm und ein Balkendiagramm zu zeichnen.

Eine Regressionsanalyse, bei der die Beziehung zwischen einer abhängigen und zwei oder mehr unabhängigen Variablen analysiert wird, ist nur für quantitative Daten möglich. Der ANOVA-Test (Varianzanalyse) ist nur auf qualitative Variablen anwendbar, obwohl Sie einen zweiseitigen ANOVA-Test anwenden können, der eine Messvariable und zwei nominale Variablen verwendet.

Auf diese Weise können Sie den Chi-Quadrat-Test auf qualitative Daten anwenden, um Beziehungen zwischen kategorialen Variablen zu entdecken.

Fazit

In diesem Artikel haben wir besprochen, wie die von uns produzierten Daten den Spieß auf den Kopf stellen können, wie die verschiedenen Datenkategorien je nach Bedarf angeordnet werden. Wir haben uns auch angesehen, wie sich ordinale Datentypen mit den diskreten Datentypen überschneiden können.

Welche Art von Diagramm für welche Datenkategorie geeignet ist, wurde ebenfalls diskutiert, zusammen mit verschiedenen Arten von Tests, die auf bestimmte Datentypen angewendet werden können, und anderen Tests, die alle Arten von Daten verwenden.

Wenn Sie neugierig darauf sind, Data Science zu lernen, um an der Spitze des rasanten technologischen Fortschritts zu stehen, sehen Sie sich die Advanced Certification in Data Science von upGrad & IIIT-B an

Warum ist Data Science wichtig?

Die Bedeutung der Datenwissenschaft liegt in der Tatsache, dass sie Fachkenntnisse in Programmierung, Mathematik und Statistik zusammenführt, um neue Erkenntnisse zu gewinnen und große Datenmengen zu verstehen. Für Unternehmen ist Data Science eine bedeutende Ressource, um datengetriebene Entscheidungen zu treffen, da es das Sammeln, Speichern, Sortieren und Auswerten von Daten beschreibt. Sehr erfahrene Computerexperten verwenden es häufig. Wenn wir uns fragen, warum Data Science so wichtig ist, lautet die Antwort, weil der Wert von Daten weiter zunimmt. Data Science ist sehr gefragt, weil sie zeigt, wie digitale Daten Organisationen verändern und sie in die Lage versetzen, fundiertere und wesentliche Entscheidungen zu treffen.

Was ist der Anwendungsbereich von Data Science?

Data Science ist heutzutage fast überall zu finden. Dazu gehören Online-Transaktionen wie Amazon-Käufe, Social-Media-Feeds wie Facebook/Instagram, Netflix-Empfehlungen und sogar die Finger- und Gesichtserkennungsfunktionen von Smartphones. Data Science umfasst zahlreiche hochmoderne technologische Ideen wie künstliche Intelligenz, das Internet der Dinge (IoT) und Deep Learning, um nur einige zu nennen. Die Wirkung von Data Science hat aufgrund ihrer Fortschritte und technischen Fortschritte dramatisch zugenommen und ihren Anwendungsbereich erweitert. Wenn Sie Data Science lernen, können Sie Ihr Berufsprofil aus vielen Optionen auswählen, und die meisten dieser Jobs sind gut bezahlt. Einige dieser Berufsprofile sind Datenanalyst, Datenwissenschaftler, Dateningenieur, Wissenschaftler und Ingenieur für maschinelles Lernen, Business Intelligence-Entwickler, Datenarchitekt, Statistiker usw.

Wie unterscheiden sich Nominaldaten von Ordinaldaten?

Nominaldaten umfassen Namen oder Merkmale, die zwei oder mehr Kategorien enthalten, und die Kategorien haben keine inhärente Reihenfolge. Mit anderen Worten, diese Arten von Daten haben keine natürliche Rangordnung oder Reihenfolge. Ein ordinaler Datentyp ähnelt einem nominalen, aber der Unterschied zwischen den beiden ist eine offensichtliche Reihenfolge in den Daten. Insgesamt haben ordinale Daten eine gewisse Ordnung, nominale Daten jedoch nicht. Alle Rangdaten, wie die Likert-Skalen, die Bristol-Stuhl-Skalen und alle anderen Skalen, die zwischen 0 und 10 bewertet werden, können mithilfe von Ordinaldaten ausgedrückt werden.