Beste Datensätze für Machine-Learning-Projekte: Alles, was Sie wissen müssen
Veröffentlicht: 2020-03-20Inhaltsverzeichnis
Einführung
Maschinelles Lernen ist eine der leistungsstärksten Technologien, die heute verwendet werden. Es ist ein sehr wichtiger Zweig der künstlichen Intelligenz, der verwendet wird, um Computer intelligenter zu machen und ihnen die Fähigkeit zu geben, ohne menschliches Eingreifen zu lernen. Das macht maschinelles Lernen zu einem unverzichtbaren Werkzeug für den Umgang mit Daten. Da Daten buchstäblich überall verwendet werden, von Geschäftsentscheidungen bis hin zur Kuratierung von Kundenerlebnissen, erleichtert maschinelles Lernen die Erkennung der in diesen riesigen Datensätzen verborgenen Muster.
Am wichtigsten ist, dass diese Datensätze eine Möglichkeit bieten, riesige Mengen an Rohdaten zu organisieren. Unter Verwendung dieser Datensätze werden Programme geschrieben, um Anwendungen zu erstellen, die den Geschäftsbetrieb vereinfachen. In diesem Artikel lernen wir die verschiedenen Datensätze für maschinelles Lernen kennen .
Aber bevor wir darauf eingehen, lassen Sie uns zunächst die Grundlagen des maschinellen Lernens verstehen.
Was ist maschinelles Lernen?
Maschinelles Lernen ist für die Stromversorgung Ihrer beliebtesten Plattformen wie Netflix, Facebook, Twitter, YouTube, Spotify, Google und Baidu verantwortlich. Sogar Sprachassistenten wie Alexa und Siri wählen Ihre Lieblingssongs aus, um maschinelles Lernen zu nutzen! Alle diese Plattformen versuchen, die mit Ihnen verbundenen Daten zu verwenden. Dazu gehören Ihre Suchanfragen, Klicks, Ihre Aufrufe, die von Ihnen geteilten Bilder, Kommentare, Reaktionen und Beiträge. Erfahren Sie mehr über die Top-Anwendungen für maschinelles Lernen.
Maschinelles Lernen nutzt diese Daten, um sich ein Bild von Ihren Vorlieben zu machen. Zum Beispiel verwendet Netflix es, um eine TV-Serie vorzuschlagen, die Ihnen gefallen könnte, basierend auf den von Ihnen gesehenen. Sogar Plattformen wie Amazon verwenden maschinelles Lernen, um Ihre Produkte basierend auf Ihrer bisherigen Kaufhistorie vorzuschlagen.
Das wichtigste Segment des Marktes für maschinelles Lernen ist Deep Learning, das bis 2025 bis zu 1 Milliarde erreichen könnte.

Scheint interessant? Lassen Sie uns in die technischen Einzelheiten des Themas einsteigen.
Kategorien des maschinellen Lernens
Maschinelles Lernen wird grob in drei Bereiche unterteilt: überwachtes, unüberwachtes Lernen und bestärkendes Lernen .
Überwachtes Lernen
Dabei lernt der Computer aus einem Datensatz namens Trainingsdaten . Auf dieser Grundlage wird sie Entscheidungen treffen und zukünftige Ergebnisse vorhersagen. Sie werden später mehr über Trainingsdatensätze für maschinelles Lernen erfahren . Hier wird das System mit Eingabe-Ausgabe-Paaren gefüttert, und während der Arbeit mit diesen Paaren lernt es, wie sie aufeinander abgebildet werden. Es ist, als hätte man eine Reihe von Fragen, denen die richtigen Antworten zugeordnet sind.
Wenn das System oder der Algorithmus die Beziehung zwischen den Eingabe-Ausgabe-Paaren lernt, kann es die Ausgabe vorhersagen, wenn ihm eine neue Eingabe bereitgestellt wird. Erfahren Sie mehr über die Arten des überwachten Lernens.
Unbeaufsichtigtes Lernen
Dabei sucht der Computer selbstständig in Datensätzen nach versteckten Mustern. Es arbeitet an komplizierten Aufgaben und entdeckt Ergebnisse selbst. Erfahren Sie mehr über unbeaufsichtigtes Lernen.
Verstärkungslernen
Dieser maschinelle Lernprozess verwendet eine Trial-and-Error-Methode, um die Lösung für ein Problem zu ermitteln. Die Ausgabe des Programms hängt also von der aktuellen Eingabe ab, die ihm bereitgestellt wird.
Nachdem Sie nun ein grundlegendes Verständnis des maschinellen Lernens haben, gehen wir zu den Datensätzen über.
Was sind Datensätze für maschinelles Lernen?
Ein Datensatz ist, wie der Name schon sagt, eine Sammlung von Daten . Es können die Daten einer einzelnen Datenbank sein, wobei eine Variable zur Darstellung der Spalten verwendet wird. Die Zeilen dieser Tabelle können durch ein Mitglied dieses bestimmten Datensatzes dargestellt werden.
Die Vorbereitung von Datensätzen für maschinelles Lernen ist wichtig. Dies liegt daran, dass die Algorithmen mit rohen oder unstrukturierten Daten nicht richtig arbeiten können. Ein geeigneter Datensatz ist erforderlich, um die Probleme zu lösen und Entscheidungen zu treffen. Beispielsweise verfügt eine Wetteranwendung möglicherweise nicht über den richtigen Datensatz mit den Klimadaten der letzten Tage oder Wochen. Daher wird es keine genauen Wettervorhersagen für die kommende Woche liefern können.
Ohne geeignete Datensätze für maschinelles Lernen wird das maschinelle Lernprojekt daher auch mit ausgebildeten Datenwissenschaftlern nicht erfolgreich sein.
Datensätze für maschinelles Lernen werden zum Erstellen von Modellen für maschinelles Lernen verwendet . Diese Modelle stellen ein reales Problem unter Verwendung eines mathematischen Ausdrucks dar. Um ein solches Modell zu generieren, muss man ihm einen Datensatz zum Lernen und Arbeiten zur Verfügung stellen.
Die Arten von Datensätzen, die beim maschinellen Lernen verwendet werden, sind wie folgt:
1. Trainingsdatensatz
Dies ist vielleicht der wichtigste unter den Datensätzen für maschinelles Lernen. Es wird einem maschinellen Lernalgorithmus zugeführt, um ein Modell zu erstellen. Der Algorithmus sucht nach Datenmustern, um Eingabevariablen zu identifizieren. Dies wird ihm helfen, sein endgültiges Ziel oder die gewünschte Leistung zu erreichen. Die Ausgabe dieses Datensatzes ist ein maschinelles Lernmodell, das Sie zum Vorhersagen von Ergebnissen verwenden können.
Etwa 60 % des Datensatzes wird von einem Trainingsdatensatz eingenommen.
2. Validierungsdatensatz
Ein Validierungsdatensatz wird in der Validierungsphase verwendet, während ein maschinelles Lernprojekt erstellt wird. Diese Phase kommt direkt nach dem Training. Dieser Datensatz ist wichtig, um das Machine-Learning-Modell zu evaluieren. Machine-Learning-Ingenieure verwenden dieses Set, um die Hyperparameter des Modells zu optimieren und anzupassen. Diese Hyperparameter sind Parameter, die Werte haben, bevor das Programm mit dem Lernen beginnt.
Ihre Werte können aus den Daten nicht geschätzt werden. Beispielsweise können Hyperparameter die Tiefe eines Baums oder eine Anzahl unentdeckter Schichten in einem neuronalen Netzwerk umfassen.
Laut den berühmten Schriftstellern Max Kuhn und Kjell Johnson muss „ein Datenmodell anhand von Beispielen bewertet werden, die nicht für seine Erstellung oder Anpassung verwendet wurden. Dadurch erhalten Sie ein unvoreingenommenes Ergebnis der Wirksamkeit des Modells. Wenn Sie mit einer großen Datenmenge arbeiten, ist es am besten, einige Datenstichproben zur Auswertung beiseite zu legen. Das Trainingsset ist das Muster, das zum Erstellen des Modells verwendet wird, während die Validierungs- und Testmuster zum Analysieren seiner Leistung verwendet werden.“
3. Testdatensatz
Die Testdatensätze für maschinelles Lernen werden verwendet, um zu verstehen, wie das maschinelle Lernmodell in Zukunft funktionieren wird. Anhand dieses Datensatzes können Sie nachvollziehen, wie genau Ihr Datenmodell ist. Einfach ausgedrückt sagt Ihnen dieser Datensatz, wie viel Ihr Datenmodell aus dem Trainingssatz gelernt hat.
Diese Sätze nehmen 20 % der Daten ein. Der Satz enthält Eingabevariablen zusammen mit verifizierten Ausgaben. In Machine-Learning-Projekten verwenden wir jedoch im Allgemeinen keinen Trainingsdatensatz in der Testphase. Dies liegt daran, dass der Algorithmus die erwartete Ausgabe kennt, da er zuvor aus diesem Datensatz gelernt hat.
Nach der Testphase wird das Datenmodell in der Regel nicht mehr angepasst. Dies liegt daran, dass eine weitere Anpassung zu einer Überanpassung führen kann . Überanpassung tritt auf, wenn ein Datenmodell mit zu vielen Daten trainiert wird. In diesem Fall beginnt das Modell aus den ungenauen Dateneinträgen im gegebenen Datensatz zu lernen. Infolgedessen funktioniert es bei neuen Datensätzen nicht richtig. Es ist, als würde man versuchen, in übergroße Jeans zu passen, wenn man es nicht kann!
Damit das maschinelle Lernmodell jedoch erfolgreich funktioniert, müssen Sie ihm einen guten Datensatz zur Verfügung stellen. Ohne Datensätze für maschinelles Lernen wird der Algorithmus die Probleme nicht lernen und lösen können. Wenn Sie beispielsweise nicht über die richtigen Bücher und Ressourcen verfügen, können Sie den gewünschten Test nicht bestehen.

Datensätze für maschinelles Lernen vorbereiten
Lassen Sie uns herausfinden, welche Schritte zum Erstellen von Datensätzen für maschinelles Lernen erforderlich sind .
Datensammlung
Der erste Schritt besteht darin, alle relevanten Daten zu sammeln, die Sie möglicherweise für Ihr maschinelles Lernmodell benötigen. Die Datenmenge hängt von der Komplexität des maschinellen Lernprojekts ab . Ein einfaches Projekt benötigt weniger Daten als ein kompliziertes. Sie müssen also alles bestimmen, was Sie tatsächlich benötigen, um das vorliegende Problem zu lösen.
Daten lassen sich leicht durch die Beantwortung der folgenden Fragen erheben:
- Welche Art von Daten stehen Ihnen für das Projekt zur Verfügung?
- Welche Daten sind nicht verfügbar, die Sie für das Projekt benötigen? – Dies kann bestimmte Datenbanken oder Daten umfassen, die in Cloud-Systemen gespeichert sind. Möglicherweise müssen Sie diese Daten ableiten.
- Welche Daten können Sie aus den vorhandenen Daten entfernen? Das bedeutet, dass Sie die unerwünschten Daten löschen, die für Ihr Projekt irrelevant sind.
Wenn Sie die Antworten auf all diese Fragen haben, können Sie damit beginnen, Daten aus verschiedenen Quellen zu sammeln. Dies können Textdateien, .csv-Dateien, verschachtelte Datenstrukturen in JSON- und XML-Dateien und Daten-Repositories sein.
Jetzt können Sie mit dem nächsten Schritt beim Erstellen von Datensätzen für maschinelles Lernen fortfahren .
Datenvorverarbeitung
Jetzt, wo Sie alle Daten haben, die Sie brauchen, müssen Sie sie für Ihr Modell richtig verarbeiten. Die Vorverarbeitungsmethode besteht darin, Rohdatensätze in aussagekräftige Datensätze umzuwandeln, die verwendbar sind. Der Prozess besteht aus den folgenden drei Schritten:
Formatierung
Die Rohdaten, die Sie gesammelt haben, haben oft kein Format, das für Ihr maschinelles Lernmodell geeignet ist. Es kann sich in einer JSON-Datei oder einer relationalen Datenbank befinden. Sie müssen diese Daten je nach Bedarf in eine Textdatei oder eine .csv-Datei konvertieren.
Reinigung
Dies ist der Prozess, bei dem Sie fehlende und unerwünschte Daten aus Ihrem Datensatz korrigieren und entfernen. Diese Dateninstanzen helfen möglicherweise nicht, das Problem zu lösen. Darüber hinaus können einige der Attribute vertrauliche Informationen enthalten, die Sie möglicherweise ausblenden oder vollständig entfernen müssen. Dadurch werden Ihre Datensätze für maschinelles Lernen aussagekräftiger.
Probenahme
Möglicherweise haben Sie viel mehr Daten gesammelt, als Sie eigentlich für das Projekt benötigen. Große Datensätze verbrauchen viel Speicherplatz. Sie verursachen auch längere Laufzeiten und viel mehr Rechenaufwand, wenn sie einem maschinellen Lernalgorithmus zugeführt werden. Um diese Probleme zu vermeiden, müssen Sie kleinere Stichproben der ausgewählten Daten erstellen, die Ihr Modell problemlos verwenden kann. Dieser Vorgang wird als Probenahme bezeichnet .
Feature-Engineering
Hier wird der Datensatz analysiert, um die besten Merkmale und Muster zu bestimmen, die bei der Lösung des Problems und der Erstellung von Vorhersagen helfen. In diesem Prozess können also einige der Daten aus einem großen Datensatz entfernt werden. Der Fokus liegt auf den wichtigsten Merkmalen, die zum Modell passen.
Daten können in kleine Teile zerlegt werden, um die entscheidenden Merkmale zu identifizieren. Beispielsweise können Verkaufsdaten eines bestimmten Jahres in Monate und Wochentage aufgeschlüsselt werden. Auf diese Weise ist die Analyse der Verkaufsleistung einfacher und schneller. Dies hilft auch dem maschinellen Lernalgorithmus, schneller zu berechnen.
Aufteilen der Daten
Jetzt müssen die Daten in drei Sätze aufgeteilt werden – Training, Test und Validierung. Sie müssen es für die Sets in 70 %, 20 % bzw. 10 % aufteilen. Stellen Sie für ordnungsgemäße Tests sicher, dass Sie nur nicht überlappende Teildatensätze auswählen. Datensätze richtig aufteilen, damit das maschinelle Lernmodell die gewünschte Ausgabe schneller erreichen kann. Sie können das Datenmodell später verfeinern.
Nun, Sie haben jetzt gelernt, wie Sie einen Datensatz für einen maschinellen Lernalgorithmus kuratieren. Aber was ist, wenn Sie ein Projekt anstehen und nicht die Zeit haben, Ihren eigenen Datensatz zu erstellen? Dank des Internets stehen Ihnen viele fertige Datensätze zur Auswahl.
Online-Datensätze für maschinelles Lernen
Hier sind die nützlichsten Datensätze für maschinelles Lernen im Web:
- Das Boston Housing Dataset
Eine beliebte Wahl unter den Datensätzen für maschinelles Lernen . Es dient der Mustererkennung. Es besteht aus Informationen über die verschiedenen Bostoner Häuser, darunter Daten wie die Anzahl der Zimmer, der Steuersatz und die Kriminalitätsrate in der Gegend. Der Datensatz besteht aus 506 Zeilen und 14 Variablen in den Datenspalten und eignet sich gut für die Vorhersage von Immobilienpreisen.
- Parkinson-Datensatz
Dieser Datensatz besteht aus 195 Patientendatensätzen sowie 23 verschiedenen Attributen mit biomedizinischen Messungen. Sie können den Datensatz verwenden, um gesunde Patienten von denen mit Parkinson-Krankheit zu trennen.
- IMDB
Ein Datensatz bestehend aus 25.000 Filmkritiken. Dies wird für die binäre Sentimentklassifizierung verwendet.
- MIMIC-III
Dies ist ein offen verfügbarer Datensatz, der vom MIT Lab for Computational Physiology erstellt wurde. Es besteht aus Gesundheitsdaten von rund 40.000 Intensivpatienten. Informationen wie Medikamente, Labortests, Vitalfunktionen und demografische Daten sind hier enthalten.

- Berkeley DeepDrive BDD100k
Der Berkeley DeepDrive BDD100k ist derzeit der größte Datensatz, der für die Entwicklung von maschinellen Lernprogrammen für selbstfahrende Autos verwendet wird. Es enthält mehr als 100.000 Videos, die zu verschiedenen Tageszeiten und bei unterschiedlichen klimatischen Bedingungen fahren. Die Daten basieren auf den Städten New York und San Francisco.
- Uber Pickups-Datensatz
Dieser Datensatz enthält Informationen zu Abholungen von Uber-Kunden von April bis September 2014 in New York. Von Januar bis Juni 2015 gibt es etwa 4,5 Millionen Kundendaten dieser Art und weitere 14 Millionen. Sie können anhand dieses Datensatzes eine Datenanalyse durchführen, um mehr Informationen über Kunden zu sammeln. Dies kann Unternehmen dabei helfen, ihr Geschäft erheblich zu verbessern.
- Mall-Kundendatensatz
Dies enthält Informationen über Personen, die Einkaufszentren besuchen. Der Datensatz enthält Details wie Geschlecht, Alter, Kundennummer, Ausgabenpunktzahl und vieles mehr. Dies kann im Zielmarketing sehr nützlich sein. Basierend auf Daten wie Alter und Ausgabenpunktzahl können Unternehmen Kunden in Gruppen einteilen. Sie können einzigartige Kundenerlebnisse für diese Gruppen schaffen.
Fazit
Genauso wie die richtigen Worte und Phrasen ein Gedicht lange in Erinnerung bleiben lassen, braucht es für ein erfolgreiches Projekt den richtigen Datensatz. Aus diesem Grund stellen viele der besten Unternehmen Dateningenieure ein, um den besten Datensatz für ein bestimmtes maschinelles Lernsystem zu erstellen. Nehmen Sie sich also Zeit, während Sie Ihre Datensätze für maschinelles Lernen vorbereiten .
Wenn Sie mehr über maschinelles Lernen erfahren möchten, sehen Sie sich das PG-Diplom in maschinellem Lernen und KI von IIIT-B & upGrad an, das für Berufstätige konzipiert ist und mehr als 450 Stunden strenge Schulungen, mehr als 30 Fallstudien und Aufgaben bietet, IIIT- B-Alumni-Status, mehr als 5 praktische, praktische Abschlussprojekte und Jobunterstützung bei Top-Unternehmen.
Was ist ein Datensatz für maschinelles Lernen?
Daten sind die wichtigste Komponente für maschinelles Lernen. Der Datensatz ist eine Sammlung von Informationen, die zum Lernen verwendet werden. Der Datensatz stammt normalerweise aus einer anderen Quelle als die Trainingsdaten. Diese Daten werden verwendet, um zu bewerten, wie gut das Modell funktioniert. Um beispielsweise einen Bildklassifizierer zu trainieren, verwenden Sie Bilder aus der ImageNet-Sammlung. Es ist erwähnenswert, dass ein Bild sowohl in den Trainings- als auch in den Testdatensätzen vorhanden sein kann, aber es muss sich in unterschiedlichen Kategorien befinden. Eine weitere beliebte Verwendung von Datensätzen ist das Trainieren des Bilderkennungsalgorithmus. Um den Algorithmus zu trainieren, müssen Sie zehntausend Bilder von Katzen und zehntausend Bilder von Hunden haben. ImageNet ist einer der am häufigsten verwendeten Datensätze in der Branche.
Was ist ein Validierungsdatensatz beim maschinellen Lernen?
Beim überwachten maschinellen Lernen haben wir den Trainingsdatensatz, der aus Beispielen von Eingaben und ihren gewünschten Ausgaben besteht. Der Validierungsdatensatz ist der zweite Datensatz, auf dem das Modell/die Modellparameter nicht trainiert werden. Das Modell/die Modellparameter werden anhand des Trainingsdatensatzes geschätzt. Der Validierungsdatensatz wird verwendet, um die erwartete Genauigkeit des überwachten Lernmodells an unsichtbaren Proben, dh Testproben, abzuschätzen. Der Validierungsdatensatz wird verwendet, um den Generalisierungsfehler des überwachten Lernmodells zu messen oder zu schätzen.
Welche beliebten Datasets werden beim maschinellen Lernen verwendet?
Es gibt mehrere Datensätze, die wir verwenden können, um beim maschinellen Lernen besser zu werden. Einige davon sind: Haushaltseinkommen und demografische Umfragedaten, US Census Bureau Survey of Business Owners, Börsenkurse, Alter und Geschlecht der US-Bürger, Energieverbrauch der US-Bundesstaaten, Prozentsatz der gekauften, verkauften und vermieteten Häuser, Twitter-Hashtags, Facebook Likes und andere Aktivitäten von Personen auf Facebook, Datensätze der ImageNet Large Scale Visual Recognition Challenge (ILSVRC), monatliches Versandvolumen von großen Häfen in den USA usw. Es gibt viele weitere Datensätze, die wir für maschinelles Lernen verwenden können.