Top-Projekte zum maschinellen Lernen in Python für Anfänger [2022]

Veröffentlicht: 2021-01-03

Wenn Sie ein Experte für maschinelles Lernen werden möchten, müssen Sie Erfahrungen mit der Verwendung seiner Technologien sammeln. Der beste Weg, dies zu tun, ist das Abschließen von Projekten. Aus diesem Grund teilen wir in diesem Artikel mehrere Machine Learning-Projekte in Python, damit Sie schnell mit dem Testen Ihrer Fähigkeiten beginnen und wertvolle Erfahrungen sammeln können.

Bevor Sie beginnen, stellen Sie jedoch sicher, dass Sie mit maschinellem Lernen und seinem Algorithmus vertraut sind. Wenn Sie noch nie an einem Projekt gearbeitet haben, machen Sie sich keine Sorgen, denn wir haben auch ein detailliertes Tutorial zu einem Projekt geteilt:

Inhaltsverzeichnis

Der Iris-Datensatz: Für Anfänger

Das Iris-Dataset ist mit Abstand eines der beliebtesten Projekte für maschinelles Lernen in Python. Es ist relativ klein, aber seine Einfachheit und kompakte Größe machen es perfekt für Anfänger. Wenn Sie noch an keinem Machine-Learning-Projekt in Python gearbeitet haben, sollten Sie damit beginnen. Der Iris-Datensatz ist eine Sammlung von Kelchblatt- und Blütenblattgrößen der Iris-Blüte. Es hat drei Klassen mit jeweils 50 Instanzen.

Wir haben an verschiedenen Stellen Beispielcode bereitgestellt, aber Sie sollten ihn nur verwenden, um zu verstehen, wie er funktioniert. Den Code zu implementieren, ohne ihn zu verstehen, würde die Prämisse der Durchführung des Projekts verfehlen. Stellen Sie also sicher, dass Sie den Code gut verstehen, bevor Sie ihn implementieren.

Schritt 1: Importieren Sie die Bibliotheken

Der erste Schritt jedes maschinellen Lernprojekts ist das Importieren der Bibliotheken. Ein Hauptgrund, warum Python so vielseitig ist, sind seine robusten Bibliotheken. Die Bibliotheken, die wir in diesem Projekt benötigen, sind:

  • Pandas
  • Matplotlib
  • Sklearn
  • SciPy
  • NumPy

Es gibt mehrere Methoden zum Importieren von Bibliotheken in Ihr System, und Sie sollten eine bestimmte Methode verwenden, um alle Bibliotheken zu importieren. Es würde Konsistenz gewährleisten und Ihnen helfen, Verwirrung zu vermeiden. Beachten Sie, dass die Installation je nach Betriebssystem Ihres Geräts variiert, also denken Sie daran, wenn Sie Bibliotheken importieren.

Code:

# Bibliotheken laden

von pandas import read_csv

aus pandas.plotting import scatter_matrix

aus matplotlib importiere pyplot

aus sklearn.model_selection import train_test_split

aus sklearn.model_selection import cross_val_score

aus sklearn.model_selection import StratifiedKFold

aus sklearn.metrics import Classification_report

aus sklearn.metrics importieren verwirrte_matrix

aus sklearn.metrics import precision_score

aus sklearn.linear_model import LogisticRegression

aus sklearn.tree import DecisionTreeClassifier

aus sklearn.neighbors import KNeighborsClassifier

aus sklearn.discriminant_analysis import LinearDiscriminantAnalysis

aus sklearn.naive_bayes import GaussianNB

aus sklearn.svm importieren SVC

Lesen Sie: Die 10 besten Projektideen für Datensätze zum maschinellen Lernen für Anfänger

Schritt 2: Laden Sie den Datensatz

Nach dem Import der Bibliotheken ist es an der Zeit, das Dataset zu laden. Wie besprochen verwenden wir in diesem Projekt den Iris-Datensatz. Sie können es hier herunterladen .

Stellen Sie sicher, dass Sie beim Laden der Daten die Namen jeder Spalte angeben, und dies würde Ihnen später im Projekt helfen. Wir empfehlen den Datensatz herunterzuladen, damit Ihr Projekt auch bei Verbindungsproblemen unbeeinflusst bleibt.

Code:

# Datensatz laden

url = „https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv“

names = ['kelchblattlänge', 'kelchblattbreite', 'blütenblattlänge', 'blütenblattbreite', 'klasse']

Datensatz = read_csv(URL, Namen=Namen)

Schritt 3: Zusammenfassen

Bevor wir mit der Verwendung des Datensatzes beginnen, müssen wir uns zunächst die darin enthaltenen Daten ansehen. Wir beginnen mit der Überprüfung der Dimension des Datasets, die uns zeigt, dass das Dataset fünf Attribute und 150 Instanzen hat.

Nachdem Sie die Dimension überprüft haben, sollten Sie sich einige Zeilen und Spalten des Datensatzes ansehen, um sich einen allgemeinen Überblick über seinen Inhalt zu verschaffen. Dann sollten Sie sich die statistische Zusammenfassung des Datensatzes ansehen und sehen, welche Metriken darin am häufigsten vorkommen.

Schließlich sollten Sie die Klassenverteilung im Datensatz überprüfen. Das bedeutet, dass Sie überprüfen müssten, wie viele Instanzen unter jede Klasse fallen. Hier ist Code zum Zusammenfassen unseres Datensatzes:

# die Daten zusammenfassen

von pandas import read_csv

# Datensatz laden

url = „https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv“

names = ['kelchblattlänge', 'kelchblattbreite', 'blütenblattlänge', 'blütenblattbreite', 'klasse']

Datensatz = read_csv(URL, Namen=Namen)

# Form

print(dataset.shape)

# Kopf

print(dataset.head(20))

# Beschreibungen

print(dataset.describe())

# Klassenverteilung

print(dataset.groupby('class').size())

Schritt 4: Visualisieren Sie die Daten

Nachdem Sie den Datensatz zusammengefasst haben, sollten Sie ihn zum besseren Verständnis und zur Analyse visualisieren. Sie können univariate Diagramme verwenden, um jedes Attribut im Detail zu analysieren, und multivariate Diagramme, um die Beziehungen jedes Merkmals zu untersuchen. Die Datenvisualisierung ist ein entscheidender Aspekt von maschinellen Lernprojekten, da sie dabei hilft, wesentliche Informationen im Datensatz zu finden.

Schritt 5: Algorithmusbewertung

Nach der Visualisierung der Daten evaluieren wir mehrere Algorithmen, um das beste Modell für unser Projekt zu finden. Zuerst erstellen wir einen Validierungsdatensatz, den wir aus dem Original herausnehmen. Dann wenden wir eine 10-fache Kreuzvalidierung an und erstellen verschiedene Modelle. Wie bereits erwähnt, zielen wir darauf ab, die Art durch die Messungen der Blüten vorherzusagen. Sie sollten verschiedene Arten von Algorithmen verwenden und denjenigen auswählen, der die besten Ergebnisse liefert. Sie können SVM (Support Vector Machines), KNN (K-Nearest Neighbors), LR (Logistic Regression) und andere testen.

In unserer Implementierung haben wir festgestellt, dass SVM das beste Modell ist. Hier ist der Code:

von pandas import read_csv

aus matplotlib importiere pyplot

aus sklearn.model_selection import train_test_split

aus sklearn.model_selection import cross_val_score

aus sklearn.model_selection import StratifiedKFold

aus sklearn.linear_model import LogisticRegression

aus sklearn.tree import DecisionTreeClassifier

aus sklearn.neighbors import KNeighborsClassifier

aus sklearn.discriminant_analysis import LinearDiscriminantAnalysis

aus sklearn.naive_bayes import GaussianNB

aus sklearn.svm importieren SVC

# Datensatz laden

url = „https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv“

names = ['kelchblattlänge', 'kelchblattbreite', 'blütenblattlänge', 'blütenblattbreite', 'klasse']

Datensatz = read_csv(URL, Namen=Namen)

# Ausgeteilter Validierungsdatensatz

array = datensatz.werte

X = Array[:,0:4]

y = Array[:,4]

X_train, X_validation, Y_train, Y_validation = train_test_split(X, y, test_size=0.20, random_state=1, shuffle=True)

# Spot-Check-Algorithmen

Modelle = []

models.append(('LR', LogisticRegression(solver='liblinear', multi_class='ovr')))

models.append(('LDA', LinearDiscriminantAnalysis()))

models.append(('KNN', KNeighborsClassifier()))

models.append(('CART', DecisionTreeClassifier()))

models.append(('NB', GaussianNB()))

models.append(('SVM', SVC(gamma='auto')))

# Jedes Modell der Reihe nach auswerten

Ergebnisse = []

Namen = []

für Name, Modell in Modellen:

kfold = StratifiedKFold(n_splits=10, random_state=1, shuffle=True)

cv_results = cross_val_score(model, X_train, Y_train, cv=kfold, score='accuracy')

Ergebnisse.append(cv_results)

Namen.append(Name)

print('%s: %f (%f)' % (Name, cv_results.mean(), cv_results.std()))

# Algorithmen vergleichen

pyplot.boxplot (Ergebnisse, Labels = Namen)

pyplot.title('Algorithmusvergleich')

pyplot.show()

Schritt 6: Vorhersagen

Nachdem Sie verschiedene Algorithmen evaluiert und den besten ausgewählt haben, ist es an der Zeit, die Ergebnisse vorherzusagen. Wir werden unser Modell zuerst auf den Validierungsdatensatz anwenden, um seine Genauigkeit zu testen. Danach testen wir es mit dem gesamten Datensatz.

Hier ist der Code zum Ausführen unseres Modells auf dem Datensatz:

# Voraussagen machen

von pandas import read_csv

aus sklearn.model_selection import train_test_split

aus sklearn.metrics import Classification_report

aus sklearn.metrics importieren verwirrte_matrix

aus sklearn.metrics import precision_score

aus sklearn.svm importieren SVC

# Datensatz laden

url = „https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv“

names = ['kelchblattlänge', 'kelchblattbreite', 'blütenblattlänge', 'blütenblattbreite', 'klasse']

Datensatz = read_csv(URL, Namen=Namen)

# Ausgeteilter Validierungsdatensatz

array = datensatz.werte

X = Array[:,0:4]

y = Array[:,4]

X_train, X_validation, Y_train, Y_validation = train_test_split(X, y, test_size=0.20, random_state=1)

# Vorhersagen zum Validierungsdatensatz treffen

Modell = SVC(gamma='auto')

model.fit(X_Zug, Y_Zug)

Vorhersagen = model.predict(X_validation)

# Vorhersagen auswerten

print(accuracy_score(Y_validation, Vorhersagen))

print(confusion_matrix(Y_validation, Vorhersagen))

print(classification_report(Y_validation, Vorhersagen))

Das ist es. Sie haben jetzt ein maschinelles Lernprojekt in Python mithilfe des Iris-Datasets abgeschlossen.

Weitere Machine Learning-Projekte in Python

Der Iris-Datensatz ist in erster Linie für Anfänger gedacht. Wenn Sie Erfahrung mit der Arbeit an maschinellen Lernprojekten in Python haben, sollten Sie sich die folgenden Projekte ansehen:

1. Verwenden Sie ML, um Aktienkurse vorherzusagen

Ein ausgezeichneter Ort, um maschinelle Lernalgorithmen anzuwenden, ist der Aktienmarkt. Unternehmen verwenden seit geraumer Zeit KI-Algorithmen und ML-basierte Technologien, um technische Analysen durchzuführen. Sie können auch ein ML-Modell erstellen, das Aktienkurse vorhersagt.

Um an diesem Projekt zu arbeiten, müssen Sie jedoch mehrere Techniken anwenden, darunter Regressionsanalyse, prädiktive Analyse, statistische Modellierung und Aktionsanalyse. Die notwendigen Daten erhalten Sie auf den offiziellen Webseiten der Börsen. Sie teilen Daten über die vergangene Wertentwicklung von Aktien. Sie können diese Daten verwenden, um Ihr Modell zu trainieren und zu testen.

Als Anfänger können Sie sich auf ein bestimmtes Unternehmen konzentrieren und dessen Aktienwert für drei Monate vorhersagen. Wenn Sie das Projekt herausfordernd gestalten möchten, können Sie auf ähnliche Weise mehrere Unternehmen verwenden und Ihre Vorhersagezeitpläne verlängern.

Was Sie aus diesem Projekt lernen werden:

Dieses Projekt macht Sie mit den Anwendungen von KI und ML in der Finanzbranche vertraut. Sie können in diesem Projekt auch prädiktive Analysen studieren und verschiedene Algorithmen ausprobieren.

2. Schreiben Sie einen maschinellen Lernalgorithmus von Grund auf neu

Wenn Sie Anfänger sind und noch an keinem Machine-Learning-Projekt in Python gearbeitet haben, können Sie auch mit diesem beginnen. In diesem Projekt müssen Sie einen ML-Algorithmus von Grund auf neu erstellen. Die Durchführung dieses Projekts wird Ihnen helfen, alle Grundlagen der Funktionen des Algorithmus zu verstehen, und Ihnen gleichzeitig beibringen, mathematische Formeln in maschinellen Lerncode umzuwandeln.

Zu wissen, wie man mathematische Konzepte in ML-Code umwandelt, ist von entscheidender Bedeutung, da Sie es in Zukunft viele Male implementieren müssen. Wenn Sie fortgeschrittenere Probleme lösen, müssen Sie sich auf diese Fähigkeit verlassen. Sie können jeden Algorithmus entsprechend Ihrer Vertrautheit mit seinen Konzepten auswählen. Am besten beginnen Sie mit einem einfachen Algorithmus, wenn Ihnen die Erfahrung fehlt.

Was Sie aus diesem Projekt lernen werden:

Sie lernen die mathematischen Konzepte der künstlichen Intelligenz und des maschinellen Lernens kennen.

3. Erstellen Sie einen Handschriftleser

Dies ist ein Computer-Vision-Projekt. Computer Vision ist der Bereich der künstlichen Intelligenz im Zusammenhang mit der Bildanalyse. In diesem Projekt erstellen Sie ein ML-Modell, das Handschriften lesen kann. Lesen bedeutet, dass das Modell in der Lage sein sollte, zu erkennen, was auf dem Papier geschrieben steht. Sie müssten in diesem Projekt ein neuronales Netzwerk verwenden, um mit Deep Learning und seinen relevanten Konzepten vertraut zu sein.

Sie müssen das Bild zuerst vorverarbeiten und unnötige Abschnitte entfernen; mit anderen Worten, führen Sie zur Klarheit eine Datenbereinigung des Bildes durch. Danach müssen Sie eine Segmentierung und Größenänderung des Bildes durchführen, damit der Algorithmus die Zeichen richtig lesen kann. Sobald Sie die Vorverarbeitung und Segmentierung abgeschlossen haben, können Sie mit dem nächsten Schritt fortfahren, der Klassifizierung. Ein Klassifizierungsalgorithmus unterscheidet die im Text vorhandenen Zeichen und ordnet sie ihren jeweiligen Kategorien zu.

Sie können die Log-Sigmoid-Aktivierung verwenden, um Ihren ML-Algorithmus für dieses Projekt zu trainieren.

Was Sie aus diesem Projekt lernen werden:

Sie lernen Computer Vision und neuronale Netze kennen. Wenn Sie dieses Projekt abschließen, werden Sie auch mit der Bilderkennung und -analyse vertraut gemacht.

4. Ein Verkaufsprädiktor

Der Einzelhandel hat viele Anwendungen für KI und maschinelles Lernen. In diesem Projekt entdecken Sie eine solche Anwendung, nämlich die Vorhersage von Produktverkäufen.

Ein weit verbreiteter Datensatz unter Enthusiasten des maschinellen Lernens ist der BigMart-Verkaufsdatensatz. Es hat mehr als 1559 Produkte, die auf seine verschiedenen Verkaufsstellen in 10 Städten verteilt sind. Sie können das Dataset verwenden, um ein Regressionsmodell zu erstellen. Laut den Verkaufsstellen muss Ihr Modell die potenziellen Verkäufe bestimmter Produkte im kommenden Jahr vorhersagen. Dieser Datensatz hat spezifische Attribute für jede Verkaufsstelle und jedes Produkt, um ihre Eigenschaften und die Beziehung zwischen den beiden schnell zu verstehen.

Was Sie aus diesem Projekt lernen werden:

Durch die Arbeit an diesem Projekt werden Sie mit Regressionsmodellen und prädiktiver Analyse vertraut gemacht. Außerdem lernen Sie die Anwendungen des maschinellen Lernens im Einzelhandel kennen.

Erfahren Sie mehr über maschinelles Lernen und Python

Wir hoffen, dass Sie diese Liste mit maschinellen Lernprojekten in Python hilfreich fanden. Wenn Sie Fragen oder Gedanken haben, teilen Sie uns dies bitte über den Kommentarbereich mit. Wir beantworten gerne Ihre Fragen.

Lernen Sie Datenwissenschaftskurse von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Hier sind einige zusätzliche Ressourcen zum Erlernen von maschinellem Lernen und Python.

  • Python-Tutorial
  • Maschinelles Lernen vs. Tiefes Lernen
  • Anwendungen für maschinelles Lernen

Wenn Sie andererseits eine personalisiertere Lernerfahrung erhalten möchten, können Sie einen KI- und ML-Kurs belegen. Sie lernen von Branchenexperten durch Videos, Aufgaben und Projekte.

Ist maschinelles Lernen eine gute Berufswahl?

Wenn Sie sich für neue Technologien und verwandte Neuigkeiten interessieren, müssen Sie bereits von der vierten industriellen Revolution gehört haben, die durch die Technologie des maschinellen Lernens hervorgerufen wurde. Berichten zufolge wird der globale Markt für maschinelles Lernen bis 2023 voraussichtlich einen Wert von 543 Mrd. Dies deutet darauf hin, dass der Arbeitsmarkt für einen Experten für maschinelles Lernen mit der richtigen Kombination von Fähigkeiten viel verspricht. Egal, ob Sie Ingenieur für maschinelles Lernen, Forschungsingenieur oder Forschungswissenschaftler werden möchten, es wird zweifellos eine bereichernde Karriere für Sie sein.

Kann ein Neuling einen Machine-Learning-Job ergattern?

Auch wenn die meisten Machine-Learning-Jobs heute erfahrene Fachkräfte erfordern, nehmen auch die Möglichkeiten für Berufseinsteiger aufgrund der enormen Nachfrage auf dem Markt zu. Für Anfänger kann es schwierig sein, aber es ist sicherlich nicht unmöglich, einen Job für maschinelles Lernen zu bekommen. Wenn Sie die erforderlichen Fähigkeiten beherrschen, planen, wie Sie gute Leistungen erbringen, und schnell von den erfahrenen Spielern auf dem Feld lernen, können Sie auch diesen Traumjob ergattern. Sie können Optionen wie den Erwerb relevanter Zertifizierungen in Betracht ziehen, um einen Mehrwert zu schaffen, sich für Kurse zum maschinellen Lernen auf zuverlässigen Plattformen anmelden, einige praktische Projekte ausprobieren, die neuesten technischen Nachrichten und Trends verfolgen und Online-Communities beitreten.

Wie viel verdient ein Machine Learning Engineer?

Das durchschnittliche Gehalt eines Ingenieurs für maschinelles Lernen in Indien liegt laut Daten von glassdoor.in bei etwa 8,2 Lakhs INR pro Jahr. Nun hängt das Durchschnittseinkommen von mehreren Faktoren wie Fähigkeiten, Zertifizierungen, Erfahrung, Standort und mehr ab. Aber mit mehr Berufserfahrung können Sie damit rechnen, Ihr Einkommen zu steigern. Beispielsweise können leitende Ingenieure für maschinelles Lernen im Durchschnitt zwischen 13 und 15 Lakhs INR verdienen.