初心者のためのPythonのトップ機械学習プロジェクト[2022]

公開: 2021-01-03

機械学習の専門家になりたい場合は、そのテクノロジーを使用した経験を積む必要があります。 そのための最良の方法は、プロジェクトを完了することです。 そのため、この記事では、Pythonで複数の機械学習プロジェクトを共有しているため、スキルのテストをすばやく開始して、貴重な経験を積むことができます。

ただし、始める前に、機械学習とそのアルゴリズムに精通していることを確認してください。 これまでにプロジェクトに取り組んだことがない場合でも、1つのプロジェクトに関する詳細なチュートリアルも共有しているので、心配する必要はありません。

目次

アイリスデータセット:初心者向け

Irisデータセットは、Pythonで最も人気のある機械学習プロジェクトの1つです。 比較的小さいですが、シンプルでコンパクトなサイズなので初心者にも最適です。 Pythonで機械学習プロジェクトに取り組んだことがない場合は、Pythonから始める必要があります。 アイリスデータセットは、花のがく片と花びらのサイズのコレクションです。 3つのクラスがあり、それぞれに50のインスタンスがあります。

さまざまな場所でサンプルコードを提供していますが、それがどのように機能するかを理解するためにのみ使用してください。 理解せずにコードを実装すると、プロジェクトを実行するという前提が失敗します。 したがって、コードを実装する前に、コードをよく理解してください。

ステップ1:ライブラリをインポートする

機械学習プロジェクトの最初のステップは、ライブラリをインポートすることです。 Pythonが非常に用途が広い主な理由は、その堅牢なライブラリのためです。 このプロジェクトで必要となるライブラリは次のとおりです。

  • パンダ
  • Matplotlib
  • Sklearn
  • SciPy
  • NumPy

システムにライブラリをインポートするには複数の方法があり、すべてのライブラリをインポートするには特定の方法を使用する必要があります。 一貫性を確保し、混乱を避けるのに役立ちます。 インストールはデバイスのオペレーティングシステムによって異なることに注意してください。ライブラリをインポートするときは、このことに注意してください。

コード:

#ライブラリをロードする

パンダからインポートread_csv

pandas.plotからimportscatter_matrix

matplotlibからインポートpyplot

sklearn.model_selectionからimporttrain_test_split

sklearn.model_selectionからimportcross_val_score

sklearn.model_selectionからインポートStratifiedKFold

sklearn.metricsからimportclassification_report

sklearn.metricsからimportconfusion_matrix

sklearn.metricsからimportaccuracy_score

sklearn.linear_modelからimportLogisticRegression

sklearn.treeからインポートDecisionTreeClassifier

sklearn.neighborsからインポートKNeighborsClassifier

sklearn.discriminant_analysisからインポートLinearDiscriminantAnalysis

sklearn.naive_bayesからGaussianNBをインポート

sklearn.svmからインポートSVC

読む:初心者向けの機械学習データセットプロジェクトのアイデアトップ10

ステップ2:データセットをロードする

ライブラリをインポートしたら、データセットをロードします。 すでに説明したように、このプロジェクトではIrisデータセットを使用します。 こちらからダウンロードできます

データをロードするときにすべての列の名前を指定するようにしてください。そうすれば、プロジェクトの後半で役立ちます。 データセットをダウンロードすることをお勧めします。これにより、接続の問題が発生した場合でも、プロジェクトは影響を受けません。

コード:

#データセットを読み込む

url =“ https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv”

名前=['がく片の長さ'、'がく片の幅'、'花びらの長さ'、'花びらの幅'、'クラス']

データセット=read_csv(url、names = names)

ステップ3:要約

データセットの使用を開始する前に、まずデータセットに存在するデータを確認する必要があります。 まず、データセットのディメンションを確認します。これは、データセットに5つの属性と150のインスタンスがあることを示しています。

ディメンションを確認した後、データセットのいくつかの行と列を調べて、その内容の概要を把握する必要があります。 次に、データセットの統計要約を調べて、同じデータセットで最も普及しているメトリックを確認する必要があります。

最後に、データセット内のクラス分布を確認する必要があります。 つまり、各クラスに該当するインスタンスの数を確認する必要があります。 データセットを要約するためのコードは次のとおりです。

#データを要約する

パンダからインポートread_csv

#データセットを読み込む

url =“ https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv”

名前=['がく片の長さ'、'がく片の幅'、'花びらの長さ'、'花びらの幅'、'クラス']

データセット=read_csv(url、names = names)

# 形

print(dataset.shape)

# 頭

print(dataset.head(20))

#説明

print(dataset.describe())

#クラス分布

print(dataset.groupby('class')。size())

ステップ4:データを視覚化する

データセットを要約した後、理解と分析を深めるためにデータセットを視覚化する必要があります。 単変量プロットを使用してすべての属性を詳細に分析し、多変量プロットを使用してすべての機能の関係を調査できます。 データの視覚化は、データセット内に存在する重要な情報を見つけるのに役立つため、機械学習プロジェクトの重要な側面です。

ステップ5:アルゴリズムの評価

データを視覚化した後、いくつかのアルゴリズムを評価して、プロジェクトに最適なモデルを見つけます。 まず、元のデータセットから取得する検証データセットを作成します。 次に、10分割交差検定を使用して、さまざまなモデルを作成します。 すでに述べたように、私たちは花の測定を通して種を予測することを目指しています。 さまざまな種類のアルゴリズムを使用して、最良の結果が得られるアルゴリズムを選択する必要があります。 SVM(サポートベクターマシン)、KNN(K最近傍法)、LR(ロジスティック回帰)などをテストできます。

私たちの実装では、SVMが最良のモデルであることがわかりました。 コードは次のとおりです。

パンダからインポートread_csv

matplotlibからインポートpyplot

sklearn.model_selectionからimporttrain_test_split

sklearn.model_selectionからimportcross_val_score

sklearn.model_selectionからインポートStratifiedKFold

sklearn.linear_modelからimportLogisticRegression

sklearn.treeからインポートDecisionTreeClassifier

sklearn.neighborsからインポートKNeighborsClassifier

sklearn.discriminant_analysisからインポートLinearDiscriminantAnalysis

sklearn.naive_bayesからGaussianNBをインポート

sklearn.svmからインポートSVC

#データセットを読み込む

url =“ https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv”

名前=['がく片の長さ'、'がく片の幅'、'花びらの長さ'、'花びらの幅'、'クラス']

データセット=read_csv(url、names = names)

#分割された検証データセット

配列=dataset.values

X =配列[:、0:4]

y = array [:、4]

X_train、X_validation、Y_train、Y_validation = train_test_split(X、y、test_size = 0.20、random_state = 1、shuffle = True)

#スポットチェックアルゴリズム

モデル=[]

models.append(('LR'、LogisticRegression(solver ='liblinear'、multi_class ='ovr')))

models.append(('LDA'、LinearDiscriminantAnalysis()))

models.append(('KNN'、KNeighborsClassifier()))

models.append(('CART'、DecisionTreeClassifier()))

models.append(('NB'、GaussianNB()))

models.append(('SVM'、SVC(gamma ='auto')))

#各モデルを順番に評価する

結果=[]

名前=[]

名前、モデルのモデル:

kfold = StratifiedKFold(n_splits = 10、random_state = 1、shuffle = True)

cv_results = cross_val_score(model、X_train、Y_train、cv = kfold、scoring ='accuracy')

results.append(cv_results)

names.append(name)

print('%s:%f(%f)'%(name、cv_results.mean()、cv_results.std()))

#アルゴリズムの比較

pyplot.boxplot(results、labels = names)

pyplot.title('アルゴリズムの比較')

pyplot.show()

ステップ6:予測

さまざまなアルゴリズムを評価し、最適なアルゴリズムを選択したら、結果を予測します。 最初に検証データセットでモデルを使用して、その精度をテストします。 その後、データセット全体でテストします。

データセットでモデルを実行するためのコードは次のとおりです。

# 予測を行います

パンダからインポートread_csv

sklearn.model_selectionからimporttrain_test_split

sklearn.metricsからimportclassification_report

sklearn.metricsからimportconfusion_matrix

sklearn.metricsからimportaccuracy_score

sklearn.svmからインポートSVC

#データセットを読み込む

url =“ https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv”

名前=['がく片の長さ'、'がく片の幅'、'花びらの長さ'、'花びらの幅'、'クラス']

データセット=read_csv(url、names = names)

#分割された検証データセット

配列=dataset.values

X =配列[:、0:4]

y = array [:、4]

X_train、X_validation、Y_train、Y_validation = train_test_split(X、y、test_size = 0.20、random_state = 1)

#検証データセットで予測を行う

モデル=SVC(gamma ='auto')

model.fit(X_train、Y_train)

予測=model.predict(X_validation)

#予測を評価する

print(accuracy_score(Y_validation、predictions))

print(confusion_matrix(Y_validation、predictions))

print(classification_report(Y_validation、predictions))

それでおしまい。 これで、Irisデータセットを使用して、Pythonで機械学習プロジェクトが完了しました。

Pythonでの追加の機械学習プロジェクト

アイリスデータセットは主に初心者向けです。 Pythonで機械学習プロジェクトに取り組んだ経験がある場合は、以下のプロジェクトをご覧ください。

1.MLを使用して株価を予測する

機械学習アルゴリズムを適用するのに最適な場所は、株式市場です。 企業は、かなり長い間、AIアルゴリズムとMLベースのテクノロジーを使用してテクニカル分析を実行しています。 株価を予測するMLモデルを構築することもできます。

ただし、このプロジェクトに取り組むには、回帰分析、予測分析、統計モデリング、アクション分析など、いくつかの手法を使用する必要があります。 証券取引所の公式サイトから必要なデータを入手できます。 彼らは過去の株式のパフォーマンスに関するデータを共有します。 そのデータを使用して、モデルをトレーニングおよびテストできます。

初心者は、特定の1つの会社に焦点を当てて、3か月間の株価を予測できます。 同様に、プロジェクトをやりがいのあるものにしたい場合は、複数の会社を使用して予測のタイムラインを延長できます。

このプロジェクトから学ぶこと:

このプロジェクトでは、金融業界でのAIとMLのアプリケーションに慣れることができます。 このプロジェクトを通じて予測分析を研究し、さまざまなアルゴリズムを試すこともできます。

2.ゼロから機械学習アルゴリズムを作成する

初心者で、Pythonで機械学習プロジェクトに取り組んだことがない場合は、これから始めることもできます。 このプロジェクトでは、MLアルゴリズムを最初から構築する必要があります。 このプロジェクトを行うことで、アルゴリズムの機能のすべての基本を理解すると同時に、数式を機械学習コードに変換する方法を学ぶことができます。

数学の概念をMLコードに変換する方法を知ることは、将来何度も実装する必要があるため、非常に重要です。 より高度な問題に取り組むときは、このスキルに頼る必要があります。 概念に精通している場合は、任意のアルゴリズムを選択できます。 経験が不足している場合は、単純なアルゴリズムから始めるのが最善です。

このプロジェクトから学ぶこと:

人工知能と機械学習の数学的概念に慣れることができます。

3.手書きリーダーを作成します

これはコンピュータビジョンプロジェクトです。 コンピュータビジョンは、画像分析に関連する人工知能の分野です。 このプロジェクトでは、手書きを読み取ることができるMLモデルを作成します。 読むということは、モデルが紙に書かれていることを認識できるはずだということです。 このプロジェクトでは、ディープラーニングとそれに関連する概念に精通するためにニューラルネットワークを使用する必要があります。

最初に画像を前処理し、不要なセクションを削除する必要があります。 つまり、わかりやすくするために、画像に対してデータクリーニングを実行します。 その後、アルゴリズムが文字を正しく読み取ることができるように、画像のセグメンテーションとサイズ変更を実行する必要があります。 前処理とセグメンテーションが完了したら、次のステップである分類に進むことができます。 分類アルゴリズムは、テキストに存在する文字を区別し、それぞれのカテゴリに分類します。

ログシグモイドアクティベーションを使用して、このプロジェクトのMLアルゴリズムをトレーニングできます。

このプロジェクトから学ぶこと:

コンピュータビジョンとニューラルネットワークを学ぶことができます。 このプロジェクトを完了すると、画像の認識と分析にも慣れることができます。

4.売上予測

小売部門には、AIと機械学習の多くのアプリケーションがあります。 このプロジェクトでは、そのようなアプリケーションの1つ、つまり製品の売上を予測することを発見します。

機械学習愛好家の間で普及しているデータセットは、BigMart販売データセットです。 10都市のさまざまな店舗に1559以上の製品があります。 データセットを使用して、回帰モデルを構築できます。 アウトレットによると、モデルは来年の特定の製品の潜在的な売上を予測する必要があります。 このデータセットには、すべてのアウトレットと製品に固有の属性があり、それらのプロパティと2つの間の関係をすばやく理解できます。

このプロジェクトから学ぶこと:

このプロジェクトに取り組むことで、回帰モデルと予測分析に慣れることができます。 また、小売部門での機械学習のアプリケーションについても学びます。

機械学習とPythonの詳細

Pythonでの機械学習プロジェクトのこのリストがお役に立てば幸いです。 ご不明な点やご意見がございましたら、コメント欄からお知らせください。 私たちはあなたの質問に答えたいです。

世界のトップ大学からデータサイエンスコース学びましょうエグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。

機械学習とPythonを学習するための追加のリソースを次に示します。

  • Pythonチュートリアル
  • 機械学習とディープラーニング
  • 機械学習アプリケーション

一方、よりパーソナライズされた学習体験を取得したい場合は、AIおよびMLコースを受講できます。 ビデオ、課題、プロジェクトを通じて、業界の専門家から学ぶことができます。

機械学習は良いキャリアの選択ですか?

新興技術や関連ニュースに熱心な方は、機械学習技術によってもたらされた4番目の産業革命についてすでに聞いたことがあるはずです。 報告によると、機械学習の世界市場は2023年までに5,430億ルピーに達すると予想されています。しかし、熟練した機械学習の専門家の需要と供給のギャップはほぼ125%に拡大しています。 これは、スキルの適切な組み合わせを備えた機械学習の専門家にとって、雇用市場には多くの可能性があることを示しています。 あなたが機械学習エンジニア、研究エンジニア、または研究科学者になることを熱望するかどうかにかかわらず、それは間違いなくあなたにとって豊かなキャリアになるでしょう。

新鮮なバッグで機械学習の仕事をすることはできますか?

今日の機械学習の仕事のほとんどは経験豊富な専門家を必要としていますが、市場での膨大な需要により、新入生の選択肢も増えています。 初心者にとっては難しいかもしれませんが、機械学習の仕事を得るのは確かに不可能ではありません。 必要なスキルを習得し、パフォーマンスを向上させる方法を計画し、フィールドの経験豊富なプレーヤーからすばやく学ぶことができれば、その夢の仕事を手に入れることもできます。 関連する認定資格を取得して付加価値を高める、信頼できるプラットフォームで機械学習コースに登録する、実践的なプロジェクトを試す、最新の技術ニュースやトレンドをフォローする、オンラインでコミュニティに参加するなどのオプションを検討できます。

機械学習エンジニアはいくら稼ぎますか?

glassdoor.inのデータによると、インドの機械学習エンジニアが引き出す平均給与は、年間約8.2ルピーです。 現在、平均収入は、スキル、資格、経験、場所などのいくつかの要因によって異なります。 しかし、より多くの仕事の経験があれば、あなたはあなたの収入を増やすことを期待することができます。 たとえば、上級の機械学習エンジニアは、平均で13〜15ルピーの範囲で稼ぐことができます。