機械学習プロジェクトに最適なデータセット：知っておくべきことすべて

公開: 2020-03-20

序章
機械学習とは何ですか？
- 機械学習のカテゴリ
  - 教師あり学習
  - 教師なし学習
  - 強化学習
機械学習用のデータセットとは何ですか？
- 1.トレーニングデータセット
- 2.検証データセット
- 3.データセットをテストします
機械学習用のデータセットの準備
- データ収集
- データの前処理
  - フォーマット
  - クリーニング
  - サンプリング
- 特徴工学
- データの分割
オンラインの機械学習データセット
結論
機械学習用のデータセットとは何ですか？
機械学習の検証データセットとは何ですか？
機械学習で使用される一般的なデータセットは何ですか？

序章

機械学習は、今日使用されている最も強力なテクノロジーの1つです。これは、コンピューターをよりスマートにするために使用される人工知能の非常に重要な分野であり、人間の介入なしに学習する能力をコンピューターに与えます。これにより、機械学習はデータを処理するための重要なツールになります。データは、ビジネス上の意思決定から顧客体験のキュレーションまで、文字通りあらゆる場所で使用されるため、機械学習により、これらの膨大なデータセットに隠されたパターンを簡単に特定できます。

最も重要なことは、これらのデータセットは、生データの巨大なチャンクを整理する方法です。これらのデータセットを使用して、ビジネスオペレーションを容易にするアプリケーションを作成するプログラムが作成されます。この記事では、機械学習のさまざまなデータセットについて学習します。

ただし、その前に、まず機械学習の基本を理解しましょう。

機械学習とは何ですか？

機械学習は、Netflix、Facebook、Twitter、YouTube、Spotify、Google、Baiduなどの最もお気に入りのプラットフォームを強化する役割を果たします。 AlexaやSiriなどの音声アシスタントでさえ、機械学習を使用するためにお気に入りの曲を選択します。これらのプラットフォームはすべて、あなたに関連付けられたデータを使用しようとします。これには、検索、クリック、ビュー、共有する写真、コメント、反応、投稿が含まれます。トップの機械学習アプリケーションの詳細をご覧ください。

機械学習はこのデータを利用して、好みについてのアイデアを取得します。たとえば、Netflixはこれを使用して、視聴したテレビシリーズに基づいて視聴を楽しむことができるテレビシリーズを提案します。 Amazonなどのプラットフォームでも、機械学習を使用して、以前の購入履歴に基づいて商品を提案します。

機械学習市場の最も顕著なセグメントは、2025年までに最大10億に達する可能性のあるディープラーニングです。

面白そう？主題の専門性に取り掛かりましょう。

機械学習のカテゴリ

機械学習は、教師あり学習、教師なし学習、強化学習の3つに大きく分けられます。

教師あり学習

このプロセスでは、コンピューターはトレーニングデータと呼ばれるデータセットから学習します。これに基づいて決定を下し、将来の結果を予測します。機械学習用のトレーニングデータセットについては、後で学習します。ここでは、システムに入出力ペアが供給され、これらのペアを操作しながら、それらがどのようにマッピングされているかを学習します。これは、正解がタグ付けされた一連の質問を持っているようなものです。

システムまたはアルゴリズムが入出力ペア間の関係を学習すると、新しい入力が提供されたときに出力を予測できます。教師あり学習の種類の詳細をご覧ください。

教師なし学習

ここで、コンピューターはデータセットを調べて、支援なしで隠れたパターンを識別します。複雑なタスクに取り組み、それ自体で結果を発見します。教師なし学習の詳細をご覧ください。

強化学習

この機械学習プロセスでは、試行錯誤の方法を使用して、問題の解決策を決定します。したがって、プログラムの出力は、プログラムに提供されている現在の入力に依存します。

機械学習の基本を理解したところで、データセットに移りましょう。

機械学習用のデータセットとは何ですか？

データセットは、その名前が示すように、データのコレクションです。これは、列を表すために変数が使用される単一のデータベースのデータである可能性があります。このテーブルの行は、この特定のデータセットのメンバーによって表される場合があります。

機械学習用のデータセットを準備することは重要です。これは、アルゴリズムが生データまたは非構造化データに対して適切に機能できないためです。問題を解決して決定を下すには、適切なデータセットが必要です。たとえば、気象アプリケーションには、過去数日または数週間の気候データを含む適切なデータセットがない場合があります。そのため、来週の正確な天気予報を提供することはできません。

したがって、機械学習用の適切なデータセットがなければ、機械学習プロジェクトは、訓練を受けたデータサイエンティストでも成功しません。

機械学習のデータセットは、機械学習モデルの作成に使用されます。これらのモデルは、数式を使用して実際の問題を表しています。このようなモデルを生成するには、学習して機能するためのデータセットをモデルに提供する必要があります。

機械学習で使用されるデータセットの種類は次のとおりです。

1.トレーニングデータセット

これは、機械学習のデータセットの中でおそらく最も重要です。モデルを作成するために機械学習アルゴリズムに送られます。アルゴリズムは、入力変数を識別するためにデータパターンを探します。これは、最終的な目標または目的の出力に到達するのに役立ちます。このデータセットの出力は、結果の予測に使用できる機械学習モデルです。

データセットの約60％は、トレーニングデータセットによって占められています。

2.検証データセット

検証データセットは、機械学習プロジェクトを作成する際の検証段階で使用されます。この段階は、トレーニングの直後に行われます。このデータセットは、機械学習モデルを評価するために重要です。機械学習エンジニアは、このセットを使用して、モデルのハイパーパラメーターを微調整および調整します。これらのハイパーパラメータは、プログラムが学習を開始する前に設定された値を持つパラメータです。

それらの値はデータから推定することはできません。たとえば、ハイパーパラメータには、ツリーの深さやニューラルネットワーク内の検出されていない層の数を含めることができます。

有名な作家のMaxKuhnとKjellJohnsonによると、「データモデルは、作成や調整に使用されなかったサンプルを使用して評価する必要があります。これにより、モデルの有効性の偏りのない結果が得られます。大量のデータを処理する場合は、評価のためにデータのサンプルをいくつか取っておくことをお勧めします。トレーニングセットはモデルの構築に使用されるサンプルですが、検証とテストのサンプルはそのパフォーマンスの分析に使用されます。」

3.データセットをテストします

機械学習のテストデータセットは、機械学習モデルが将来どのように機能するかを理解するために使用されます。このデータセットを使用すると、データモデルがどれほど正確であるかを理解できます。簡単に言うと、このデータセットは、データモデルがトレーニングセットからどれだけ学習したかを示します。

これらのセットはデータの20％を占めます。セットには、検証済みの出力とともに入力変数が含まれます。ただし、機械学習プロジェクトでは、通常、テスト段階でトレーニングデータセットを使用しません。これは、以前にこのデータセットから学習したように、アルゴリズムが期待される出力を認識するためです。

テストフェーズの後、データモデルは通常調整されなくなります。これは、さらに調整すると過剰適合につながる可能性があるためです。過剰適合は、データモデルがあまりにも多くのデータでトレーニングされている場合に発生します。この場合、モデルは、指定されたデータセットの不正確なデータエントリから学習を開始します。その結果、新しいデータセットでは正しく機能しません。できないときに特大のジーンズにフィットしようとするようなものです！

ただし、機械学習モデルが正常に機能するには、優れたデータセットを提供する必要があります。機械学習用のデータセットがないと、アルゴリズムは問題を学習して解決することができません。たとえば、適切な本やリソースがない場合、希望するテストに合格することはできません。

機械学習用のデータセットの準備

機械学習用のデータセットを作成するために必要な手順を見てみましょう。

データ収集

最初のステップは、機械学習モデルに必要となる可能性のあるすべての関連データを収集することです。データの量は、機械学習プロジェクトの複雑さに依存します。単純なプロジェクトは、複雑なプロジェクトよりも必要なデータが少なくなります。したがって、目前の問題を解決するために実際に必要なものをすべて決定する必要があります。

次の質問に答えることで、データを簡単に収集できます。

プロジェクトで利用できるデータの種類は何ですか？
プロジェクトに必要な利用できないデータは何ですか？ –これには、クラウドシステムに保存されている特定のデータベースまたはデータが含まれる場合があります。このデータを導き出す必要があるかもしれません。
既存のデータからどのようなデータを削除できますか？これは、プロジェクトに関係のない不要なデータを消去することを意味します。

これらすべての質問に対する答えが得られたら、さまざまなソースからデータの収集を開始できます。これらは、テキストファイル、.csvファイル、JSONおよびXMLファイルとデータリポジトリのネストされたデータ構造を調べることができます。

これで、機械学習用のデータセットを作成する次のステップに進むことができます。

データの前処理

必要なデータがすべて揃ったので、モデルに対して適切に処理する必要があります。前処理方法は、生のデータセットを使用可能な意味のあるセットに変換することです。このプロセスは、以下の3つのステップで構成されています。

フォーマット

収集した生データの多くは、機械学習モデルに適した形式ではありません。 JSONファイルまたはリレーショナルデータベースにある可能性があります。必要に応じて、このデータをテキストファイルまたは.csvファイルに変換する必要があります。

クリーニング

これは、欠落しているデータや不要なデータをデータセットから修正して削除するプロセスです。これらのデータのインスタンスは、問題の解決に役立たない場合があります。さらに、一部の属性には、完全に非表示または削除する必要のある機密情報が含まれている場合があります。これにより、機械学習用のデータセットがより意味のあるものになります。

サンプリング

プロジェクトに実際に必要なデータよりもはるかに多くのデータを収集した可能性があります。大きなデータセットは多くのメモリスペースを消費します。また、機械学習アルゴリズムにフィードすると、実行時間が長くなり、計算量が大幅に増加します。これらの問題を回避するには、モデルで簡単に使用できる、選択したデータの小さなサンプルを作成する必要があります。このプロセスはサンプリングと呼ばれます。

特徴工学

ここでは、データセットを分析して、問題の解決と予測に役立つ最適な機能とパターンを決定します。したがって、このプロセスでは、一部のデータが大きなデータセットから削除される場合があります。モデルに適した最も重要な機能に焦点が当てられています。

データを小さな部分に分解して、重要な機能を特定できます。たとえば、特定の年の売上データを月と曜日に分割できます。このようにして、販売実績の分析がより簡単かつ迅速になります。これは、機械学習アルゴリズムの計算を高速化するのにも役立ちます。

データの分割

次に、データをトレーニング、テスト、検証の3つのセットに分割する必要があります。セットごとにそれぞれ70％、20％、10％に分割する必要があります。適切なテストのために、重複しないデータサブセットのみを選択するようにしてください。データセットを適切に分割して、機械学習モデルが目的の出力にすばやく到達できるようにします。後でデータモデルを改良できます。

これで、機械学習アルゴリズムのデータセットをキュレートする方法を学びました。しかし、プロジェクトが予定されていて、独自のデータセットを構築する時間がない場合はどうでしょうか。インターネットのおかげで、すぐに使えるデータセットがたくさんあり、そこから選択することができます。

オンラインの機械学習データセット

Webでの機械学習に最も役立つデータセットは次のとおりです。

ボストン住宅データセット

機械学習のデータセットの中で人気のある選択肢。パターン認識に使用されます。これは、部屋の数、税率、地域の犯罪率などのデータを含む、さまざまなボストンの家に関する情報で構成されています。データ列の506行と14変数で構成されるデータセットは、住宅価格の予測に適しています。

パーキンソンデータセット

このデータセットは、195の患者記録と、生物医学的測定値を持つ23の異なる属性で構成されています。データセットを使用して、健康な患者とパーキンソン病の患者を区別できます。

IMDB

25,000件の映画レビューで構成されるデータセット。これは、バイナリ感情分類に使用されます。

MIMIC-III

これは、MITラボの計算生理学によって作成された公開されているデータセットです。これは、約40,000人の救命救急患者の健康データで構成されています。投薬、臨床検査、バイタルサイン、人口統計などの情報がここに含まれています。

バークレーディープドライブBDD100k

Berkeley DeepDrive BDD100kは現在、自動運転車の機械学習プログラムの開発に使用される最大のデータセットです。さまざまな気候条件で1日のさまざまな時間に運転する100,000本以上のビデオが含まれています。データはニューヨークとサンフランシスコの都市に基づいています。

Uberピックアップデータセット

このデータセットには、2014年4月から9月にニューヨークで行われたUberの顧客ピックアップに関する情報が含まれています。このタイプの顧客データは約450万件あり、2015年1月から6月までにさらに1,400万件あります。このデータセットを使用してデータ分析を実行し、顧客に関する詳細情報を収集できます。これは、企業がビジネスを大幅に強化するのに役立ちます。

モール顧客データセット

これには、モールを訪れる人々に関する情報が含まれています。データセットには、性別、年齢、顧客ID、支出スコアなどの詳細が含まれています。これは、ターゲットマーケティングで非常に役立ちます。年齢や支出スコアなどのデータに基づいて、企業は顧客をグループに分割できます。彼らはこれらのグループのためにユニークな顧客体験を作り出すことができます。

結論

適切な単語やフレーズが詩を長くあなたのそばにとどまらせるように、プロジェクトを成功させるには適切なデータセットが必要です。これが、最高の企業の多くが、特定の機械学習システムに最適なデータセットを作成するタスクのためにデータエンジニアを採用する理由です。したがって、機械学習用のデータセットを準備するときは時間をかけてください。

機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

機械学習用のデータセットとは何ですか？

データは機械学習にとって最も重要なコンポーネントです。データセットは、学習に使用される情報のコレクションです。データセットは通常、トレーニングデータとは異なるソースからのものです。このデータは、モデルがどの程度うまく機能しているかを評価するために使用されます。たとえば、画像分類子をトレーニングするには、ImageNetコレクションの画像を使用します。画像はトレーニングデータセットとテストデータセットの両方に存在する可能性がありますが、別個のカテゴリに含まれている必要があることに注意してください。データセットのもう1つの一般的な使用法は、画像認識アルゴリズムをトレーニングすることです。アルゴリズムをトレーニングするには、猫の画像が1万枚、犬の画像が1万枚必要です。 ImageNetは、業界で広く使用されているデータセットの1つです。

機械学習の検証データセットとは何ですか？

教師あり機械学習では、入力のサンプルとそれらの目的の出力で構成されるトレーニングデータセットがあります。検証データセットは、モデル/モデルパラメーターがトレーニングされていない2番目のデータセットです。モデル/モデルパラメータは、トレーニングデータセットで推定されます。検証データセットは、見えないサンプル、つまりテストサンプルの教師あり学習モデルの期待される精度を推定するために使用されます。検証データセットは、教師あり学習モデルの汎化誤差を測定または推定するために使用されます。

機械学習で使用される一般的なデータセットは何ですか？

機械学習を改善するために使用できるデータセットがいくつかあります。それらのいくつかは次のとおりです。世帯収入と人口統計調査データ、事業主の米国国勢調査局調査、株式市場価格、米国市民の年齢と性別、米国の州のエネルギー使用、購入、販売、賃貸された住宅の割合、Twitterハッシュタグ、Facebook Facebookの人々のいいねやその他の活動、ImageNet Large Scale Visual Recognition Challenge（ILSVRC）データセット、米国の主要港からの月間出荷量など。機械学習に使用できるデータセットは他にもたくさんあります。