畳み込みニューラルネットワーク:2022年の初心者のための究極のガイド

公開: 2021-01-05

「データサイエンス」をグーグルですばやく検索すると、誰にでもその方法が明確にわかります。
この分野は過去5年間で人気を博しています。 データサイエンスとともに、人工
インテリジェンス、機械学習、ディープラーニングも人気のラウンドを行っています
コンピュータサイエンスの分野。 このリストに追加される最新のものは畳み込みニューラルです
ネットワーク—コンピュータビジョンの分野からの革新。

目次

それはどこから始まったのですか?

ニューラルネットワークは、アレックスクリジェフスキーが優勝した2012年に実際にヒットしました
その年のImageNetコンペティション。 この競争はコンピューターのオリンピックに似ています
ビジョンとアレックスがそれらを使用したとき、分類エラーは26%から15%に低下しました。

これは、企業とコンピューターが間違いなく希望のレーザー光線でした
科学者が必要でした。 それ以来、Instagram、Facebook、Pinterestなどの企業。
最高の体験を提供するために熱心にニューラルネットワークを実装しました
彼らの聴衆。 読む:ニューラルネットワークチュートリアル。

畳み込みニューラルネットワークの生物学的接続も、
基礎が明確。 1962年、ヒューベルとヴィーゼルは、
視覚野は、特定の視覚的手がかりが存在する場合にのみ発火しました。 一緒に、これら
ニューロンは円柱状の構造をしており、発火すると集合的に視覚的に生成されます
感知。

たとえば、一部のニューロンは、水平方向のエッジにさらされたときにのみ発火しました。
他のものは、垂直または斜めのエッジの存在下で発砲しました。 したがって、異なるニューロン
さまざまな視覚的コンポーネントに反応し、私たちが見ることができるようにしました。

畳み込みニューラルネットワークとは何ですか?

CNNまたはConvNetとも呼ばれる畳み込みニューラルネットワークはディープラーニングです
アルゴリズム。 入力画像を取得し、のコンポーネントに重み/バイアスを割り当てます
画像を表示し、画像全体を分類します。 十分なトレーニングがあれば、ConvNetsは
フィルタ/分類を学習することができ、必要な前処理は次のように低くなります
他のアルゴリズムと比較して。 ディープラーニングとニューラルネットワークの違いについて読んでください。

最終的に畳み込みニューラルネットワークに実行させたいのは、差別化することです
画像間で正しく分類します。 時間的および一時的な両方をキャプチャすることができます
関連するフィルターの適用による空間依存性。

それがどのように機能するかの基本

画像は、画像の解像度とサイズに応じて配列になります。

配列の各エントリは、0〜255の数値で構成されます(RGBシステムが
中古)。 この数値は、その時点でのピクセル強度を表します。

これらすべての数値を入力として、コンピューターは数値を出力します。 この番号
特定のクラス(たとえば、家、
道路、バス、犬、猫など)

CNNの構造

上の画像を見ると、畳み込みの層がたくさんあると思うかもしれません
ニューラルネットワークですが、実際には、主要なものは3つしかありません。 これらには以下が含まれます:
1.畳み込み層
2.プーリングレイヤー
3.完全に接続されたレイヤー
これらのそれぞれについてさらに深く掘り下げてみましょう。

畳み込み層

これは、畳み込みニューラルネットワークのコアレイヤーです。 そのパラメータは
フィルタのセットで構成されています。 これらのフィルターは小さいですが、
入力音量。

畳み込み層で実行される主なタスクは、高レベルの抽出です。
特徴。 最初のもの(上の画像に示されているように)は、低-を抽出する責任があります
色、エッジなどのレベルの特徴。後続の畳み込み層は、
したがって、高レベルの機能により、画像の完全な理解/閲覧につながります。

プーリングレイヤー

このレイヤーは、画像表現の空間サイズを縮小することを目的としています。 そういうものとして、それは
また、ニューラルネットワークでの計算と処理の量を減らすのに役立ちます。
さらに、位置的および回転的に主要な特徴を抽出します
不変。

プーリングの1つのタイプは、Max操作を使用して実行されます。 この操作は、
前の層の各ニューロンクラスターからの最大値。 他のタイプのプーリング
は、クラスターから平均値を返す平均プーリングです。
最大プーリングはノイズ抑制剤としても機能するため、平均よりも優れたパフォーマンスを発揮します
プーリング。

上の画像に示されているように、に加えて複数のプーリングレイヤーがあります
畳み込み層。 これらのレイヤーの数が多いほど、低レベルの機能が多くなります
抽出されます。 ただし、消費される計算能力も増加します。

これで、画像は現在のすべての畳み込みおよびプーリングを通過しました
レイヤー、特徴抽出が完了しました。 今度は画像の分類の時間です。 完全に接続されたレイヤーがこのタスクを実行します。

完全に接続されたレイヤー(FCL)

最後の層として、FC層は単にフィードフォワードニューラルネットワークです。 への入力
完全に接続された層は、最後のプーリング/畳み込みの平坦化された出力です
層。 平坦化とは、3次元の行列または配列がベクトルに展開されることを意味します。

FCレイヤーごとに、特定の数学的計算が行われます。 ベクトルが完全に接続されたすべてのレイヤーを通過した後、softmax活性化関数が最終レイヤーで使用されます。 これは、特定のタスクに属する入力の確率を計算するために使用されます。

したがって、最終結果は、異なるクラスに属する入力画像の異なる確率になります。

このプロセスは、さまざまなタイプの画像とそれらのタイプ内の個々の画像に対して繰り返されます。 これはネットワークを訓練し、犬と猫、そしてバラとヒマワリを区別するように教えます。

取り除く

畳み込みニューラルネットワークの基盤となるテクノロジーは、継続的に改良されています。 ネットワークは、正確な確率を出力するように高度にトレーニングされています。 それは正しく言うことができます:コンピュータビジョンの分野では、CNNは単独で革命を綴ります。

機械学習とAIのPGディプロマを確認できます。このディプロマでは、実践的なハンズオンワークショップ、1対1の業界メンター、12のケーススタディと課題、IIIT-B卒業生のステータスなどを提供しています。

AI主導の技術革命をリードする

機械学習と人工知能におけるPGディプロマ
もっと詳しく知る