10 лучших методов глубокого обучения, о которых вы должны знать

Опубликовано: 2020-05-29

Оглавление

Введение

Машинное обучение и искусственный интеллект за последние несколько лет изменили мир вокруг нас благодаря своим прорывным инновациям. Кроме того, именно различные методы глубокого обучения выводят машинное обучение на совершенно новый уровень, когда машины могут научиться различать задачи, вдохновленные нейронной сетью человеческого мозга. Именно поэтому у нас есть голосовое управление на наших смартфонах и пультах от телевизора.

Существуют различные типы моделей глубокого обучения , которые являются точными и эффективно решают проблемы, слишком сложные для человеческого мозга. Вот как:

10 лучших методов глубокого обучения

1. Классические нейронные сети

Также известные как полносвязные нейронные сети, их часто идентифицируют по многослойным персептронам, где нейроны связаны с непрерывным слоем. Он был разработан Фрэн Розенблатт, американским психологом, в 1958 году. Он включает в себя адаптацию модели к фундаментальным входным двоичным данным. В эту модель включены три функции:

  • Линейная функция: Правильно названная, она представляет собой одну линию, которая умножает свои входные данные на постоянный множитель.
  • Нелинейная функция: она далее делится на три подмножества:
  1. Сигмовидная кривая: это функция, интерпретируемая как S-образная кривая с диапазоном значений от 0 до 1.
  2. Гиперболический тангенс (tanh) относится к S-образной кривой, имеющей диапазон от -1 до 1.
  3. Выпрямленная линейная единица (ReLU): это одноточечная функция, которая дает 0, когда входное значение меньше установленного значения, и дает линейное кратное значение, если заданное входное значение выше установленного значения.

Лучше всего работает в:

  1. Любой набор табличных данных, в котором строки и столбцы отформатированы в формате CSV.
  2. Проблемы классификации и регрессии с вводом реальных значений
  3. Любая модель с максимальной гибкостью, например, ANNS

2. Сверточные нейронные сети

CNN — это продвинутый и перспективный тип классической модели искусственной нейронной сети. Он создан для решения более сложных задач, предварительной обработки и компиляции данных. Он основан на порядке расположения нейронов в зрительной коре головного мозга животных.

CNN можно рассматривать как одну из наиболее эффективных гибких моделей для специализации как на изображениях, так и на данных, не связанных с изображениями. У них есть четыре разные организации:

  • Он состоит из одного входного слоя, который обычно представляет собой двумерное расположение нейронов для анализа данных первичного изображения, что аналогично пикселям фотографии.
  • Некоторые CNN также состоят из одномерного выходного слоя нейронов, которые обрабатывают изображения на своих входах через разрозненные связанные сверточные слои.
  • CNN также имеют третий уровень, известный как уровень выборки, чтобы ограничить количество нейронов, участвующих в соответствующих сетевых слоях.
  • В целом, CNN имеют один или несколько связанных слоев, которые соединяют выборку с выходными слоями.

Эта сетевая модель может помочь получить соответствующие данные изображения в виде меньших единиц или фрагментов. Нейроны, присутствующие в сверточных слоях, отвечают за кластер нейронов в предыдущем слое.

После того, как входные данные импортированы в сверточную модель, в построении CNN участвуют четыре этапа:

  • Свертка: процесс выводит карты объектов из входных данных, после чего к этим картам применяется функция.
  • Max-Pooling: помогает CNN обнаруживать изображение на основе заданных модификаций.
  • Сведение: на этом этапе сгенерированные данные затем сглаживаются для анализа CNN.
  • Полное соединение: его часто называют скрытым слоем, который компилирует функцию потерь для модели.

CNN подходят для таких задач, как распознавание изображений, анализ изображений, сегментация изображений, анализ видео и обработка естественного языка. Однако могут быть и другие сценарии, в которых сети CNN могут оказаться полезными, например:

  • Наборы данных изображений, содержащие анализ документов OCR
  • Любые двумерные входные данные, которые можно в дальнейшем преобразовать в одномерные для более быстрого анализа.
  • Модель должна быть включена в ее архитектуру, чтобы получить результат.

Подробнее: Конвуляционная нейронная сеть

3. Рекуррентные нейронные сети (RNN)

RNN были впервые разработаны, чтобы помочь предсказывать последовательности, например, алгоритм Long Short-Term Memory (LSTM) известен своими многочисленными функциями. Такие сети полностью работают с последовательностями данных переменной входной длины.

RNN помещает знания, полученные из своего предыдущего состояния, в качестве входного значения для текущего прогноза. Следовательно, это может помочь в достижении кратковременной памяти в сети, что приводит к эффективному управлению изменениями цен на акции или другим системам данных, основанным на времени.

Как упоминалось ранее, существует два общих типа проектов RNN, которые помогают в анализе проблем. Они есть:

  • LSTM: полезны для прогнозирования данных во временных последовательностях с использованием памяти. У него есть три входа: Вход, Выход и Забыть.
  • Закрытые RNN: также полезны для прогнозирования временных последовательностей данных через память. У него есть два входа — «Обновление» и «Сброс».

Лучше всего работает в:

  • Один к одному: один вход, подключенный к одному выходу, например классификация изображений.
  • Один ко многим: один вход, связанный с выходными последовательностями, например, подписи к изображениям, которые включают несколько слов из одного изображения.
  • Многие к одному: ряд входных данных, генерирующих один результат, например анализ настроений.
  • Многие ко многим: серия входных данных, дающая серию выходных данных, например, классификация видео.

Он также широко используется в языковом переводе, моделировании разговора и многом другом.

Получите лучший онлайн-курс по машинному обучению в лучших университетах мира. Заработайте программы Masters, Executive PGP или Advanced Certificate Programs, чтобы ускорить свою карьеру.

4. Генеративные состязательные сети

Это комбинация двух методов глубокого обучения нейронных сетей — генератора и дискриминатора. В то время как сеть генераторов дает искусственные данные, дискриминатор помогает различать настоящие данные от ложных.

Обе сети являются конкурентоспособными, поскольку Генератор продолжает создавать искусственные данные, идентичные реальным данным, а Дискриминатор постоянно обнаруживает реальные и ненастоящие данные. В сценарии, где требуется создать библиотеку изображений, сеть Generator будет создавать смоделированные данные для аутентичных изображений. Затем он сгенерирует нейронную сеть деконволюции.

Затем за ним следует сеть детекторов изображений, чтобы различать настоящие и поддельные изображения. Начиная с вероятности точности 50% , детектору необходимо повысить качество классификации, поскольку генератор будет лучше генерировать искусственное изображение. Такая конкуренция в целом способствовала бы эффективности и скорости сети.

Лучше всего работает в:

  • Генерация изображений и текста
  • Улучшение изображения
  • Процессы обнаружения новых лекарств

5. Самоорганизующиеся карты

SOM или самоорганизующиеся карты работают с помощью неконтролируемых данных, что уменьшает количество случайных переменных в модели. В этом типе метода глубокого обучения выходное измерение фиксируется как двумерная модель, поскольку каждый синапс соединяется со своими входными и выходными узлами.

По мере того, как каждая точка данных конкурирует за свое представление модели, SOM обновляет вес ближайших узлов или наиболее подходящих единиц (BMU) . В зависимости от близости BMU значение весов изменяется. Поскольку веса сами по себе считаются характеристикой узла, значение представляет местоположение узла в сети.

Лучше всего работает в:

  • Когда в наборах данных нет значений по оси Y
  • Исследования проекта для анализа структуры набора данных
  • Креативные проекты в музыке, видео и тексте с помощью ИИ

6. Машины Больцмана

Эта сетевая модель не имеет какого-либо предопределенного направления, поэтому ее узлы соединены по кругу. Из-за такой уникальности этот метод глубокого обучения используется для получения параметров модели.

В отличие от всех предыдущих моделей детерминированных сетей, модель машин Больцмана называется стохастической.

Лучше всего работает в:

  • Мониторинг системы
  • Настройка бинарной рекомендательной платформы
  • Анализ конкретных наборов данных

Читайте: Пошаговые методы создания собственной системы искусственного интеллекта сегодня

7. Глубокое обучение с подкреплением

Прежде чем понять технику глубокого обучения с подкреплением, обучение с подкреплением относится к процессу, в котором агент взаимодействует со средой, чтобы изменить ее состояние. Агент может наблюдать и предпринимать соответствующие действия, агент помогает сети достичь своей цели, взаимодействуя с ситуацией.

Здесь, в этой сетевой модели, есть входной слой, выходной слой и несколько скрытых множественных слоев, где состоянием среды является сам входной слой. Модель работает на непрерывных попытках предсказать будущую награду за каждое действие, предпринятое в данном состоянии ситуации.

Лучше всего работает в:

  • Настольные игры, такие как шахматы, покер
  • Самоуправляемые автомобили
  • Робототехника
  • Управление запасами
  • Финансовые задачи, такие как оценка активов

8. Автоэнкодеры

Эта модель, один из наиболее часто используемых типов методов глубокого обучения , работает автоматически на основе своих входных данных, прежде чем принимать функцию активации и декодировать окончательный результат. Такое формирование узкого места приводит к получению меньших категорий данных и использованию большинства присущих структур данных.

Типы автоэнкодеров:

  • Разреженный — количество скрытых слоев превышает число входных слоев, чтобы применить подход обобщения для уменьшения переобучения. Это ограничивает функцию потерь и не позволяет автоэнкодеру чрезмерно использовать все свои узлы.
  • Шумоподавление — здесь модифицированная версия входных данных преобразуется в 0 случайным образом.
  • Сжимающий — добавление штрафного коэффициента к функции потерь, чтобы ограничить переоснащение и копирование данных, если число скрытых слоев превышает число входных.
  • Сложенный — для автокодировщика, когда добавляется еще один скрытый слой, это приводит к двум этапам кодирования по сравнению с одним этапом декодирования.

Лучше всего работает в:

  • Обнаружение функций
  • Настройка убедительной модели рекомендаций
  • Добавляйте функции в большие наборы данных

Читайте: Регуляризация в глубоком обучении

9. Обратное распространение

В глубоком обучении метод обратного распространения или обратной опоры называется центральным механизмом, с помощью которого нейронные сети узнают о любых ошибках в прогнозировании данных. Распространение, с другой стороны, относится к передаче данных в заданном направлении по выделенному каналу. Вся система может работать в соответствии с распространением сигнала в прямом направлении в момент принятия решения, а обратно отправляет любые данные о недостатках в сети.

  • Сначала сеть анализирует параметры и принимает решение по данным
  • Во-вторых, он взвешивается функцией потерь.
  • В-третьих, обнаруженная ошибка распространяется обратно для самостоятельной настройки любых неверных параметров.

Лучше всего работает в:

  • Отладка данных

10. Градиентный спуск

В математическом контексте градиент относится к уклону, который имеет измеримый угол и может быть представлен в виде отношения между переменными. В этом методе глубокого обучения отношение между ошибкой, создаваемой в нейронной сети, и ошибкой параметров данных может быть представлено как «x» и «y». Так как переменные в нейронной сети динамические, то ошибка может быть увеличена или уменьшена небольшими изменениями.

Многие профессионалы визуализируют эту технику как речную тропу, спускающуюся по горным склонам. Задача такого метода — найти оптимальное решение. Поскольку в нейронной сети присутствует несколько локальных минимальных решений, в которых данные могут застревать и приводить к более медленным, некорректным компиляциям — есть способы воздержаться от таких событий.

Что касается ландшафта горы, то в нейронной сети есть определенные функции, называемые выпуклыми функциями, которые поддерживают поток данных с ожидаемой скоростью и достигают своего минимума. Могут быть различия в методах, используемых данными, поступающими в конечный пункт назначения, из-за различий в начальных значениях функции.

Лучше всего работает в:

  • Обновление параметров в заданной модели

Также читайте: 15 интересных идей проектов машинного обучения для начинающих

Подведение итогов

Существует несколько методов глубокого обучения, которые отличаются функциональностью и практическим подходом. Как только эти модели будут идентифицированы и помещены в правильные сценарии, это может привести к созданию высококачественных решений на основе структуры, используемой разработчиками. Удачи!

Ознакомьтесь с программой продвинутой сертификации в области машинного обучения и облачных вычислений от IIT Madras, лучшей инженерной школы в стране, чтобы создать программу, которая научит вас не только машинному обучению, но и его эффективному развертыванию с использованием облачной инфраструктуры. Наша цель в этой программе - открыть двери самого избирательного института в стране и предоставить учащимся доступ к замечательным преподавателям и ресурсам, чтобы овладеть навыком, который находится на высоком и растущем уровне.

Что такое общие состязательные сети?

Это гибрид двух методов нейронных сетей глубокого обучения: генераторов и дискриминаторов. В то время как сеть генераторов генерирует фиктивные данные, дискриминатор помогает различать фактические и фиктивные данные. Поскольку Генератор продолжает создавать ложные данные, идентичные подлинным, а Дискриминатор продолжает распознавать настоящие и ненастоящие данные, обе сети конкурируют друг с другом. Сеть Generator будет генерировать результаты моделирования для подлинных фотографий в случае, когда требуется библиотека изображений. После этого он создаст нейронную сеть деконволюции.

В чем польза самоорганизующихся карт?

SOM, или самоорганизующиеся карты, работают за счет уменьшения количества случайных переменных в модели за счет использования неконтролируемых данных. Поскольку каждый нейрон соединяется со своими входными и выходными узлами, размерность результата задается как двумерная модель в этом виде техники глубокого обучения. SOM корректирует значение ближайших узлов или наиболее подходящих единиц, поскольку каждая точка данных делает ставку на свое модельное представление (BMU). Значение весов варьируется в зависимости от того, насколько близко находится BMU. Поскольку веса сами по себе считаются характеристиками узла, значение означает положение узла в сети.

Что такое обратное распространение?

Алгоритм обратного распространения или подход обратного распространения является важным требованием для нейронных сетей, чтобы узнавать о любых сбоях в прогнозировании данных в глубоком обучении. С другой стороны, распространение относится к передаче данных в определенном направлении по определенному каналу. В момент выбора вся система может работать в соответствии с распространением сигнала в прямом направлении и отправлять обратно любые данные о сбоях в сети в обратном направлении.