lab
Neural Network
Русский

Структура сети

Обзор

В области глубокого обучения мы часто видим новости о рейтинге определенной модели. Главный прорыв в задаче алгоритма нейронной сети зависит, во-первых, от набора данных, а во-вторых, от структуры модели.


Прорыв в области изображений, набор данных ImageNet незаменим, в этом важность набора данных, потому что он записывает информацию о целевой функции. Но из предыдущего раздела мы узнали, что набор данных ошибочен, он не может полностью записать информацию о целевой функции, и часть ее будет потеряна. Качество набора данных заключается в сохранении в нем информации о целевой функции.


Задача этапа обучения - использовать информацию в наборе данных (функция набора данных d(x)d(\mathbf x)) для восстановления целевой функции o(x)o(\mathbf x). Из-за различных ограничений мы получим только функцию f(x)f(\mathbf x), которая аппроксимирует целевую функцию.


Хорошая модель имеет соответствующую функциональную форму, более близкую к целевой функции, которая может лучше компенсировать дефекты набора данных и получать лучшие результаты.

Визуальный дисплей

2 балла

Чтобы процитировать пример из предыдущего раздела, в наборе данных есть 2 точки, и уровень сохранения информации в этом наборе данных очень низок.

Набор данных

Сделайте разные предположения о его функциональной форме:

Форма прямой
ww3
Параболическая форма

Регулируя параметры ww, мы можем получить бесчисленное количество парабол, и все они могут идеально имитировать функцию набора данных d(x)d(\mathbf x)


Есть много других функциональных форм, и сама функциональная форма бесконечна. Другие формы функций также могут идеально имитировать функцию набора данных d(x)d(\mathbf x)

3 балла

Форма прямой
ww3
Параболическая форма

5 баллов

Форма прямой
ww25
Параболическая форма

С увеличением количества точек функциональная форма приближается к прямой, но возможности все еще безграничны.

Суммировать

Информация в виде целевой функции не может быть получена из данных, и существует бесконечное количество возможностей.

Спроектировать структуру нейронной сети

Информации в наборе данных недостаточно. Нам необходимо получить дополнительную информацию из других источников и использовать ее для управления структурным дизайном нейронной сети, чтобы восполнить недостаток информации.

Специальная структура

В различных задачах глубокого обучения хорошие модели используют узкоспециализированные структуры. нравиться:


Многие специализированные структуры разработаны с учетом процесса обработки определенной целевой функции. Например, CNN моделирует организационную структуру зрительного нерва. Хотя конкретная форма целевой функции неизвестна, люди часто могут получить некоторую ее информацию и получить лучшие результаты, моделируя процесс обработки целевой функции.

Структурный дизайн

Структура нейронной сети - это скелет алгоритма, который напрямую определяет конечный потенциал алгоритма. Если скелет плохо спроектирован, независимо от того, как вы его тренируете, он будет неудовлетворительным только в конце.

ww1
bb2
Несоответствующая структура
aa1
bb0
cc0
Соответствующая структура

Структура нейронной сети не может быть получена путем обучения и обычно требует искусственного проектирования.


Существует также поиск архитектуры с помощью алгоритмов, то есть проба множества различных архитектур и выбор лучшей в соответствии с конечным обучающим эффектом, что требует огромных вычислительных мощностей и подходит только для очень небольшого числа учреждений. с сильными финансовыми ресурсами.


Чтобы искусственно спроектировать хорошую структуру нейронной сети, нам понадобятся:

  1. Иметь определенное понимание или разумное предположение о целевой функции, соответствующей задаче;
  2. Ознакомиться с общей структурой нейронной сети и понять ее принцип;
  3. Используйте эти структуры, чтобы собрать в структуру, аналогичную целевой функции.

Суммировать

  1. Набор данных не может предоставить достаточно информации, и структура нейронной сети должна восполнять недостаток информации.
  2. Информация о структуре нейронной сети поступает из понимания и моделирования процесса обработки целевой функции.

проблема

Нейронные сети могут моделировать произвольные функции, так зачем нам проектировать ее структуру?