В области глубокого обучения мы часто видим новости о рейтинге определенной модели. Главный прорыв в задаче алгоритма нейронной сети зависит, во-первых, от набора данных, а во-вторых, от структуры модели.
Прорыв в области изображений, набор данных ImageNet незаменим, в этом важность набора данных, потому что он записывает информацию о целевой функции.
Но из предыдущего раздела мы узнали, что набор данных ошибочен, он не может полностью записать информацию о целевой функции, и часть ее будет потеряна. Качество набора данных заключается в сохранении в нем информации о целевой функции.
Задача этапа обучения - использовать информацию в наборе данных (функция набора данных d(x)) для восстановления целевой функции o(x). Из-за различных ограничений мы получим только функцию f(x), которая аппроксимирует целевую функцию.
Хорошая модель имеет соответствующую функциональную форму, более близкую к целевой функции, которая может лучше компенсировать дефекты набора данных и получать лучшие результаты.
Визуальный дисплей
2 балла
Чтобы процитировать пример из предыдущего раздела, в наборе данных есть 2 точки, и уровень сохранения информации в этом наборе данных очень низок.
Набор данных
Сделайте разные предположения о его функциональной форме:
Форма прямой
w3
Параболическая форма
Регулируя параметры w, мы можем получить бесчисленное количество парабол, и все они могут идеально имитировать функцию набора данных d(x)
Есть много других функциональных форм, и сама функциональная форма бесконечна. Другие формы функций также могут идеально имитировать функцию набора данных d(x)
3 балла
Форма прямой
w3
Параболическая форма
5 баллов
Форма прямой
w25
Параболическая форма
С увеличением количества точек функциональная форма приближается к прямой, но возможности все еще безграничны.
Суммировать
Информация в виде целевой функции не может быть получена из данных, и существует бесконечное количество возможностей.
Спроектировать структуру нейронной сети
Информации в наборе данных недостаточно. Нам необходимо получить дополнительную информацию из других источников и использовать ее для управления структурным дизайном нейронной сети, чтобы восполнить недостаток информации.
Специальная структура
В различных задачах глубокого обучения хорошие модели используют узкоспециализированные структуры. нравиться:
Многие специализированные структуры разработаны с учетом процесса обработки определенной целевой функции. Например, CNN моделирует организационную структуру зрительного нерва.
Хотя конкретная форма целевой функции неизвестна, люди часто могут получить некоторую ее информацию и получить лучшие результаты, моделируя процесс обработки целевой функции.
Структурный дизайн
Структура нейронной сети - это скелет алгоритма, который напрямую определяет конечный потенциал алгоритма. Если скелет плохо спроектирован, независимо от того, как вы его тренируете, он будет неудовлетворительным только в конце.
w1
b2
Несоответствующая структура
a1
b0
c0
Соответствующая структура
Структура нейронной сети не может быть получена путем обучения и обычно требует искусственного проектирования.
Существует также поиск архитектуры с помощью алгоритмов, то есть проба множества различных архитектур и выбор лучшей в соответствии с конечным обучающим эффектом, что требует огромных вычислительных мощностей и подходит только для очень небольшого числа учреждений. с сильными финансовыми ресурсами.
Чтобы искусственно спроектировать хорошую структуру нейронной сети, нам понадобятся:
Иметь определенное понимание или разумное предположение о целевой функции, соответствующей задаче;
Ознакомиться с общей структурой нейронной сети и понять ее принцип;
Используйте эти структуры, чтобы собрать в структуру, аналогичную целевой функции.
Суммировать
Набор данных не может предоставить достаточно информации, и структура нейронной сети должна восполнять недостаток информации.
Информация о структуре нейронной сети поступает из понимания и моделирования процесса обработки целевой функции.
проблема
Нейронные сети могут моделировать произвольные функции, так зачем нам проектировать ее структуру?