Neural Network

Русский

Что такое нейронная сеть
1. Погрузитесь в нейрон
2. Как нейронная сеть имитирует произвольную функцию
3. Зачем нужны нейронные сети
Как построить нейронную сеть
1. Полностью подключенная нейронная сеть
2. Используйте графический инструмент для проектирования нейронной сети
3. «Функция активации» выходного слоя
Как обучить нейронную сеть
1. Алгоритм и принцип обучения
2. Создавайте и обучайте нейронные сети с нуля
3. Перепишите код с помощью PyTorch
4. Используйте графический инструмент для обучения нейронной сети
Некоторые важные проблемы нейронной сети
1. Структура сети
2. Переоснащение
3. Недостаточное оснащение
4. Переоснащение против недостаточного
5. Инициализация
6. Исчезающий градиент и взрывной градиент
Сверточная нейронная сеть (CNN)
1. 1D-свертка
2. 1D-свертка эксперименты
3. 1D-пул
4. 1D-CNN эксперименты
5. 2D-CNN
6. 2D-CNN эксперименты
Рекуррентная нейронная сеть (RNN)
1. Ванильный RNN
2. Seq2seq, Autoencoder, Encoder-Decoder
3. Расширенный RNN
4. Классификационный эксперимент RNN
Обработка естественного языка
1. Embedding: преобразование символов в значения
2. Классификация текста 1
3. Классификация текста 2
4. TextCNN
5. Признание лица
6. Сегментация слов, теги и фрагменты части речи
7. Маркировка последовательности в действии
8. Двунаправленный RNN
9. BI-LSTM-CRF
10. Внимание
Модели языка
1. Модель n-грам: Unigram
2. Модель n-грам: Bigram
3. Модель n-грам: Trigram
4. Модель RNN языка
5. Модель Transformer языка
Линейная алгебра
1. Вектор
2. Матрица
3. Погрузитесь в умножение матриц
4. Тензор

Погрузитесь в нейрон

Обзор

Из предыдущего раздела (Что такое нейронная сеть) мы узнали, что нейронная сеть - это функция, состоящая из нейронов, и нейрон также является функцией.

Нейрон можно разделить на 2 подфункции:

линейная функция элемента $n$ : $g(x_1, ..., x_n)$
унарная нелинейная функция: $h(x)$

Функция, представленная нейроном:

f(x_1, ..., x_n) = h(g(x_1, ..., x_n))

Линейная функция $g(x_1, ..., x_n)$

Линейная функция имеет следующий вид:

g(x_1, ..., x_n) = w_1x_1 + ..., w_nx_n + b

Среди них $w_1, ..., w_n, b$ - все параметры, а разные линейные функции имеют разные параметры.

Унарная линейная функция

Когда $n = 1$ , $g(x_1) = w_1x_1 + b$ , изображение функции представляет собой прямую линию:


 $w_1$ 1
 $b$ 0

Двоичная линейная функция

Когда $n = 2$ , $g(x_1, x_2) = w_1x_1 + w_2x_2 + b$ , изображение функции является плоскостью:


 $w_1$ 0
 $w_2$ 1
 $b$ 0

Линейная функция элемента $n$

Когда $n > 2$ , изображение функции является гиперплоскостью. За пределами 3D визуализация неудобна. Но вы можете себе представить, что характеристика у него прямая.

Нелинейная функция $h(x)$

Из названия легко понять, что нелинейная функция - это функция, отличная от линейной функции. Линейная функция - прямая, а нелинейная - кривая. Например, наиболее распространенная функция sigmoid:

Функция активации

В нейронных сетях мы называем эту унарную нелинейную функцию функцией активации. Чтобы узнать о некоторых распространенных функциях активации, обратитесь к функция активации в базе знаний, где:

Linear: $f(x) = x$ является линейной функцией, что означает, что нелинейная функция не используется
Softmax - особый случай. Строго говоря, это не функция активации

Необходимость

Почему за нелинейной функцией активации следует линейная функция?

Это потому что:

Если все нейроны являются линейными функциями, то нейронная сеть, состоящая из нейронов, также является линейной функцией.

Например, в следующем примере:

$f_1(x, y) = w_1x + w_2y + b_1$
$f_2(x, y) = w_3x + w_4y + b_2$
$f_3(x, y) = w_5x + w_6y + b_3$

Тогда функция, представленная всей нейронной сетью, будет следующей:

\begin{aligned} &f_3(f_1(x_1, x_2, x_3), f_2(x_1, x_2, x_3)) \\ = &w_5(w_1x_1 + w_2x_2 + b_1) + w_6(w_3x_2 + w_4x_3 + b_2) + b_3 \\ = &(w_1w_5)x_1 + (w_2w_5 + w_3w_6)x_2 + (w_4w_6)x_3 + (w_5b_1 + w_6b_2 + b_3) \\ \end{aligned}

Это троичная линейная функция.

Целевая функция, которую нам нужно построить, содержит различные функции, и линейная функция - лишь одна из них.

Мы надеемся, что нейронные сети могут моделировать произвольные функции, а не только линейные функции. Поэтому мы добавили нелинейную функцию активации и «согнули» линейную функцию.

Полный нейрон

Полный нейрон сочетает в себе линейную функцию и нелинейную функцию активации, что делает его более интересным и мощным.

Унарная функция

Когда $n = 1$ , $g(x_1) = w_1x_1 + b$ , используя функцию активации sigmoid, соответствующая функция нейрона будет:

h(g(x))=\text{sigmoid}(wx + b)

Функциональное изображение:


 $w$ 1
 $b$ 0

Двоичная функция

Когда $n = 2$ , $g(x_1, x_2) = w_1x_1 + w_2x_2 + b$ , используя функцию активации sigmoid, соответствующая функция нейрона будет:

h(g(x))=\text{sigmoid}(w_1x_1 + w_2x_2 + b)

Функциональное изображение:


 $w_1$ 0
 $w_2$ 1
 $b$ 0

$n$ -элементная функция

Из-за проблемы с визуализацией это полностью зависит от моего воображения! 😥

Вопрос

Почему нейронная сеть может моделировать сложные функции из комбинации нейронов?

Вы можете интуитивно представить себе, как с помощью простых нейронов смоделировать несколько более сложную функцию.