Neural Network

Русский

Что такое нейронная сеть
1. Погрузитесь в нейрон
2. Как нейронная сеть имитирует произвольную функцию
3. Зачем нужны нейронные сети
Как построить нейронную сеть
1. Полностью подключенная нейронная сеть
2. Используйте графический инструмент для проектирования нейронной сети
3. «Функция активации» выходного слоя
Как обучить нейронную сеть
1. Алгоритм и принцип обучения
2. Создавайте и обучайте нейронные сети с нуля
3. Перепишите код с помощью PyTorch
4. Используйте графический инструмент для обучения нейронной сети
Некоторые важные проблемы нейронной сети
1. Структура сети
2. Переоснащение
3. Недостаточное оснащение
4. Переоснащение против недостаточного
5. Инициализация
6. Исчезающий градиент и взрывной градиент
Сверточная нейронная сеть (CNN)
1. 1D-свертка
2. 1D-свертка эксперименты
3. 1D-пул
4. 1D-CNN эксперименты
5. 2D-CNN
6. 2D-CNN эксперименты
Рекуррентная нейронная сеть (RNN)
1. Ванильный RNN
2. Seq2seq, Autoencoder, Encoder-Decoder
3. Расширенный RNN
4. Классификационный эксперимент RNN
Обработка естественного языка
1. Embedding: преобразование символов в значения
2. Классификация текста 1
3. Классификация текста 2
4. TextCNN
5. Признание лица
6. Сегментация слов, теги и фрагменты части речи
7. Маркировка последовательности в действии
8. Двунаправленный RNN
9. BI-LSTM-CRF
10. Внимание
Модели языка
1. Модель n-грам: Unigram
2. Модель n-грам: Bigram
3. Модель n-грам: Trigram
4. Модель RNN языка
5. Модель Transformer языка
Линейная алгебра
1. Вектор
2. Матрица
3. Погрузитесь в умножение матриц
4. Тензор

Что такое нейронная сеть

Обзор

Короче говоря, нейронная сеть - это функция: входные данные, выходной результат.

Функция

Возьмем распознавание рукописных цифр MNIST в качестве примера для определения соответствующей формы функции:

Тип задачи: классификация изображений
Вход: изображение содержит 28 x 28 = 784 пикселя, и каждый пиксель представлен действительным числом.
Выход: 0-9
Описание задачи: Определите уникальный номер с изображения
Определение функции

\begin{aligned} y &= f(x_1, x_2, ..., x_{784}) \\ &x_i \in \mathbb R, i = 1, ..., 784 \\ &y \in \{0, 1, ..., 9\} \end{aligned}

Это приложение нейронной сети начального уровня. Входными данными является изображение с низким разрешением (28 x 28) в оттенках серого, соответствующее функции с 784 входными переменными. Если это цветное изображение мегапикселя, соответствующие входные переменные достигнут 3 миллионов.

Видно, что нейронная сеть используется для решения некоторых сложных задач, и соответствующие функции также являются сложными. Реализация алгоритма заключается в построении соответствующей функции.

Как построить такую сложную функцию? Мы можем начать с простых функций. Самый простой и удачный пример - цифровые схемы.

Цифровые схемы

Цифровые схемы являются краеугольным камнем компьютеров и построили наш огромный цифровой мир. Но его ядро состоит из логических вентилей И, ИЛИ и НЕ.

Что такое логический вентиль? На самом деле это функция. И это самые простые функции.

Логический вентиль	выражение	функциональная форма
AND ворота	$x \land y$	$z = \land(x, y)$
OR ворота	$x \lor y$	$z = \lor(x, y)$
NOT ворота	$\lnot x$	$y = \lnot(x)$

Тип переменной: все логические переменные, только 2 значения: $\{T, F\}$ , намного проще, чем натуральные числа ( $\mathbb N$ ) и действительные числа ( $\mathbb R$ ).
Количество переменных: унарная или двоичная функция, которая также является самой простой формой функции
Представление функции: используйте таблицу истинности для описания. Почему бы не использовать изображения? Поскольку это дискретная функция, на изображении есть отдельные точки, что не очень привлекательно.

NOT ворота

$x$	$\lnot x$
$T$	$F$
$F$	$T$

NOT изображение ворот (используйте 0 для $F$ и 1 для $T$ )

AND ворота 、 OR ворота

$x$	$y$	$x \land y$	$x \lor y$
$T$	$T$	$T$	$T$
$T$	$F$	$F$	$T$
$F$	$T$	$F$	$T$
$F$	$F$	$F$	$F$

AND изображение ворот

**OR изображение ворот

Комбинированный логический вентиль

Комбинируйте простые логические вентили, чтобы получить более мощные функции.

Создайте новую бинарную функцию:

XOR: $x \oplus y = (x \land \lnot y) \lor (\lnot x \land y)$

XNOR: $x \odot y = (x \land y) \lor (\lnot x \land \lnot y)$

Постройте многомерную функцию:

3-битная операция И: $f(x, y, z) = x \land y \land z$

8-битный сумматор: $f(x_1, ..., x_8, y_1, ..., y_8)$ $f (x_{1}, ..., x_{8}, y_{1}, ..., y_{8})$
- Это 16-элементная функция, содержащая 16 логических переменных.
32-битный сумматор: $f(x*1, ..., x*{32}, y*1, ..., y*{32})$ $f (x * 1, ..., x * 32, y * 1, ..., y * 32)$
- Это 64-элементная функция, содержащая 64 логических переменных.
- Его также можно рассматривать как двоичную функцию 32-битных целых чисел: $f(x, y) \quad x, y \in \text{Int32}$

Суммировать

Комбинируя простые функции логических вентилей, можно создавать новые логические функции. Включая такие операции, как сложение, вычитание, умножение и деление 32-битных целых чисел, а также операции 32-битных типов с плавающей запятой одинарной точности и т. Д.

Язык программирования

Давайте снова посмотрим на языки программирования. Возьмите Python в качестве примера, посмотрите на элементы в Python.

Оператор

Имя	Символ	Функция
Логические операторы	and or not	Функции двоичной и унарной логики
Арифметические операторы	+, -, , /,%, *, //	Бинарные функции
Операторы сравнения	==, !=, >, <, >=, <=	Бинарные функции
...

На примере оператора сложения чисел с плавающей запятой (+) изображение функции выглядит следующим образом:

$f(x, y) = x + y$

Функции

Вы можете определять свои собственные функции в Python:

def f(x, y):
    return max(0, 2*x + 3*y - 3)

Здесь определяется новая функция. Он использует «+, -, *, max» и другие функции для создания новой функции. Метод построения также основан на композиции функций.

Суммировать

В языках программирования функции есть повсюду. Комбинируя базовые функции, можно создавать новые функции и получать новые алгоритмы.

Нейронная сеть

Нейронная сеть тоже функционирует. Подобно цифровым схемам и языкам программирования, он также состоит из простых функций. Базовыми единицами цифровых схем являются логические функции, такие как И, ИЛИ и НЕ. Базовыми единицами в языках программирования являются такие функции, как различные операторы, а основной единицей нейронных сетей являются нейроны.

Нейрон

Так что же такое нейрон? Биологический нейрон - это клетка с входными дендритами и выходными аксонами. А нейрон в нейронной сети - это искусственный нейрон, это тоже функция, точнее, это некая функция.

Количество входов нейронов может быть изменено, а это означает, что он представляет собой $n$ -элементную функцию $f(x_1, ..., x_n)$ , а $n$ может быть различным для разных нейроны.

Нейронная сеть

Нейроны объединяются друг с другом, образуя нейронную сеть. Как показано ниже:

Нейронная сеть состоит из трех нейронов (не считая входных нейронов):

$f_1(x_1, ..., x_n)$
$f_2(x_1, ..., x_n)$
$f_3(x_1, x_2)$

Функция, представленная нейронной сетью:

f(x_1, ..., x_n) = f_3(f_1(x_1, ..., x_n), f_2(x_1, ..., x_n))

Суммировать

Ядром цифровых схем (аппаратных средств) является функция, а его основными функциями являются функции логического элемента И ИЛИ НЕ;
Ядро языков программирования (программное обеспечение) - это функция, а его основные функции - это различные операторские функции и встроенные функции (предоставляемые аппаратными средствами или составные);
Ядро нейронных сетей - это тоже функция, а ее основные функции - нейроны;
Новые функции могут быть построены путем композиции простых функций. Нейронные сети - это функции, построенные из функций нейронов с помощью операций композиции функций.

Вопрос

Какую именно функцию представляет нейрон?

Недостаточно просто знать, что это функция $n$ -элемент. Все основные элементы логических элементов И, ИЛИ и НЕ в цифровых схемах составляют таблицу истинности и рисуют рисунок, но как насчет нейрона?