Neural Network

Português

O que é rede neural
1. Mergulhe no neurônio
2. Como uma rede neural simula uma função arbitrária
3. Por que precisamos de redes neurais
Como construir uma rede neural
1. Rede neural totalmente conectada
2. Use ferramenta gráfica para projetar rede neural
3. A "função de ativação" da camada de saída
Como treinar uma rede neural
1. Algoritmo e princípio de aprendizagem
2. Crie e treine redes neurais do zero
3. Reescreva o código usando PyTorch
4. Use a ferramenta gráfica para treinar a rede neural
Alguns problemas importantes da rede neural
1. Estrutura de rede
2. Sobreajuste
3. Subajuste
4. Overfitting vs underfitting
5. Inicialização
6. Gradiente desaparecendo e gradiente explosivo
Rede Neural Convolucional (CNN)
1. 1D-convolução
2. Experimentos de convolução 1D
3. 1D-pooling
4. Experimentos 1D-CNN
5. 2D-CNN
6. Experimentos 2D-CNN
Rede Neural Recorrente (RNN)
1. Baunilha RNN
2. Seq2seq, Autoencoder, Encoder-Decoder
3. RNN avançado
4. Experiência de classificação RNN
Processamento de linguagem natural
1. Incorporação: converter símbolos em valores
2. Classificação de texto 1
3. Classificação de Texto 2
4. TextoCNN
5. Reconhecimento de entidade
6. Segmentação de palavras, marcação POS e agrupamento
7. Marcação de sequência em ação
8. RNN bidirecional
9. BI-LSTM-CRF
10. Atenção
Modelos de Linguagem
1. Modelo de n-grama: Unigrama
2. Modelo de n-grama: Bigrama
3. Modelo de n-grama: Trigrama
4. Modelo de Linguagem RNN
5. Modelo de Linguagem Transformer
Álgebra Linear
1. Vetor
2. Matriz
3. Mergulhe na multiplicação de matrizes
4. Tensor

O que é rede neural

Visão geral

Em suma, a rede neural é uma função: dados de entrada, resultado de saída.

Função

Vamos usar o Reconhecimento de imagem de dígitos manuscritos MNIST como exemplo para definir a forma de função correspondente:

Tipo de tarefa: classificação de imagem
Input: uma imagem contém 28 x 28=784 pixels e cada pixel é representado por um número real
Saída: 0-9
Descrição da tarefa: identifique o número exclusivo da imagem
Definição da função

\begin{aligned} y &= f(x_1, x_2, ..., x_{784}) \\ &x_i \in \mathbb R, i = 1, ..., 784 \\ &y \in \{0, 1, ..., 9\} \end{aligned}

Esta é uma aplicação de nível de entrada da Rede Neural. A entrada é uma imagem em tons de cinza de baixa resolução (28 x 28), correspondendo a uma função com 784 variáveis de entrada. Se for uma imagem colorida de megapixels, as variáveis de entrada correspondentes chegarão a 3 milhões.

Pode-se ver que a rede neural é usada para resolver alguns problemas complexos, e as funções correspondentes também são complexas. A realização do algoritmo é construir a função correspondente.

Como construir uma função tão complicada? Podemos começar com funções simples. O exemplo mais simples e bem-sucedido são os circuitos digitais.

Circuitos digitais

Os circuitos digitais são os pilares dos computadores e construíram nosso enorme mundo digital. Mas seu núcleo é composto de portas lógicas AND, OR e NOT.

O que é uma porta lógica? Na verdade é uma função. E são as funções mais simples.

Portão lógico	expressão	formulário de função
E portão	$x \land y$	$z = \land(x, y)$
OR portão	$x \lor y$	$z = \lor(x, y)$
NÃO portão	$\lnot x$	$y = \lnot(x)$

Tipo de variável: Todas as variáveis booleanas, apenas 2 valores: $\{T, F\}$ , muito mais simples que números naturais ( $\mathbb N$ ) e números reais ( $\mathbb R$ ).
Número de variáveis: função unária ou binária, que também é a forma mais simples de função
Representação da função: use tabela-verdade para descrição. Por que não usar imagens? Por ser uma função discreta, existem alguns pontos isolados na imagem, o que não é muito atrativo.

NÃO portão

$x$	$\lnot x$
$T$	$F$
$F$	$T$

NÃO imagem do portão (use 0 para $F$ e 1 para $T$ )

portão AND, portão OR

$x$	$y$	$x \land y$	$x \lor y$
$T$	$T$	$T$	$T$
$T$	$F$	$F$	$T$
$F$	$T$	$F$	$T$
$F$	$F$	$F$	$F$

AND gate image

OR imagem do portão

Porta lógica de combinação

Combine portas lógicas simples para obter funções mais poderosas.

Construa uma nova função binária:

XOR: $x \oplus y = (x \land \lnot y) \lor (\lnot x \land y)$

XNOR: $x \odot y = (x \land y) \lor (\lnot x \land \lnot y)$

Construa uma função multivariada:

Operação AND de 3 bits: $f(x, y, z) = x \land y \land z$

Somador de 8 bits: $f(x_1, ..., x_8, y_1, ..., y_8)$ $f (x_{1}, ..., x_{8}, y_{1}, ..., y_{8})$
- É uma função de 16 elementos contendo 16 variáveis booleanas
Somador de 32 bits: $f(x*1, ..., x*{32}, y*1, ..., y*{32})$ $f (x * 1, ..., x * 32, y * 1, ..., y * 32)$
- É uma função de 64 elementos contendo 64 variáveis booleanas
- Também pode ser considerada como uma função binária de inteiros de 32 bits: $f(x, y) \quad x, y \in \text{Int32}$

Resumo

Combinando funções simples de portas lógicas, novas funções lógicas podem ser construídas. Incluindo operações como adição, subtração, multiplicação e divisão de inteiros de 32 bits e operações de tipos de ponto flutuante de precisão simples de 32 bits, etc.

Linguagem de programação

Vamos olhar para as linguagens de programação novamente. Tome Python como exemplo, veja os elementos em Python.

Operador

Nome	Símbolo	Função
Operadores lógicos	e ou não	Funções lógicas binárias e unárias
Operadores aritméticos	+, -, , /, %, *, //	Funções Binárias
Operadores de comparação	==, !=, >, <, >=, <=	Funções binárias
...

Tomando o operador de adição de número de ponto flutuante (+) como exemplo, a imagem da função é a seguinte:

$f(x, y) = x + y$

Funções

Você pode definir suas próprias funções em Python:

def f(x, y):
    return max(0, 2*x + 3*y - 3)

Uma nova função é definida aqui. Ele usa "+, -, *, max" e outras funções para construir a nova função. O método de construção também se dá por meio da composição de funções.

Resumo

As funções estão em toda parte nas linguagens de programação. Combinando funções básicas, novas funções podem ser construídas e novos algoritmos podem ser obtidos.

Rede neural

A rede neural também é função. Assim como os circuitos digitais e as linguagens de programação, também é composto por funções simples. As unidades básicas de circuitos digitais são funções lógicas como AND, OR e NOT. As unidades básicas nas linguagens de programação são funções como vários operadores, enquanto a unidade básica das redes neurais são os neurônios.

Neurônio

Então, o que é um neurônio? Um neurônio biológico é uma célula com dendritos de entrada e axônios de saída. E o neurônio na rede neural é um neurônio artificial, também é uma função, mais precisamente, é um tipo de função.

O número de entradas de neurônios pode ser alterado, o que significa que ele representa uma função de elemento $n$ $f(x_1, ..., x_n)$ , e $n$ pode ser diferente para diferentes neurônios.

Rede neural

Os neurônios se combinam para formar uma rede neural. Como mostrado abaixo:

A rede neural contém três neurônios (não conte neurônios de entrada):

$f_1(x_1, ..., x_n)$
$f_2(x_1, ..., x_n)$
$f_3(x_1, x_2)$

A função representada pela rede neural é:

f(x_1, ..., x_n) = f_3(f_1(x_1, ..., x_n), f_2(x_1, ..., x_n))

Resumo

O núcleo dos circuitos digitais (hardware) é a função, e suas funções básicas são as funções da porta lógica AND OR NOT;
O núcleo das linguagens de programação (software) é a função, e suas funções básicas são várias funções de operador e funções internas (fornecidas por hardware ou compostas);
O núcleo das redes neurais também é função, e suas funções básicas são os neurônios;
Novas funções podem ser construídas através da composição de funções simples. Redes neurais são funções construídas a partir de funções de neurônios por meio de operações de composição de funções.

Pergunta

Qual é exatamente a função representada por um neurônio?

Apenas saber que é uma função de elemento $n$ não é suficiente. As unidades básicas AND, OR e NOT nos circuitos digitais listam a tabela-verdade e desenham a figura, mas e o neurônio?