Neural Network

Português

O que é rede neural
1. Mergulhe no neurônio
2. Como uma rede neural simula uma função arbitrária
3. Por que precisamos de redes neurais
Como construir uma rede neural
1. Rede neural totalmente conectada
2. Use ferramenta gráfica para projetar rede neural
3. A "função de ativação" da camada de saída
Como treinar uma rede neural
1. Algoritmo e princípio de aprendizagem
2. Crie e treine redes neurais do zero
3. Reescreva o código usando PyTorch
4. Use a ferramenta gráfica para treinar a rede neural
Alguns problemas importantes da rede neural
1. Estrutura de rede
2. Sobreajuste
3. Subajuste
4. Overfitting vs underfitting
5. Inicialização
6. Gradiente desaparecendo e gradiente explosivo
Rede Neural Convolucional (CNN)
1. 1D-convolução
2. Experimentos de convolução 1D
3. 1D-pooling
4. Experimentos 1D-CNN
5. 2D-CNN
6. Experimentos 2D-CNN
Rede Neural Recorrente (RNN)
1. Baunilha RNN
2. Seq2seq, Autoencoder, Encoder-Decoder
3. RNN avançado
4. Experiência de classificação RNN
Processamento de linguagem natural
1. Incorporação: converter símbolos em valores
2. Classificação de texto 1
3. Classificação de Texto 2
4. TextoCNN
5. Reconhecimento de entidade
6. Segmentação de palavras, marcação POS e agrupamento
7. Marcação de sequência em ação
8. RNN bidirecional
9. BI-LSTM-CRF
10. Atenção
Modelos de Linguagem
1. Modelo de n-grama: Unigrama
2. Modelo de n-grama: Bigrama
3. Modelo de n-grama: Trigrama
4. Modelo de Linguagem RNN
5. Modelo de Linguagem Transformer
Álgebra Linear
1. Vetor
2. Matriz
3. Mergulhe na multiplicação de matrizes
4. Tensor

Mergulhe no neurônio

Visão geral

Na seção anterior (O que é rede neural), aprendemos que uma rede neural é uma função, que é composta de neurônios, e neurônio também é uma função.

O neurônio pode continuar a ser dividido em 2 subfunções:

$n$ função linear do elemento: $g(x_1, ..., x_n)$
função não linear unária: $h(x)$

A função representada pelo neurônio é:

f(x_1, ..., x_n) = h(g(x_1, ..., x_n))

Função linear $g(x_1, ..., x_n)$

A função linear tem a seguinte forma:

g(x_1, ..., x_n) = w_1x_1 + ..., w_nx_n + b

Entre eles, $w_1, ..., w_n, b$ são todos parâmetros, e diferentes funções lineares possuem parâmetros diferentes.

Função linear unária

Quando $n = 1$ , $g(x_1) = w_1x_1 + b$ , a imagem da função é uma linha reta:


 $w_1$ 1
 $b$ 0

Função linear binária

Quando $n = 2$ , $g(x_1, x_2) = w_1x_1 + w_2x_2 + b$ , a imagem da função é um plano:


 $w_1$ 0
 $w_2$ 1
 $b$ 0

Função linear do elemento $n$

Quando $n > 2$ , a imagem da função é um hiperplano. Além do 3D, a visualização não é conveniente. Mas você pode imaginar que sua característica é reta.

Função não linear $h(x)$

É fácil entender pelo nome que uma função não linear é uma função diferente de uma função linear. Uma função linear é reta e uma função não linear é curva. Como a função sigmoid mais comum:

Função de ativação

Em redes neurais, chamamos essa função não linear unária de função de ativação. Para algumas funções de ativação comuns, consulte função de ativação na base de conhecimento, onde:

Linear: $f(x) = x$ é uma função linear, o que significa que uma função não linear não é usada
Softmax é um caso especial. Estritamente falando, não é uma função de ativação

Necessidade

Por que uma função de ativação não linear deve ser seguida por uma função linear?

Isto é porque:

Se todos os neurônios são funções lineares, então a rede neural composta de neurônios também é uma função linear.

Como o exemplo a seguir:

$f_1(x, y) = w_1x + w_2y + b_1$
$f_2(x, y) = w_3x + w_4y + b_2$
$f_3(x, y) = w_5x + w_6y + b_3$

Então a função representada por toda a rede neural é:

\begin{aligned} &f_3(f_1(x_1, x_2, x_3), f_2(x_1, x_2, x_3)) \\ = &w_5(w_1x_1 + w_2x_2 + b_1) + w_6(w_3x_2 + w_4x_3 + b_2) + b_3 \\ = &(w_1w_5)x_1 + (w_2w_5 + w_3w_6)x_2 + (w_4w_6)x_3 + (w_5b_1 + w_6b_2 + b_3) \\ \end{aligned}

Esta é uma função linear ternária.

A função objetivo que precisamos construir contém várias funções, e a função linear é apenas uma delas.

Esperamos que as redes neurais possam simular funções arbitrárias, não apenas funções lineares. Então adicionamos uma função de ativação não linear e "dobramos" a função linear.

Neurônio completo

O neurônio completo combina uma função linear e uma função de ativação não linear, tornando-o mais interessante e poderoso.

Função unária

Quando $n = 1$ , $g(x_1) = w_1x_1 + b$ , usando a função de ativação sigmoid, a função correspondente do neurônio é:

h(g(x))=\text{sigmoid}(wx + b)

A imagem da função é:


 $w$ 1
 $b$ 0

Função binária

Quando $n = 2$ , $g(x_1, x_2) = w_1x_1 + w_2x_2 + b$ , usando a função de ativação sigmoid, a função correspondente do neurônio é:

h(g(x))=\text{sigmoid}(w_1x_1 + w_2x_2 + b)

A imagem da função é:


 $w_1$ 0
 $w_2$ 1
 $b$ 0

$n$ -função do elemento

Devido ao problema de visualização, cabe inteiramente à minha imaginação aqui! 😥

Pergunta

Por que a rede neural pode simular funções complexas a partir da combinação de neurônios?

Você pode imaginar intuitivamente como simular uma função um pouco mais complicada por meio de neurônios simples.