Neural Network

Español

¿Qué es la red neuronal?
1. Sumérgete en la neurona
2. ¿Cómo simula una red neuronal una función arbitraria?
3. ¿Por qué necesitamos redes neuronales?
Cómo construir una red neuronal
1. Red neuronal completamente conectada
2. Utilice una herramienta gráfica para diseñar una red neuronal
3. La "función de activación" de la capa de salida
Cómo entrenar una red neuronal
1. Principio y algoritmo de aprendizaje
2. Construya y entrene redes neuronales desde cero
3. Reescribe el código usando PyTorch
4. Utilice una herramienta gráfica para entrenar la red neuronal
Algunos problemas importantes de la red neuronal
1. Estructura de red
2. Sobreajuste
3. Desajuste
4. Sobreajuste vs desajuste
5. Inicialización
6. Gradiente de desaparición y gradiente explosivo
Red neuronal convolucional (CNN)
1. Convolución 1D
2. Experimentos de convolución 1D
3. agrupación 1D
4. Experimentos 1D-CNN
5. 2D-CNN
6. Experimentos 2D-CNN
Red neuronal recurrente (RNN)
1. Vanilla RNN
2. Seq2seq, Autoencoder, Encoder-Decoder
3. RNN avanzado
4. Experimento de clasificación RNN
Procesamiento natural del lenguaje
1. Embedding: convierte símbolos en valores
2. Clasificación de texto 1
3. Clasificación de texto 2
4. TextCNN
5. Reconocimiento de entidad
6. Segmentación de palabras, etiquetado y fragmentación de parte del discurso
7. Etiquetado de secuencia en acción
8. RNN bidireccional
9. BI-LSTM-CRF
10. Atención
Modelos de lenguaje
1. Modelo n-grama: Unigrama
2. Modelo n-grama: Bigrama
3. Modelo n-grama: Trigrama
4. Modelo de lenguaje RNN
5. Modelo de lenguaje Transformer
Álgebra lineal
1. Vector
2. Matriz
3. Sumérgete en la multiplicación de matrices
4. Tensor

Sumérgete en la neurona

Visión general

De la sección anterior (¿Qué es la red neuronal), aprendimos que una red neuronal es una función, que se compone de neuronas, y la neurona también es una función.

Neuron se puede seguir dividiendo en 2 subfunciones:

Función lineal del elemento $n$ : $g(x_1, ..., x_n)$
función unaria no lineal: $h(x)$

La función representada por la neurona es:

f(x_1, ..., x_n) = h(g(x_1, ..., x_n))

Función lineal $g(x_1, ..., x_n)$

La función lineal tiene la siguiente forma:

g(x_1, ..., x_n) = w_1x_1 + ..., w_nx_n + b

Entre ellos, $w_1, ..., w_n, b$ son todos parámetros, y diferentes funciones lineales tienen diferentes parámetros.

Función lineal unaria

Cuando $n = 1$ , $g(x_1) = w_1x_1 + b$ , la imagen de la función es una línea recta:


 $w_1$ 1
 $b$ 0

Función lineal binaria

Cuando $n = 2$ , $g(x_1, x_2) = w_1x_1 + w_2x_2 + b$ , la imagen de la función es un plano:


 $w_1$ 0
 $w_2$ 1
 $b$ 0

Función lineal del elemento $n$

Cuando $n > 2$ , la imagen de la función es un hiperplano. Más allá de 3D, la visualización no es conveniente. Pero puedes imaginar que su característica es recta.

Función no lineal $h(x)$

Es fácil de entender por el nombre que una función no lineal es una función diferente de una función lineal. Una función lineal es recta y una función no lineal es curva. Como la función sigmoid más común:

Función de activación

En las redes neuronales, llamamos a esta función unaria no lineal función de activación. Para conocer algunas funciones de activación comunes, consulte función de activación en la base de conocimientos, donde:

Linear: $f(x) = x$ es una función lineal, lo que significa que no se utiliza una función no lineal
Softmax es un caso especial. Estrictamente hablando, no es una función de activación.

Necesidad

¿Por qué una función de activación no lineal debe ir seguida de una función lineal?

Esto es porque:

Si las neuronas son todas funciones lineales, entonces la red neuronal compuesta por neuronas también es una función lineal.

Como el siguiente ejemplo:

$f_1(x, y) = w_1x + w_2y + b_1$
$f_2(x, y) = w_3x + w_4y + b_2$
$f_3(x, y) = w_5x + w_6y + b_3$

Entonces la función representada por toda la red neuronal es:

\begin{aligned} &f_3(f_1(x_1, x_2, x_3), f_2(x_1, x_2, x_3)) \\ = &w_5(w_1x_1 + w_2x_2 + b_1) + w_6(w_3x_2 + w_4x_3 + b_2) + b_3 \\ = &(w_1w_5)x_1 + (w_2w_5 + w_3w_6)x_2 + (w_4w_6)x_3 + (w_5b_1 + w_6b_2 + b_3) \\ \end{aligned}

Esta es una función lineal ternaria.

La función objetivo que necesitamos construir contiene varias funciones, y la función lineal es solo una de ellas.

Esperamos que las redes neuronales puedan simular funciones arbitrarias, no solo funciones lineales. Así que agregamos una función de activación no lineal y "doblamos" la función lineal.

Neurona completa

La neurona completa combina una función lineal y una función de activación no lineal, lo que la hace más interesante y poderosa.

Función unaria

Cuando $n = 1$ , $g(x_1) = w_1x_1 + b$ , usando la función de activación sigmoid, la función correspondiente de la neurona es:

h(g(x))=\text{sigmoid}(wx + b)

La imagen de la función es:


 $w$ 1
 $b$ 0

Función binaria

Cuando $n = 2$ , $g(x_1, x_2) = w_1x_1 + w_2x_2 + b$ , usando la función de activación sigmoid, la función correspondiente de la neurona es:

h(g(x))=\text{sigmoid}(w_1x_1 + w_2x_2 + b)

La imagen de la función es:


 $w_1$ 0
 $w_2$ 1
 $b$ 0

función $n$ -elemento

Debido al problema de visualización, ¡depende completamente de mi propia imaginación aquí! 😥

Pregunta

¿Por qué la red neuronal puede simular funciones complejas a partir de una combinación de neuronas?

Puede imaginar intuitivamente cómo simular una función un poco más complicada a través de neuronas simples.