Neural Network

Español

¿Qué es la red neuronal?
1. Sumérgete en la neurona
2. ¿Cómo simula una red neuronal una función arbitraria?
3. ¿Por qué necesitamos redes neuronales?
Cómo construir una red neuronal
1. Red neuronal completamente conectada
2. Utilice una herramienta gráfica para diseñar una red neuronal
3. La "función de activación" de la capa de salida
Cómo entrenar una red neuronal
1. Principio y algoritmo de aprendizaje
2. Construya y entrene redes neuronales desde cero
3. Reescribe el código usando PyTorch
4. Utilice una herramienta gráfica para entrenar la red neuronal
Algunos problemas importantes de la red neuronal
1. Estructura de red
2. Sobreajuste
3. Desajuste
4. Sobreajuste vs desajuste
5. Inicialización
6. Gradiente de desaparición y gradiente explosivo
Red neuronal convolucional (CNN)
1. Convolución 1D
2. Experimentos de convolución 1D
3. agrupación 1D
4. Experimentos 1D-CNN
5. 2D-CNN
6. Experimentos 2D-CNN
Red neuronal recurrente (RNN)
1. Vanilla RNN
2. Seq2seq, Autoencoder, Encoder-Decoder
3. RNN avanzado
4. Experimento de clasificación RNN
Procesamiento natural del lenguaje
1. Embedding: convierte símbolos en valores
2. Clasificación de texto 1
3. Clasificación de texto 2
4. TextCNN
5. Reconocimiento de entidad
6. Segmentación de palabras, etiquetado y fragmentación de parte del discurso
7. Etiquetado de secuencia en acción
8. RNN bidireccional
9. BI-LSTM-CRF
10. Atención
Modelos de lenguaje
1. Modelo n-grama: Unigrama
2. Modelo n-grama: Bigrama
3. Modelo n-grama: Trigrama
4. Modelo de lenguaje RNN
5. Modelo de lenguaje Transformer
Álgebra lineal
1. Vector
2. Matriz
3. Sumérgete en la multiplicación de matrices
4. Tensor

Estructura de red

Visión general

En el campo del aprendizaje profundo, a menudo vemos noticias sobre la clasificación de un determinado modelo. Un gran avance en una tarea de algoritmo de red neuronal depende primero del conjunto de datos y, segundo, de la estructura del modelo.

El avance en el campo de la imagen, el conjunto de datos ImageNet es indispensable, esta es la importancia del conjunto de datos, porque registra la información de la función objetivo. Pero aprendimos de la sección anterior que el conjunto de datos tiene fallas, no puede registrar completamente la información de la función objetivo y parte de ella se perderá. La calidad del conjunto de datos radica en su tasa de retención de información de función objetiva.

La tarea de la fase de entrenamiento es usar la información en el conjunto de datos (función del conjunto de datos $d(\mathbf x)$ ) para restaurar la función objetivo $o(\mathbf x)$ . Debido a varias restricciones, solo obtendremos una función $f(\mathbf x)$ que se aproxime a la función objetivo.

Un buen modelo tiene una forma funcional correspondiente más cercana a la función objetivo, que puede compensar mejor los defectos del conjunto de datos y obtener mejores resultados.

Pantalla de visualización

2 puntos

Para citar el ejemplo de la sección anterior, el conjunto de datos tiene 2 puntos y la tasa de retención de información de este conjunto de datos es muy baja.


Conjunto de datos

Haga diferentes suposiciones sobre su forma funcional:


Forma de línea recta


 $w$ 3
Forma parabólica

Al ajustar los parámetros de $w$ , podemos obtener innumerables parábolas, y todas ellas pueden simular perfectamente la función del conjunto de datos $d(\mathbf x)$

Hay muchas otras formas funcionales, y la forma funcional en sí es infinita. Otras formas de función también pueden simular perfectamente la función del conjunto de datos $d(\mathbf x)$

3 puntos


Forma de línea recta


 $w$ 3
Forma parabólica

5 puntos


Forma de línea recta


 $w$ 25
Forma parabólica

Con el aumento de puntos de datos, la forma funcional se acerca a una línea recta, pero todavía hay infinitas posibilidades.

Resumir

La información en forma de función objetivo no se puede obtener de los datos y hay infinitas posibilidades.

Diseñar la estructura de la red neuronal

La información del conjunto de datos es insuficiente. Necesitamos obtener información adicional de otros lugares y utilizarla para guiar el diseño estructural de la red neuronal para compensar la falta de información.

Estructura especial

En varias tareas de aprendizaje profundo, los buenos modelos utilizan estructuras altamente especializadas. igual que:

Tarea de imagen: CNN bidimensional
Tareas de texto: Embedding, CNN unidimensional, RNN, CRF, Transformer, etc.

Muchas estructuras especializadas se diseñan con referencia al proceso de procesamiento de una determinada función objetivo. Por ejemplo, CNN simula la estructura organizativa del nervio óptico. Aunque se desconoce la forma específica de la función objetivo, las personas a menudo pueden obtener parte de su información y obtener mejores resultados simulando el proceso de procesamiento de la función objetivo.

Diseño estructural

La estructura de la red neuronal es el esqueleto del algoritmo, que determina directamente el potencial último del algoritmo. Si el esqueleto no está bien diseñado, no importa cómo lo entrenes, al final solo será insatisfactorio.


 $w$ 1
 $b$ 2
Estructura inadecuada


 $a$ 1
 $b$ 0
 $c$ 0
Estructura adecuada

La estructura de una red neuronal no se puede obtener mediante entrenamiento y, por lo general, requiere un diseño artificial.

También existen búsquedas de arquitectura a través de algoritmos, es decir, probando una variedad de arquitecturas diferentes y eligiendo la mejor según el efecto de entrenamiento final, lo que requiere una gran cantidad de potencia de cómputo y solo es apto para un número muy reducido de instituciones. con fuertes recursos financieros.

Para diseñar artificialmente una buena estructura de red neuronal, necesitamos:

Tener cierta comprensión o conjetura razonable de la función objetivo correspondiente a la tarea;
Familiarizarse con la estructura común de la red neuronal y comprender su principio;
Utilice estas estructuras para ensamblar en una estructura similar a la función objetivo.

Resumir

El conjunto de datos no puede proporcionar suficiente información y la estructura de la red neuronal debe compensar la falta de información.
La información de la estructura de la red neuronal proviene de la comprensión y simulación del proceso de procesamiento de la función objetivo.

Estructura de red

Visión general

Pantalla de visualización

2 puntos

3 puntos

5 puntos

Resumir

Diseñar la estructura de la red neuronal

Estructura especial

Diseño estructural

Resumir

problema

Las redes neuronales pueden simular funciones arbitrarias, entonces, ¿por qué necesitamos diseñar su estructura?