lab
Neural Network
Español

Estructura de red

Visión general

En el campo del aprendizaje profundo, a menudo vemos noticias sobre la clasificación de un determinado modelo. Un gran avance en una tarea de algoritmo de red neuronal depende primero del conjunto de datos y, segundo, de la estructura del modelo.


El avance en el campo de la imagen, el conjunto de datos ImageNet es indispensable, esta es la importancia del conjunto de datos, porque registra la información de la función objetivo. Pero aprendimos de la sección anterior que el conjunto de datos tiene fallas, no puede registrar completamente la información de la función objetivo y parte de ella se perderá. La calidad del conjunto de datos radica en su tasa de retención de información de función objetiva.


La tarea de la fase de entrenamiento es usar la información en el conjunto de datos (función del conjunto de datos d(x)d(\mathbf x)) para restaurar la función objetivo o(x)o(\mathbf x). Debido a varias restricciones, solo obtendremos una función f(x)f(\mathbf x) que se aproxime a la función objetivo.


Un buen modelo tiene una forma funcional correspondiente más cercana a la función objetivo, que puede compensar mejor los defectos del conjunto de datos y obtener mejores resultados.

Pantalla de visualización

2 puntos

Para citar el ejemplo de la sección anterior, el conjunto de datos tiene 2 puntos y la tasa de retención de información de este conjunto de datos es muy baja.

Conjunto de datos

Haga diferentes suposiciones sobre su forma funcional:

Forma de línea recta
ww3
Forma parabólica

Al ajustar los parámetros de ww, podemos obtener innumerables parábolas, y todas ellas pueden simular perfectamente la función del conjunto de datos d(x)d(\mathbf x)


Hay muchas otras formas funcionales, y la forma funcional en sí es infinita. Otras formas de función también pueden simular perfectamente la función del conjunto de datos d(x)d(\mathbf x)

3 puntos

Forma de línea recta
ww3
Forma parabólica

5 puntos

Forma de línea recta
ww25
Forma parabólica

Con el aumento de puntos de datos, la forma funcional se acerca a una línea recta, pero todavía hay infinitas posibilidades.

Resumir

La información en forma de función objetivo no se puede obtener de los datos y hay infinitas posibilidades.

Diseñar la estructura de la red neuronal

La información del conjunto de datos es insuficiente. Necesitamos obtener información adicional de otros lugares y utilizarla para guiar el diseño estructural de la red neuronal para compensar la falta de información.

Estructura especial

En varias tareas de aprendizaje profundo, los buenos modelos utilizan estructuras altamente especializadas. igual que:


Muchas estructuras especializadas se diseñan con referencia al proceso de procesamiento de una determinada función objetivo. Por ejemplo, CNN simula la estructura organizativa del nervio óptico. Aunque se desconoce la forma específica de la función objetivo, las personas a menudo pueden obtener parte de su información y obtener mejores resultados simulando el proceso de procesamiento de la función objetivo.

Diseño estructural

La estructura de la red neuronal es el esqueleto del algoritmo, que determina directamente el potencial último del algoritmo. Si el esqueleto no está bien diseñado, no importa cómo lo entrenes, al final solo será insatisfactorio.

ww1
bb2
Estructura inadecuada
aa1
bb0
cc0
Estructura adecuada

La estructura de una red neuronal no se puede obtener mediante entrenamiento y, por lo general, requiere un diseño artificial.


También existen búsquedas de arquitectura a través de algoritmos, es decir, probando una variedad de arquitecturas diferentes y eligiendo la mejor según el efecto de entrenamiento final, lo que requiere una gran cantidad de potencia de cómputo y solo es apto para un número muy reducido de instituciones. con fuertes recursos financieros.


Para diseñar artificialmente una buena estructura de red neuronal, necesitamos:

  1. Tener cierta comprensión o conjetura razonable de la función objetivo correspondiente a la tarea;
  2. Familiarizarse con la estructura común de la red neuronal y comprender su principio;
  3. Utilice estas estructuras para ensamblar en una estructura similar a la función objetivo.

Resumir

  1. El conjunto de datos no puede proporcionar suficiente información y la estructura de la red neuronal debe compensar la falta de información.
  2. La información de la estructura de la red neuronal proviene de la comprensión y simulación del proceso de procesamiento de la función objetivo.

problema

Las redes neuronales pueden simular funciones arbitrarias, entonces, ¿por qué necesitamos diseñar su estructura?