Segmentación de palabras, etiquetado y fragmentación de parte del discurso
Etiquetado de secuencia en acción
RNN bidireccional
BI-LSTM-CRF
Atención
Modelos de lenguaje
Modelo n-grama: Unigrama
Modelo n-grama: Bigrama
Modelo n-grama: Trigrama
Modelo de lenguaje RNN
Modelo de lenguaje Transformer
Álgebra lineal
Vector
Matriz
Sumérgete en la multiplicación de matrices
Tensor
Estructura de red
Visión general
En el campo del aprendizaje profundo, a menudo vemos noticias sobre la clasificación de un determinado modelo. Un gran avance en una tarea de algoritmo de red neuronal depende primero del conjunto de datos y, segundo, de la estructura del modelo.
El avance en el campo de la imagen, el conjunto de datos ImageNet es indispensable, esta es la importancia del conjunto de datos, porque registra la información de la función objetivo.
Pero aprendimos de la sección anterior que el conjunto de datos tiene fallas, no puede registrar completamente la información de la función objetivo y parte de ella se perderá. La calidad del conjunto de datos radica en su tasa de retención de información de función objetiva.
La tarea de la fase de entrenamiento es usar la información en el conjunto de datos (función del conjunto de datos d(x)) para restaurar la función objetivo o(x). Debido a varias restricciones, solo obtendremos una función f(x) que se aproxime a la función objetivo.
Un buen modelo tiene una forma funcional correspondiente más cercana a la función objetivo, que puede compensar mejor los defectos del conjunto de datos y obtener mejores resultados.
Pantalla de visualización
2 puntos
Para citar el ejemplo de la sección anterior, el conjunto de datos tiene 2 puntos y la tasa de retención de información de este conjunto de datos es muy baja.
Conjunto de datos
Haga diferentes suposiciones sobre su forma funcional:
Forma de línea recta
w3
Forma parabólica
Al ajustar los parámetros de w, podemos obtener innumerables parábolas, y todas ellas pueden simular perfectamente la función del conjunto de datos d(x)
Hay muchas otras formas funcionales, y la forma funcional en sí es infinita. Otras formas de función también pueden simular perfectamente la función del conjunto de datos d(x)
3 puntos
Forma de línea recta
w3
Forma parabólica
5 puntos
Forma de línea recta
w25
Forma parabólica
Con el aumento de puntos de datos, la forma funcional se acerca a una línea recta, pero todavía hay infinitas posibilidades.
Resumir
La información en forma de función objetivo no se puede obtener de los datos y hay infinitas posibilidades.
Diseñar la estructura de la red neuronal
La información del conjunto de datos es insuficiente. Necesitamos obtener información adicional de otros lugares y utilizarla para guiar el diseño estructural de la red neuronal para compensar la falta de información.
Estructura especial
En varias tareas de aprendizaje profundo, los buenos modelos utilizan estructuras altamente especializadas. igual que:
Muchas estructuras especializadas se diseñan con referencia al proceso de procesamiento de una determinada función objetivo. Por ejemplo, CNN simula la estructura organizativa del nervio óptico.
Aunque se desconoce la forma específica de la función objetivo, las personas a menudo pueden obtener parte de su información y obtener mejores resultados simulando el proceso de procesamiento de la función objetivo.
Diseño estructural
La estructura de la red neuronal es el esqueleto del algoritmo, que determina directamente el potencial último del algoritmo. Si el esqueleto no está bien diseñado, no importa cómo lo entrenes, al final solo será insatisfactorio.
w1
b2
Estructura inadecuada
a1
b0
c0
Estructura adecuada
La estructura de una red neuronal no se puede obtener mediante entrenamiento y, por lo general, requiere un diseño artificial.
También existen búsquedas de arquitectura a través de algoritmos, es decir, probando una variedad de arquitecturas diferentes y eligiendo la mejor según el efecto de entrenamiento final, lo que requiere una gran cantidad de potencia de cómputo y solo es apto para un número muy reducido de instituciones. con fuertes recursos financieros.
Para diseñar artificialmente una buena estructura de red neuronal, necesitamos:
Tener cierta comprensión o conjetura razonable de la función objetivo correspondiente a la tarea;
Familiarizarse con la estructura común de la red neuronal y comprender su principio;
Utilice estas estructuras para ensamblar en una estructura similar a la función objetivo.
Resumir
El conjunto de datos no puede proporcionar suficiente información y la estructura de la red neuronal debe compensar la falta de información.
La información de la estructura de la red neuronal proviene de la comprensión y simulación del proceso de procesamiento de la función objetivo.
problema
Las redes neuronales pueden simular funciones arbitrarias, entonces, ¿por qué necesitamos diseñar su estructura?