Segmentación de palabras, etiquetado y fragmentación de parte del discurso
Etiquetado de secuencia en acción
RNN bidireccional
BI-LSTM-CRF
Atención
Modelos de lenguaje
Modelo n-grama: Unigrama
Modelo n-grama: Bigrama
Modelo n-grama: Trigrama
Modelo de lenguaje RNN
Modelo de lenguaje Transformer
Álgebra lineal
Vector
Matriz
Sumérgete en la multiplicación de matrices
Tensor
Sumérgete en la neurona
Visión general
De la sección anterior (¿Qué es la red neuronal), aprendimos que una red neuronal es una función, que se compone de neuronas, y la neurona también es una función.
Neuron se puede seguir dividiendo en 2 subfunciones:
Función lineal del elemento n: g(x1,...,xn)
función unaria no lineal: h(x)
La función representada por la neurona es:
f(x1,...,xn)=h(g(x1,...,xn))
Función lineal g(x1,...,xn)
La función lineal tiene la siguiente forma:
g(x1,...,xn)=w1x1+...,wnxn+b
Entre ellos, w1,...,wn,b son todos parámetros, y diferentes funciones lineales tienen diferentes parámetros.
Función lineal unaria
Cuando n=1, g(x1)=w1x1+b, la imagen de la función es una línea recta:
w11
b0
Función lineal binaria
Cuando n=2, g(x1,x2)=w1x1+w2x2+b, la imagen de la función es un plano:
w10
w21
b0
Función lineal del elemento n
Cuando n>2, la imagen de la función es un hiperplano. Más allá de 3D, la visualización no es conveniente. Pero puedes imaginar que su característica es recta.
Función no lineal h(x)
Es fácil de entender por el nombre que una función no lineal es una función diferente de una función lineal. Una función lineal es recta y una función no lineal es curva. Como la función sigmoid más común:
Función de activación
En las redes neuronales, llamamos a esta función unaria no lineal función de activación. Para conocer algunas funciones de activación comunes, consulte función de activación en la base de conocimientos, donde:
Linear: f(x)=x es una función lineal, lo que significa que no se utiliza una función no lineal
Softmax es un caso especial. Estrictamente hablando, no es una función de activación.
Necesidad
¿Por qué una función de activación no lineal debe ir seguida de una función lineal?
Esto es porque:
Si las neuronas son todas funciones lineales, entonces la red neuronal compuesta por neuronas también es una función lineal.
Como el siguiente ejemplo:
f1(x,y)=w1x+w2y+b1
f2(x,y)=w3x+w4y+b2
f3(x,y)=w5x+w6y+b3
Entonces la función representada por toda la red neuronal es:
La función objetivo que necesitamos construir contiene varias funciones, y la función lineal es solo una de ellas.
Esperamos que las redes neuronales puedan simular funciones arbitrarias, no solo funciones lineales. Así que agregamos una función de activación no lineal y "doblamos" la función lineal.
Neurona completa
La neurona completa combina una función lineal y una función de activación no lineal, lo que la hace más interesante y poderosa.
Función unaria
Cuando n=1, g(x1)=w1x1+b, usando la función de activación sigmoid, la función correspondiente de la neurona es:
h(g(x))=sigmoid(wx+b)
La imagen de la función es:
w1
b0
Función binaria
Cuando n=2, g(x1,x2)=w1x1+w2x2+b, usando la función de activación sigmoid, la función correspondiente de la neurona es:
h(g(x))=sigmoid(w1x1+w2x2+b)
La imagen de la función es:
w10
w21
b0
función n-elemento
Debido al problema de visualización, ¡depende completamente de mi propia imaginación aquí! 😥
Pregunta
¿Por qué la red neuronal puede simular funciones complejas a partir de una combinación de neuronas?
Puede imaginar intuitivamente cómo simular una función un poco más complicada a través de neuronas simples.