Segmentação de palavras, marcação POS e agrupamento
Marcação de sequência em ação
RNN bidirecional
BI-LSTM-CRF
Atenção
Modelos de Linguagem
Modelo de n-grama: Unigrama
Modelo de n-grama: Bigrama
Modelo de n-grama: Trigrama
Modelo de Linguagem RNN
Modelo de Linguagem Transformer
Álgebra Linear
Vetor
Matriz
Mergulhe na multiplicação de matrizes
Tensor
Estrutura de rede
Visão geral
No campo do aprendizado profundo, muitas vezes vemos notícias sobre o ranking de um determinado modelo. Um grande avanço em uma tarefa de algoritmo de rede neural depende primeiro do conjunto de dados e depois da estrutura do modelo.
O avanço no campo da imagem, o dataset ImageNet é indispensável, essa é a importância do dataset, pois ele registra as informações da função objetivo.
Mas aprendemos na seção anterior que o conjunto de dados é falho, ele não pode registrar completamente as informações da função objetivo e parte dele será perdido. A qualidade do conjunto de dados está em sua taxa de retenção de informações da função objetivo.
A tarefa da fase de treinamento é usar as informações no conjunto de dados (função de conjunto de dados d(x)) para restaurar a função objetivo o(x). Devido a várias restrições, obteremos apenas uma função f(x) que se aproxime da função objetivo.
Um bom modelo possui uma forma funcional correspondente mais próxima da função objetivo, que pode compensar melhor os defeitos do conjunto de dados e obter melhores resultados.
Exibição visual
2 pontos
Para citar o exemplo da seção anterior, o conjunto de dados tem 2 pontos e a taxa de retenção de informações desse conjunto de dados é muito baixa.
Conjunto de dados
Faça suposições diferentes sobre sua forma funcional:
Formulário de linha reta
w3
Forma parabólica
Ajustando os parâmetros de w, podemos obter inúmeras parábolas, e todas elas podem simular perfeitamente a função do conjunto de dados d(x)
Existem muitas outras formas funcionais, e a própria forma funcional é infinita. Outras formas de função também podem simular perfeitamente a função de conjunto de dados d(x)
3 pontos
Formulário de linha reta
w3
Forma parabólica
5 pontos
Formulário de linha reta
w25
Forma parabólica
Com o aumento dos pontos de dados, a forma funcional está se aproximando de uma linha reta, mas ainda existem infinitas possibilidades.
Resumo
A informação na forma da função objetivo não pode ser obtida a partir dos dados, e existem infinitas possibilidades.
Projete a estrutura da rede neural
As informações no conjunto de dados são insuficientes. Precisamos obter informações adicionais de outros lugares e usá-las para orientar o projeto estrutural da rede neural para compensar a falta de informações.
Estrutura especial
Em várias tarefas de aprendizado profundo, bons modelos usam estruturas altamente especializadas. Curti:
Muitas estruturas especializadas são projetadas com referência ao processo de processamento de uma determinada função objetivo. Por exemplo, a CNN simula a estrutura organizacional do nervo óptico.
Embora a forma específica da função objetivo seja desconhecida, muitas vezes as pessoas podem obter algumas de suas informações e obter melhores resultados simulando o processo de processamento da função objetivo.
Projeto estrutural
A estrutura da rede neural é o esqueleto do algoritmo, que determina diretamente o potencial final do algoritmo. Se o esqueleto não for bem desenhado, não importa como você o treine, só será insatisfatório no final.
w1
b2
Inappropriate structure
a1
b0
c0
Appropriate structure
A estrutura de uma rede neural não pode ser obtida por meio de treinamento e geralmente requer design artificial.
Há também pesquisas de arquitetura por meio de algoritmos, ou seja, experimentar uma variedade de arquiteturas diferentes e escolher a melhor de acordo com o efeito final do treinamento, o que exige uma grande quantidade de poder computacional e só é adequado para um número muito pequeno de instituições com fortes recursos financeiros.
Para projetar artificialmente uma boa estrutura de rede neural, precisamos:
Ter uma certa compreensão ou conjectura razoável da função objetivo correspondente à tarefa;
Familiarizado com a estrutura comum da rede neural, e compreender o seu princípio;
Use essas estruturas para montar uma estrutura semelhante à função objetivo.
Resumo
O conjunto de dados não pode fornecer informações suficientes e a estrutura da rede neural precisa compensar a falta de informações
A informação da estrutura da rede neural vem do entendimento e simulação do processo de processamento da função objetivo
problema
Redes neurais podem simular funções arbitrárias, então por que precisamos projetar sua estrutura?