lab
Neural Network
Português

Estrutura de rede

Visão geral

No campo do aprendizado profundo, muitas vezes vemos notícias sobre o ranking de um determinado modelo. Um grande avanço em uma tarefa de algoritmo de rede neural depende primeiro do conjunto de dados e depois da estrutura do modelo.


O avanço no campo da imagem, o dataset ImageNet é indispensável, essa é a importância do dataset, pois ele registra as informações da função objetivo. Mas aprendemos na seção anterior que o conjunto de dados é falho, ele não pode registrar completamente as informações da função objetivo e parte dele será perdido. A qualidade do conjunto de dados está em sua taxa de retenção de informações da função objetivo.


A tarefa da fase de treinamento é usar as informações no conjunto de dados (função de conjunto de dados d(x)d(\mathbf x)) para restaurar a função objetivo o(x)o(\mathbf x). Devido a várias restrições, obteremos apenas uma função f(x)f(\mathbf x) que se aproxime da função objetivo.


Um bom modelo possui uma forma funcional correspondente mais próxima da função objetivo, que pode compensar melhor os defeitos do conjunto de dados e obter melhores resultados.

Exibição visual

2 pontos

Para citar o exemplo da seção anterior, o conjunto de dados tem 2 pontos e a taxa de retenção de informações desse conjunto de dados é muito baixa.

Conjunto de dados

Faça suposições diferentes sobre sua forma funcional:

Formulário de linha reta
ww3
Forma parabólica

Ajustando os parâmetros de ww, podemos obter inúmeras parábolas, e todas elas podem simular perfeitamente a função do conjunto de dados d(x)d(\mathbf x)


Existem muitas outras formas funcionais, e a própria forma funcional é infinita. Outras formas de função também podem simular perfeitamente a função de conjunto de dados d(x)d(\mathbf x)

3 pontos

Formulário de linha reta
ww3
Forma parabólica

5 pontos

Formulário de linha reta
ww25
Forma parabólica

Com o aumento dos pontos de dados, a forma funcional está se aproximando de uma linha reta, mas ainda existem infinitas possibilidades.

Resumo

A informação na forma da função objetivo não pode ser obtida a partir dos dados, e existem infinitas possibilidades.

Projete a estrutura da rede neural

As informações no conjunto de dados são insuficientes. Precisamos obter informações adicionais de outros lugares e usá-las para orientar o projeto estrutural da rede neural para compensar a falta de informações.

Estrutura especial

Em várias tarefas de aprendizado profundo, bons modelos usam estruturas altamente especializadas. Curti:


Muitas estruturas especializadas são projetadas com referência ao processo de processamento de uma determinada função objetivo. Por exemplo, a CNN simula a estrutura organizacional do nervo óptico. Embora a forma específica da função objetivo seja desconhecida, muitas vezes as pessoas podem obter algumas de suas informações e obter melhores resultados simulando o processo de processamento da função objetivo.

Projeto estrutural

A estrutura da rede neural é o esqueleto do algoritmo, que determina diretamente o potencial final do algoritmo. Se o esqueleto não for bem desenhado, não importa como você o treine, só será insatisfatório no final.

ww1
bb2
Inappropriate structure
aa1
bb0
cc0
Appropriate structure

A estrutura de uma rede neural não pode ser obtida por meio de treinamento e geralmente requer design artificial.


Há também pesquisas de arquitetura por meio de algoritmos, ou seja, experimentar uma variedade de arquiteturas diferentes e escolher a melhor de acordo com o efeito final do treinamento, o que exige uma grande quantidade de poder computacional e só é adequado para um número muito pequeno de instituições com fortes recursos financeiros.


Para projetar artificialmente uma boa estrutura de rede neural, precisamos:

  1. Ter uma certa compreensão ou conjectura razoável da função objetivo correspondente à tarefa;
  2. Familiarizado com a estrutura comum da rede neural, e compreender o seu princípio;
  3. Use essas estruturas para montar uma estrutura semelhante à função objetivo.

Resumo

  1. O conjunto de dados não pode fornecer informações suficientes e a estrutura da rede neural precisa compensar a falta de informações
  2. A informação da estrutura da rede neural vem do entendimento e simulação do processo de processamento da função objetivo

problema

Redes neurais podem simular funções arbitrárias, então por que precisamos projetar sua estrutura?