lab
Neural Network
Italiano

Struttura di rete

Panoramica

Nel campo del deep learning, vediamo spesso notizie sul posizionamento di un determinato modello. Un importante passo avanti in un'attività di algoritmo di rete neurale dipende in primo luogo dal set di dati e in secondo luogo dalla struttura del modello.


La svolta nel campo dell'immagine, il set di dati ImageNet è indispensabile, questa è l'importanza del set di dati, perché registra le informazioni della funzione obiettivo. Ma abbiamo appreso dalla sezione precedente che il set di dati è difettoso, non può registrare completamente le informazioni della funzione obiettivo e parte di esso andrà persa. La qualità del set di dati risiede nel suo tasso di conservazione delle informazioni sulla funzione obiettivo.


Il compito della fase di training è quello di utilizzare le informazioni nel dataset (funzione dataset d(x)d(\mathbf x)) per ripristinare la funzione obiettivo o(x)o(\mathbf x). A causa di varie restrizioni, otterremo solo una funzione f(x)f(\mathbf x) che approssima la funzione obiettivo.


Un buon modello ha una forma funzionale corrispondente più vicina alla funzione obiettivo, che può compensare meglio i difetti del set di dati e ottenere risultati migliori.

Visualizzazione

2 punti

Per citare l'esempio nella sezione precedente, il set di dati ha 2 punti e il tasso di conservazione delle informazioni di questo set di dati è molto basso.

Set di dati

Fare diverse ipotesi sulla sua forma funzionale:

Forma linea retta
ww3
Forma parabolica

Regolando i parametri di ww, possiamo ottenere innumerevoli parabole e tutte possono simulare perfettamente la funzione del set di dati d(x)d(\mathbf x)


Esistono molte altre forme funzionali e la forma funzionale stessa è infinita. Altre forme di funzione possono anche simulare perfettamente la funzione del set di dati d(x)d(\mathbf x)

3 punti

Forma linea retta
ww3
Forma parabolica

5 punti

Forma linea retta
ww25
Forma parabolica

Con l'aumento dei punti dati, la forma funzionale si avvicina a una linea retta, ma ci sono ancora infinite possibilità.

Ricapitolare

L'informazione sotto forma di funzione obiettivo non può essere ottenuta dai dati, e ci sono infinite possibilità.

Progetta la struttura della rete neurale

Le informazioni nel set di dati sono insufficienti. Abbiamo bisogno di ottenere informazioni aggiuntive da altri luoghi e usarle per guidare la progettazione strutturale della rete neurale per sopperire alla mancanza di informazioni.

Struttura speciale

In vari compiti di deep learning, i buoni modelli utilizzano strutture altamente specializzate. Come:


Molte strutture specializzate sono progettate con riferimento al processo di elaborazione di una determinata funzione obiettivo. Ad esempio, la CNN simula la struttura organizzativa del nervo ottico. Sebbene la forma specifica della funzione obiettivo sia sconosciuta, le persone spesso possono ottenere alcune delle sue informazioni e ottenere risultati migliori simulando il processo di elaborazione della funzione obiettivo.

Design strutturale

La struttura della rete neurale è lo scheletro dell'algoritmo, che determina direttamente il potenziale ultimo dell'algoritmo. Se lo scheletro non è progettato bene, non importa come lo alleni, alla fine sarà solo insoddisfacente.

ww1
bb2
Struttura inappropriata
aa1
bb0
cc0
Struttura appropriata

La struttura di una rete neurale non può essere ottenuta attraverso l'addestramento e di solito richiede una progettazione artificiale.


Esistono anche ricerche di architettura attraverso algoritmi, cioè provando una varietà di architetture diverse, e scegliendo quella migliore in base all'effetto finale di addestramento, che richiede una grande quantità di potenza di calcolo ed è adatta solo a un numero molto ristretto di istituzioni con forti risorse finanziarie.


Per progettare artificialmente una buona struttura di rete neurale, abbiamo bisogno di:

  1. Avere una certa comprensione o congettura ragionevole della funzione obiettivo corrispondente al compito;
  2. Familiarità con la struttura comune della rete neurale e comprenderne il principio;
  3. Utilizzare queste strutture per assemblare in una struttura simile alla funzione obiettivo.

Ricapitolare

  1. Il set di dati non può fornire informazioni sufficienti e la struttura della rete neurale deve compensare la mancanza di informazioni
  2. L'informazione della struttura della rete neurale deriva dalla comprensione e simulazione del processo di elaborazione della funzione obiettivo

problema

Le reti neurali possono simulare funzioni arbitrarie, quindi perché dobbiamo progettarne la struttura?