Neural Network

Italiano

Cos'è la rete neurale?
1. Immergiti nel neurone
2. In che modo una rete neurale simula una funzione arbitraria?
3. Perché abbiamo bisogno delle reti neurali?
Come costruire una rete neurale
1. Rete neurale completamente connessa
2. Usa lo strumento grafico per progettare la rete neurale
3. La "funzione di attivazione" del livello di output
Come addestrare una rete neurale
1. Algoritmo e principio di apprendimento
2. Costruisci e addestra reti neurali da zero
3. Riscrivi il codice usando PyTorch
4. Usa lo strumento grafico per addestrare la rete neurale
Alcuni importanti problemi della rete neurale
1. Struttura di rete
2. sovradattamento
3. inadeguato
4. Overfitting vs underfitting
5. Inizializzazione
6. Gradiente che svanisce e gradiente che esplode
Rete neurale convoluzionale (CNN)
1. 1D-convoluzione
2. Esperimenti di convoluzione 1D
3. 1D-raggruppamento
4. Esperimenti 1D-CNN
5. 2D-CNN
6. Esperimenti 2D-CNN
Rete neurale ricorrente (RNN)
1. Vanilla RNN
2. Seq2seq, Autoencoder, Encoder-Decoder
3. RNN avanzato
4. Esperimento di classificazione RNN
Elaborazione del linguaggio naturale
1. Embedding: converti simboli in valori
2. Classificazione testo 1
3. Classificazione testo 2
4. TextCNN
5. Riconoscimento di entità
6. Segmentazione delle parole, tag e suddivisione in parti del discorso
7. Tag di sequenza in azione
8. RNN Bi bidirezionale
9. BI-LSTM-CRF
10. Attenzione
Modelli di linguaggio
1. Modello n-gram: Unigram
2. Modello n-gram: Bigram
3. Modello n-gram: Trigram
4. Modello RNN
5. Modello Transformer
Algebra lineare
1. Vettore
2. Matrice
3. Immergiti nella moltiplicazione di matrici
4. Tensore

Immergiti nel neurone

Panoramica

Dalla sezione precedente (Cos'è la rete neurale), abbiamo appreso che una rete neurale è una funzione, che è composta da neuroni, e anche il neurone è una funzione.

Il neurone può continuare a essere suddiviso in 2 sottofunzioni:

Funzione lineare elemento $n$ : $g(x_1, ..., x_n)$
funzione unaria non lineare: $h(x)$

La funzione rappresentata dal neurone è:

f(x_1, ..., x_n) = h(g(x_1, ..., x_n))

Funzione lineare $g(x_1, ..., x_n)$

La funzione lineare ha la seguente forma:

g(x_1, ..., x_n) = w_1x_1 + ..., w_nx_n + b

Tra questi, $w_1, ..., w_n, b$ sono tutti parametri e diverse funzioni lineari hanno parametri diversi.

Funzione lineare unaria

Quando $n = 1$ , $g(x_1) = w_1x_1 + b$ , l'immagine della funzione è una linea retta:


 $w_1$ 1
 $b$ 0

Funzione lineare binaria

Quando $n = 2$ , $g(x_1, x_2) = w_1x_1 + w_2x_2 + b$ , l'immagine della funzione è un piano:


 $w_1$ 0
 $w_2$ 1
 $b$ 0

Funzione lineare elemento $n$

Quando $n > 2$ , l'immagine della funzione è un iperpiano. Oltre al 3D, la visualizzazione non è conveniente. Ma puoi immaginare che la sua caratteristica sia diritta.

Funzione non lineare $h(x)$

È facile capire dal nome che una funzione non lineare è una funzione diversa da una funzione lineare. Una funzione lineare è retta e una funzione non lineare è curva. Come la funzione sigmoid più comune:

Funzione di attivazione

Nelle reti neurali, chiamiamo questa funzione unaria non lineare funzione di attivazione. Per alcune funzioni di attivazione comuni, fare riferimento a funzione di attivazione nella knowledge base, dove:

Linear: $f(x) = x$ è una funzione lineare, il che significa che non viene utilizzata una funzione non lineare
Softmax è un caso speciale. A rigor di termini, non è una funzione di attivazione

Necessità

Perché una funzione di attivazione non lineare dovrebbe essere seguita da una funzione lineare?

Questo è perché:

Se i neuroni sono tutte funzioni lineari, anche la rete neurale composta da neuroni è una funzione lineare.

Come il seguente esempio:

$f_1(x, y) = w_1x + w_2y + b_1$
$f_2(x, y) = w_3x + w_4y + b_2$
$f_3(x, y) = w_5x + w_6y + b_3$

Allora la funzione rappresentata dall'intera rete neurale è:

\begin{aligned} &f_3(f_1(x_1, x_2, x_3), f_2(x_1, x_2, x_3)) \\ = &w_5(w_1x_1 + w_2x_2 + b_1) + w_6(w_3x_2 + w_4x_3 + b_2) + b_3 \\ = &(w_1w_5)x_1 + (w_2w_5 + w_3w_6)x_2 + (w_4w_6)x_3 + (w_5b_1 + w_6b_2 + b_3) \\ \end{aligned}

Questa è una funzione lineare ternaria.

La funzione obiettivo che dobbiamo costruire contiene varie funzioni e la funzione lineare è solo una di queste.

Speriamo che le reti neurali possano simulare funzioni arbitrarie, non solo funzioni lineari. Quindi abbiamo aggiunto una funzione di attivazione non lineare e "piegato" la funzione lineare.

Neurone completo

Il neurone completo combina una funzione lineare e una funzione di attivazione non lineare, rendendolo più interessante e potente.

Funzione unaria

Quando $n = 1$ , $g(x_1) = w_1x_1 + b$ , utilizzando la funzione di attivazione sigmoid, la funzione corrispondente del neurone è:

h(g(x))=\text{sigmoid}(wx + b)

L'immagine della funzione è:


 $w$ 1
 $b$ 0

Funzione binaria

Quando $n = 2$ , $g(x_1, x_2) = w_1x_1 + w_2x_2 + b$ , utilizzando la funzione di attivazione sigmoid, la funzione corrispondente del neurone è:

h(g(x))=\text{sigmoid}(w_1x_1 + w_2x_2 + b)

L'immagine della funzione è:


 $w_1$ 0
 $w_2$ 1
 $b$ 0

Funzione $n$ -elemento

A causa del problema di visualizzazione, qui dipende interamente dalla mia immaginazione! ?

Domanda

Perché la rete neurale può simulare funzioni complesse dalla combinazione di neuroni?

Puoi immaginare intuitivamente come simulare una funzione leggermente più complicata attraverso semplici neuroni.