Neural Network

Deutsch

Was ist ein neuronales Netzwerk?
1. Tauchen Sie ein in das Neuron
2. Wie simuliert ein neuronales Netz eine beliebige Funktion
3. Warum brauchen wir neuronale Netze
Wie baut man ein neuronales Netz auf?
1. Vollständig verbundenes neuronales Netzwerk
2. Verwenden Sie ein grafisches Tool, um ein neuronales Netzwerk zu entwerfen
3. Die "Aktivierungsfunktion" der Ausgabeschicht
So trainieren Sie ein neuronales Netz
1. Lernalgorithmus und -prinzip
2. Erstellen und trainieren Sie neuronale Netze von Grund auf neu
3. Schreiben Sie den Code mit PyTorch um
4. Verwenden Sie ein grafisches Tool, um das neuronale Netzwerk zu trainieren
Einige wichtige Probleme des neuronalen Netzes
1. Netzwerkstruktur
2. Überanpassung
3. Unteranpassung
4. Überanpassung vs. Unteranpassung
5. Initialisierung
6. Verschwindender Gradient und explodierender Gradient
Convolutional Neural Network (CNN)
1. 1D-Faltung
2. 1D-Faltungsexperimente
3. 1D-Pooling
4. 1D-CNN-Experimente
5. 2D-CNN
6. 2D-CNN Experimente
Rekurrentes neuronales Netz (RNN)
1. Vanille RNN
2. Seq2seq, Autoencoder, Encoder-Decoder
3. Erweiterte RNN
4. RNN-Klassifikationsexperiment
Verarbeitung natürlicher Sprache
1. Embedding: Symbole in Werte umwandeln
2. Textkategorisierung 1
3. Textkategorisierung 2
4. TextCNN
5. Entitätserkennung
6. Wortsegmentierung, Wortart-Tagging und Chunking
7. Sequenz-Tagging in Aktion
8. Bidirektionales RNN
9. BI-LSTM-CRF
10. Beachtung
Sprachmodelle
1. n-gram-Modelle: Unigram
2. n-gram-Modelle: Bigram
3. n-gram-Modelle: Trigram
4. RNN-Sprachmodelle
5. Transformer-Sprachmodelle
Lineare Algebra
1. Vektor
2. Matrix
3. Eintauchen in die Matrixmultiplikation
4. Tensor

Tauchen Sie ein in das Neuron

Überblick

Aus dem vorherigen Abschnitt (Was ist ein neuronales Netzwerk) haben wir gelernt, dass ein neuronales Netzwerk eine Funktion ist, die aus Neuronen besteht, und ein Neuron ist auch eine Funktion.

Neuron lässt sich weiterhin in 2 Unterfunktionen aufteilen:

$n$ Element lineare Funktion: $g(x_1, ..., x_n)$
unäre nichtlineare Funktion: $h(x)$

Die durch das Neuron repräsentierte Funktion ist:

f(x_1, ..., x_n) = h(g(x_1, ..., x_n))

Lineare Funktion $g(x_1, ..., x_n)$

Die lineare Funktion hat folgende Form:

g(x_1, ..., x_n) = w_1x_1 + ..., w_nx_n + b

Darunter sind $w_1, ..., w_n, b$ alle Parameter, und verschiedene lineare Funktionen haben unterschiedliche Parameter.

Unäre lineare Funktion

Bei $n = 1$ , $g(x_1) = w_1x_1 + b$ ist das Funktionsbild eine gerade Linie:


 $w_1$ 1
 $b$ 0

Binäre lineare Funktion

Bei $n = 2$ , $g(x_1, x_2) = w_1x_1 + w_2x_2 + b$ ist das Funktionsbild eine Ebene:


 $w_1$ 0
 $w_2$ 1
 $b$ 0

$n$ Element lineare Funktion

Bei $n > 2$ ist das Funktionsbild eine Hyperebene. Jenseits von 3D ist die Visualisierung nicht bequem. Aber Sie können sich vorstellen, dass seine Charakteristik gerade ist.

Nichtlineare Funktion $h(x)$

Aus dem Namen ist leicht zu verstehen, dass eine nichtlineare Funktion eine von einer linearen Funktion verschiedene Funktion ist. Eine lineare Funktion ist gerade und eine nichtlineare Funktion ist gekrümmt. Wie die gebräuchlichste sigmoid-Funktion:

Aktivierungsfunktion

In neuronalen Netzen nennen wir diese unäre nichtlineare Funktion Aktivierungsfunktion. Einige allgemeine Aktivierungsfunktionen finden Sie unter Aktivierungsfunktion in der Wissensdatenbank, wo:

Linear: $f(x) = x$ ist eine lineare Funktion, was bedeutet, dass keine nichtlineare Funktion verwendet wird
Softmax ist ein Sonderfall. Streng genommen handelt es sich nicht um eine Aktivierungsfunktion

Notwendigkeit

Warum sollte auf eine nichtlineare Aktivierungsfunktion eine lineare Funktion folgen?

Das ist weil:

Wenn Neuronen alle lineare Funktionen sind, dann ist auch das aus Neuronen bestehende neuronale Netz eine lineare Funktion.

Wie das folgende Beispiel:

$f_1(x, y) = w_1x + w_2y + b_1$
$f_2(x, y) = w_3x + w_4y + b_2$
$f_3(x, y) = w_5x + w_6y + b_3$

Dann ist die durch das gesamte neuronale Netz repräsentierte Funktion:

\begin{aligned} &f_3(f_1(x_1, x_2, x_3), f_2(x_1, x_2, x_3)) \\ = &w_5(w_1x_1 + w_2x_2 + b_1) + w_6(w_3x_2 + w_4x_3 + b_2) + b_3 \\ = &(w_1w_5)x_1 + (w_2w_5 + w_3w_6)x_2 + (w_4w_6)x_3 + (w_5b_1 + w_6b_2 + b_3) \\ \end{aligned}

Dies ist eine ternäre lineare Funktion.

Die zu konstruierende Zielfunktion enthält verschiedene Funktionen, und die lineare Funktion ist nur eine davon.

Wir hoffen, dass neuronale Netze beliebige Funktionen simulieren können, nicht nur lineare Funktionen. Also haben wir eine nichtlineare Aktivierungsfunktion hinzugefügt und die lineare Funktion "gebogen".

Komplettes Neuron

Das komplette Neuron kombiniert eine lineare Funktion und eine nichtlineare Aktivierungsfunktion, was es interessanter und leistungsfähiger macht.

Unäre Funktion

Wenn $n = 1$ , $g(x_1) = w_1x_1 + b$ unter Verwendung der sigmoid-Aktivierungsfunktion ist die entsprechende Funktion des Neurons:

h(g(x))=\text{sigmoid}(wx + b)

Das Funktionsbild ist:


 $w$ 1
 $b$ 0

Binäre Funktion

Wenn $n = 2$ , $g(x_1, x_2) = w_1x_1 + w_2x_2 + b$ , unter Verwendung der sigmoid-Aktivierungsfunktion ist die entsprechende Funktion des Neurons:

h(g(x))=\text{sigmoid}(w_1x_1 + w_2x_2 + b)

Das Funktionsbild ist:


 $w_1$ 0
 $w_2$ 1
 $b$ 0

$n$ -Elementfunktion

Aufgrund des Visualisierungsproblems ist es hier ganz meiner eigenen Vorstellung überlassen! 😥

Frage

Warum kann das neuronale Netz komplexe Funktionen aus einer Kombination von Neuronen simulieren?

Sie können sich intuitiv vorstellen, wie Sie durch einfache Neuronen eine etwas kompliziertere Funktion simulieren.