Verschwindender Gradient und explodierender Gradient
Convolutional Neural Network (CNN)
1D-Faltung
1D-Faltungsexperimente
1D-Pooling
1D-CNN-Experimente
2D-CNN
2D-CNN Experimente
Rekurrentes neuronales Netz (RNN)
Vanille RNN
Seq2seq, Autoencoder, Encoder-Decoder
Erweiterte RNN
RNN-Klassifikationsexperiment
Verarbeitung natürlicher Sprache
Embedding: Symbole in Werte umwandeln
Textkategorisierung 1
Textkategorisierung 2
TextCNN
Entitätserkennung
Wortsegmentierung, Wortart-Tagging und Chunking
Sequenz-Tagging in Aktion
Bidirektionales RNN
BI-LSTM-CRF
Beachtung
Sprachmodelle
n-gram-Modelle: Unigram
n-gram-Modelle: Bigram
n-gram-Modelle: Trigram
RNN-Sprachmodelle
Transformer-Sprachmodelle
Lineare Algebra
Vektor
Matrix
Eintauchen in die Matrixmultiplikation
Tensor
Netzwerkstruktur
Überblick
Im Bereich Deep Learning sehen wir oft Nachrichten über das Ranking eines bestimmten Modells. Ein wichtiger Durchbruch bei der Aufgabe eines neuronalen Netzwerkalgorithmus hängt erstens vom Datensatz und zweitens von der Modellstruktur ab.
Der Durchbruch im Bildbereich, der ImageNet-Datensatz ist unverzichtbar, das ist die Bedeutung des Datensatzes, denn er erfasst die Informationen der Zielfunktion.
Aus dem vorherigen Abschnitt haben wir jedoch gelernt, dass der Datensatz fehlerhaft ist, die Informationen der Zielfunktion nicht vollständig erfassen kann und ein Teil davon verloren geht. Die Qualität des Datensatzes liegt in seiner Retentionsrate von objektiven Funktionsinformationen.
Die Aufgabe der Trainingsphase besteht darin, die Informationen im Datensatz (Datensatzfunktion d(x)) zu verwenden, um die Zielfunktion o(x) wiederherzustellen. Aufgrund verschiedener Einschränkungen erhalten wir nur eine Funktion f(x), die die Zielfunktion approximiert.
Ein gutes Modell hat eine entsprechende funktionale Form, die näher an der Zielfunktion liegt, wodurch die Fehler des Datensatzes besser ausgeglichen und bessere Ergebnisse erzielt werden können.
Visuelle Darstellung
2 Punkte
Um das Beispiel im vorherigen Abschnitt zu zitieren, hat der Datensatz 2 Punkte und die Informationsspeicherungsrate dieses Datensatzes ist sehr gering.
Datensatz
Machen Sie verschiedene Annahmen über seine funktionale Form:
Gerade Linienform
w3
Parabolische Form
Durch Anpassen der Parameter von w können wir unzählige Parabeln erhalten und alle können die Datensatzfunktion d(x) . perfekt simulieren
Es gibt viele andere Funktionsformen, und die Funktionsform selbst ist unendlich. Auch andere Funktionsformen können die Datensatzfunktion d(x) . perfekt simulieren
3 Punkte
Gerade Linienform
w3
Parabolische Form
5 Punkte
Gerade Linienform
w25
Parabolische Form
Mit der Zunahme der Datenpunkte nähert sich die Funktionsform einer Geraden, aber es gibt noch unendlich viele Möglichkeiten.
Zusammenfassen
Die Information in Form der Zielfunktion kann aus den Daten nicht gewonnen werden und es gibt unendlich viele Möglichkeiten.
Entwerfen Sie die Struktur des neuronalen Netzes
Die Informationen im Datensatz sind unzureichend. Wir müssen zusätzliche Informationen von anderen Stellen beschaffen und diese nutzen, um den strukturellen Entwurf des neuronalen Netzes zu leiten, um den Informationsmangel auszugleichen.
Spezielle Struktur
Bei verschiedenen Deep-Learning-Aufgaben verwenden gute Modelle hochspezialisierte Strukturen. mögen:
Viele spezialisierte Strukturen werden mit Bezug auf den Verarbeitungsprozess einer bestimmten Zielfunktion entworfen. CNN simuliert beispielsweise die Organisationsstruktur des Sehnervs.
Obwohl die spezifische Form der Zielfunktion unbekannt ist, können Menschen oft einige ihrer Informationen erhalten und bessere Ergebnisse erzielen, indem sie den Verarbeitungsprozess der Zielfunktion simulieren.
Strukturiertes Design
Die Struktur des neuronalen Netzes ist das Skelett des Algorithmus, das direkt das ultimative Potenzial des Algorithmus bestimmt. Wenn das Skelett nicht gut gestaltet ist, egal wie man es trainiert, wird es am Ende nur unbefriedigend sein.
w1
b2
Unangemessene Struktur
a1
b0
c0
Angemessene Struktur
Die Struktur eines neuronalen Netzes kann nicht durch Training erlangt werden und erfordert in der Regel ein künstliches Design.
Es gibt auch Architektur-Suchen durch Algorithmen, d. h. das Ausprobieren verschiedener Architekturen und die Auswahl der besten nach dem endgültigen Trainingseffekt, was sehr viel Rechenleistung erfordert und nur für eine sehr kleine Anzahl von Institutionen geeignet ist mit starken finanziellen Mitteln.
Um eine gute neuronale Netzstruktur künstlich zu entwerfen, benötigen wir:
ein gewisses Verständnis oder eine vernünftige Vermutung der der Aufgabe entsprechenden Zielfunktion haben;
mit der gemeinsamen Struktur des neuronalen Netzes vertraut sein und sein Prinzip verstehen;
Verwenden Sie diese Strukturen, um eine Struktur ähnlich der Zielfunktion aufzubauen.
Zusammenfassen
Der Datensatz kann nicht genügend Informationen liefern und die Struktur des neuronalen Netzes muss den Informationsmangel ausgleichen
Die Informationen der neuronalen Netzstruktur stammen aus dem Verständnis und der Simulation des Verarbeitungsprozesses der Zielfunktion
Problem
Neuronale Netze können beliebige Funktionen simulieren, warum also müssen wir ihre Struktur entwerfen?