Transformator-Grundlagen
Ein Transformer ist ein Deep-Learning-Modell, das den Mechanismus der Selbstaufmerksamkeit übernimmt und die Bedeutung jedes Teils der Eingabedaten unterschiedlich gewichtet. Sie wird hauptsächlich in den Bereichen der natürlichen Sprachverarbeitung (NLP)[1] und Computer Vision (CV) verwendet. [2]
Wie rekurrente neuronale Netze (RNNs) sind Transformer darauf ausgelegt, sequentielle Eingabedaten wie natürliche Sprache zu verarbeiten, mit Anwendungen für Aufgaben wie Übersetzung und Textzusammenfassung. Im Gegensatz zu RNNs verarbeiten Transformatoren jedoch den gesamten Eingang auf einmal. Der Aufmerksamkeitsmechanismus liefert Kontext für jede Position in der Eingabesequenz. Wenn zum Beispiel die Eingabedaten ein natürlicher Sprachsatz sind, muss der Transformator kein Wort nach dem anderen verarbeiten. Dies ermöglicht mehr Parallelisierung als RNNs und verkürzt somit die Trainingszeiten. [1]
Transformer wurden 2017 von einem Team bei Google Brain[1] eingeführt und sind zunehmend das bevorzugte Modell für NLP-Probleme,[3] und ersetzen RNN-Modelle wie das Langzeitgedächtnis (LSTM). Die zusätzliche Trainingsparallelisierung ermöglicht das Training auf größeren Datensätzen. Dies führte zur Entwicklung von vortrainierten Systemen wie BERT (Bidirectional Encoder Representations from Transformers) und GPT (Generative Pre-trained Transformer), die mit großen Sprachdatensätzen wie dem Wikipedia Corpus und Common Crawl trainiert wurden und für spezifische Aufgaben fein abgestimmt werden können. [4][5]
Wie rekurrente neuronale Netze (RNNs) sind Transformer darauf ausgelegt, sequentielle Eingabedaten wie natürliche Sprache zu verarbeiten, mit Anwendungen für Aufgaben wie Übersetzung und Textzusammenfassung. Im Gegensatz zu RNNs verarbeiten Transformatoren jedoch den gesamten Eingang auf einmal. Der Aufmerksamkeitsmechanismus liefert Kontext für jede Position in der Eingabesequenz. Wenn zum Beispiel die Eingabedaten ein natürlicher Sprachsatz sind, muss der Transformator kein Wort nach dem anderen verarbeiten. Dies ermöglicht mehr Parallelisierung als RNNs und verkürzt somit die Trainingszeiten. [1]
Transformer wurden 2017 von einem Team bei Google Brain[1] eingeführt und sind zunehmend das bevorzugte Modell für NLP-Probleme,[3] und ersetzen RNN-Modelle wie das Langzeitgedächtnis (LSTM). Die zusätzliche Trainingsparallelisierung ermöglicht das Training auf größeren Datensätzen. Dies führte zur Entwicklung von vortrainierten Systemen wie BERT (Bidirectional Encoder Representations from Transformers) und GPT (Generative Pre-trained Transformer), die mit großen Sprachdatensätzen wie dem Wikipedia Corpus und Common Crawl trainiert wurden und für spezifische Aufgaben fein abgestimmt werden können. [4][5]



