Grundlagen des Transformators

Grundlagen des Transformators



Ein Transformator ist ein Deep-Learning-Modell, das den Mechanismus der Selbstaufmerksamkeit übernimmt und die Bedeutung jedes Teils der Eingabedaten unterschiedlich gewichtet. Es wird vor allem in den Bereichen Natural Language Processing (NLP)[1] und Computer Vision (CV) eingesetzt. [2]

Wie rekurrente neuronale Netze (RNNs) sind Transformatoren so konzipiert, dass sie sequenzielle Eingabedaten wie natürliche Sprache verarbeiten, mit Anwendungen für Aufgaben wie Übersetzung und Textzusammenfassung. Im Gegensatz zu RNNs verarbeiten Transformatoren jedoch den gesamten Eingang auf einmal. Der Aufmerksamkeitsmechanismus liefert Kontext für jede Position in der Eingabesequenz. Wenn es sich bei den Eingabedaten beispielsweise um einen Satz in natürlicher Sprache handelt, muss der Transformator nicht jeweils ein Wort verarbeiten. Dies ermöglicht mehr Parallelisierung als RNNs und reduziert somit die Trainingszeiten. [1]

Transformatoren wurden 2017 von einem Team von Google Brain[1] eingeführt und sind zunehmend das Modell der Wahl für NLP-Probleme[3] und ersetzen RNN-Modelle wie das lange Kurzzeitgedächtnis (LSTM). Die zusätzliche Trainingsparallelisierung ermöglicht das Training an größeren Datensätzen. Dies führte zur Entwicklung vortrainierter Systeme wie BERT (Bidirectional Encoder Representations from Transformers) und GPT (Generative Pre-trained Transformer), die mit großen Sprachdatensätzen wie dem Wikipedia Corpus und Common Crawl trainiert wurden und für spezifische Aufgaben fein abgestimmt werden können. [4] [5]

Kontaktieren Sie uns


Weiterempfehlen Lesen

Kontaktieren Sie uns

24 Stunden Online-Service