Was sind Transformatoren in der künstlichen Intelligenz?

AWS-Konto erstellen

Kostenlose Machine Learning-Angebote entdecken

Entwicklung, Bereitstellung und Ausführung von Machine Learning-Anwendungen kostenlos in der Cloud

Machine Learning-Services überprüfen

Mit einem umfassenden Angebot an KI- und ML-Services schneller innovieren

Machine Learning-Schulungen durchsuchen

Beginnen Sie mit dem Training zum Machine Learning mit Inhalten, die von AWS-Experten erstellt wurden

Machine Learning-Blogs lesen

Über die neuesten AWS Machine Learning-Produktneuheiten und Best Practices lesen

Was sind Transformatoren in der künstlichen Intelligenz?

Transformatoren sind eine Art neuronaler Netzwerkarchitektur, die eine Eingabesequenz in eine Ausgabesequenz transformiert oder ändert. Sie tun dies, indem sie den Kontext lernen und Beziehungen zwischen Sequenzkomponenten verfolgen. Stellen Sie sich zum Beispiel diese Eingabesequenz vor: „Was ist die Farbe des Himmels?“ Das Transformatormodell verwendet eine interne mathematische Darstellung, die die Relevanz und Beziehung zwischen den Wörtern Farbe, Himmel und Blau identifiziert. Es nutzt dieses Wissen, um die Ausgabe zu generieren: „Der Himmel ist blau.“

Unternehmen verwenden Transformatormodelle für alle Arten von Sequenzkonvertierungen, von der Spracherkennung über die maschinelle Übersetzung bis hin zur Proteinsequenzanalyse.

Weitere Informationen über neuronale Netzwerke

Weitere Informationen über künstliche Intelligenz (KI)

Warum sind Transformatoren wichtig?

Frühe Deep-Learning-Modelle, die sich intensiv auf Aufgaben der natürlichen Sprachverarbeitung (NLP) konzentrierten, zielten darauf ab, Computer dazu zu bringen, die natürliche menschliche Sprache zu verstehen und darauf zu reagieren. Sie haben das nächste Wort in einer Reihenfolge erraten, die auf dem vorherigen Wort basiert.

Um dies besser zu verstehen, sollten Sie die Funktion zur automatischen Vervollständigung in Ihrem Smartphone in Betracht ziehen. Es macht Vorschläge, die auf der Häufigkeit der von Ihnen eingegebenen Wortpaare basieren. Wenn Sie beispielsweise häufig „Mir geht es gut“ eingeben, schlägt Ihr Telefon automatischgut vor, nachdem Sie geht es eingegeben haben.

Frühe Modelle des Machine Learning (ML) verwendeten ähnliche Technologien auf breiterer Ebene. Sie kartierten die Beziehungshäufigkeit zwischen verschiedenen Wortpaaren oder Wortgruppen in ihrem Trainingsdatensatz und versuchten, das nächste Wort zu erraten. Frühe Technologien konnten den Kontext jedoch nicht länger als eine bestimmte Eingabelänge beibehalten. Ein frühes ML-Modell konnte beispielsweise keinen aussagekräftigen Absatz generieren, da es den Kontext zwischen dem ersten und dem letzten Satz in einem Absatz nicht beibehalten konnte. Um eine Ausgabe wie „Ich komme aus Italien. Ich reite gern. Ich spreche Italienisch.“ zu generieren, muss das Modell sich an die Verbindung zwischen Italien und Italienisch erinnern, was frühe neuronale Netze einfach nicht konnten.

Transformatormodelle haben die NLP-Technologien grundlegend verändert, indem sie es Modellen ermöglichten, solche weitreichenden Abhängigkeiten im Text zu handhaben. Im Folgenden sind weitere Vorteile von Transformatoren aufgeführt.

Modelle im großen Maßstab ermöglichen

Transformatoren verarbeiten lange Sequenzen in ihrer Gesamtheit mit paralleler Berechnung, was sowohl die Trainings- als auch die Verarbeitungszeiten erheblich verkürzt. Dies hat das Training sehr großer Sprachmodelle (LLM) wie GPT und BERT ermöglicht, die komplexe Sprachrepräsentationen lernen können. Sie verfügen über Milliarden von Parametern, die ein breites Spektrum an menschlicher Sprache und Wissen erfassen, und sie treiben die Forschung in Richtung verallgemeinerbarer KI-Systeme voran.

Weitere Informationen über große Sprachmodelle

Weitere Informationen über GPT

Schnellere Anpassung ermöglichen

Mit Transformatormodellen können Sie Techniken wie Transfer Learning und Retrieval-Augmented Generation (RAG) verwenden. Diese Techniken ermöglichen die Anpassung vorhandener Modelle für branchenspezifische Anwendungen. Modelle können an großen Datensätzen vortrainiert und dann an kleineren, aufgabenspezifischen Datensätzen optimiert werden. Dieser Ansatz hat die Verwendung ausgeklügelter Modelle demokratisiert und Ressourcenbeschränkungen beim Training großer Modelle von Grund auf beseitigt. Modelle können in mehreren Domains und Aufgaben für verschiedene Anwendungsfälle gut funktionieren.

Multimodale KI-Systeme ermöglichen

Mit Transformatoren können Sie KI für Aufgaben verwenden, die komplexe Datensätze kombinieren. Modelle wie DALL-E zeigen beispielsweise, dass Transformatoren Bilder aus Textbeschreibungen generieren können, indem sie NLP- und Computer-Vision-Funktionen kombinieren. Mit Transformatoren können Sie KI-Anwendungen erstellen, die verschiedene Informationstypen integrieren und das menschliche Verständnis und die Kreativität besser nachahmen.

Weitere Informationen über Computer Vision

KI-Forschung und Industrieinnovation

Transformatoren haben eine neue Generation von KI-Technologien und KI-Forschung geschaffen und die Grenzen dessen, was in ML möglich ist, erweitert. Ihr Erfolg hat neue Architekturen und Anwendungen inspiriert, die innovative Probleme lösen. Sie haben es Maschinen ermöglicht, menschliche Sprache zu verstehen und zu erzeugen, was zu Anwendungen geführt hat, die das Kundenerlebnis verbessern und neue Geschäftsmöglichkeiten eröffnen.

Was sind die Anwendungsfälle für Transformatoren?

Sie können große Transformatormodelle mit beliebigen sequentiellen Daten wie menschlichen Sprachen, Musikkompositionen, Programmiersprachen und mehr trainieren. Im Folgenden finden Sie einige Beispielanwendungsfälle.

Natürliche Sprachverarbeitung

Transformatoren ermöglichen es Maschinen, menschliche Sprache auf eine Weise zu verstehen, zu interpretieren und zu erzeugen, die genauer ist als je zuvor. Sie können große Dokumente zusammenfassen und kohärenten und kontextuell relevanten Text für alle Arten von Anwendungsfällen generieren. Virtuelle Assistenten wie Alexa verwenden die Transformatortechnologie, um Sprachbefehle zu verstehen und darauf zu reagieren.

Maschinelle Übersetzung

Übersetzungsanwendungen verwenden Transformatoren, um in Echtzeit genaue Übersetzungen zwischen Sprachen bereitzustellen. Transformatoren haben den Fluss und die Genauigkeit von Übersetzungen im Vergleich zu früheren Technologien erheblich verbessert.

Weitere Informationen über maschinelle Übersetzung

DNA-Sequenzanalyse

Indem Transformatoren DNA-Abschnitte als eine sprachähnliche Sequenz behandeln, können sie die Auswirkungen genetischer Mutationen vorhersagen, genetische Muster verstehen und helfen, DNA-Regionen zu identifizieren, die für bestimmte Krankheiten verantwortlich sind. Diese Fähigkeit ist entscheidend für die personalisierte Medizin, in der das Verständnis der genetischen Ausstattung einer Person zu wirksameren Behandlungen führen kann.

Analyse der Proteinstruktur

Transformatormodelle können sequentielle Daten verarbeiten, weshalb sie sich gut für die Modellierung der langen Aminosäureketten eignen, die sich zu komplexen Proteinstrukturen falten. Das Verständnis der Proteinstrukturen ist für die Wirkstoffforschung und das Verständnis biologischer Prozesse von entscheidender Bedeutung. Sie können Transformatoren auch in Anwendungen verwenden, die die 3D-Struktur von Proteinen anhand ihrer Aminosäuresequenzen vorhersagen.

Wie funktionieren Transformatoren?

Neuronale Netzwerke sind seit Anfang der 2000er Jahre die führende Methode für verschiedene KI-Aufgaben wie Bilderkennung und NLP. Sie bestehen aus Schichten miteinander verbundener Rechenknoten oder Neuronen, die das menschliche Gehirn nachahmen und zusammenarbeiten, um komplexe Probleme zu lösen.

Herkömmliche neuronale Netzwerke, die mit Datensequenzen umgehen, verwenden häufig ein Encoder-/Decoder-Architekturmuster. Der Encoder liest und verarbeitet die gesamte Eingabedatensequenz, z. B. einen englischen Satz, und wandelt sie in eine kompakte mathematische Darstellung um. Diese Darstellung ist eine Zusammenfassung, die den Kern der Eingabe erfasst. Dann nimmt der Decoder diese Zusammenfassung auf und generiert Schritt für Schritt die Ausgabesequenz, bei der es sich um denselben Satz handeln könnte, der ins Französische übersetzt wurde.

Dieser Vorgang erfolgt sequentiell, was bedeutet, dass jedes Wort oder jeder Teil der Daten nacheinander verarbeitet werden muss. Der Vorgang ist langsam und kann über große Entfernungen einige feinere Details verlieren.

Mechanismus der Selbstaufmerksamkeit

Transformatormodelle modifizieren diesen Prozess, indem sie einen sogenannten Selbstaufmerksamkeitsmechanismus integrieren. Anstatt die Daten der Reihe nach zu verarbeiten, ermöglicht der Mechanismus dem Modell, verschiedene Teile der Sequenz auf einmal zu betrachten und festzustellen, welche Teile am wichtigsten sind.

Stellen Sie sich vor, Sie sind in einem belebten Raum und versuchen, jemandem beim Reden zuzuhören. Ihr Gehirn konzentriert sich automatisch auf ihre Stimme und blendet weniger wichtige Geräusche aus. Selbstaufmerksamkeit ermöglicht es dem Modell, etwas Ähnliches zu tun: Es schenkt den relevanten Informationen mehr Aufmerksamkeit und kombiniert sie, um bessere Ausgangsvorhersagen zu treffen. Dieser Mechanismus macht Transformatoren effizienter und ermöglicht es, sie mit größeren Datensätzen zu trainieren. Es ist auch effektiver, insbesondere bei langen Textstücken, bei denen der Kontext von weit hinten die Bedeutung dessen beeinflussen kann, was als Nächstes kommt.

Was sind die Komponenten der Transformatorarchitektur?

Die neuronale Netzwerkarchitektur von Transformatoren besteht aus mehreren Softwareschichten, die zusammenarbeiten, um die endgültige Ausgabe zu generieren. Die folgende Abbildung zeigt die Komponenten der Transformationsarchitektur, wie im Rest dieses Abschnitts erläutert.

Eingabeeinbettungen

In dieser Phase wird die Eingabesequenz in den mathematischen Bereich umgewandelt, den Softwarealgorithmen verstehen. Zunächst wird die Eingabesequenz in eine Reihe von Tokens oder einzelnen Sequenzkomponenten zerlegt. Wenn die Eingabe beispielsweise ein Satz ist, sind die Token Wörter. Durch das Einbetten wird dann die Token-Sequenz in eine mathematische Vektorsequenz umgewandelt. Die Vektoren enthalten semantische und Syntaxinformationen, die als Zahlen dargestellt werden, und ihre Eigenschaften werden während des Trainingsprozesses gelernt.

Sie können Vektoren als eine Reihe von Koordinaten in einem n-dimensionalen Raum visualisieren. Stellen Sie sich als einfaches Beispiel ein zweidimensionales Diagramm vor, in dem x den alphanumerischen Wert des ersten Buchstabens des Wortes und y seine Kategorien darstellt. Das Wort Banane hat den Wert (2,2), weil es mit dem Buchstaben b beginnt und zur Kategorie Obst gehört. Das Wort Mango hat den Wert (13,2), weil es mit dem Buchstaben m beginnt und ebenfalls zur Kategorie Obst gehört. Auf diese Weise teilt der Vektor (x, y) dem neuronalen Netzwerk mit, dass die Wörter Banane und Mango derselben Kategorie angehören.

Stellen Sie sich nun einen n-dimensionalen Raum mit Tausenden von Attributen zur Grammatik, Bedeutung und Verwendung eines Wortes in Sätzen vor, die einer Reihe von Zahlen zugeordnet sind. Software kann die Zahlen verwenden, um die Beziehungen zwischen Wörtern in mathematischen Begriffen zu berechnen und das menschliche Sprachmodell zu verstehen. Einbettungen bieten eine Möglichkeit, diskrete Token als kontinuierliche Vektoren darzustellen, die das Modell verarbeiten und daraus lernen kann.

Positionskodierung

Die Positionskodierung ist eine entscheidende Komponente in der Transformatorarchitektur, da das Modell selbst sequentielle Daten nicht von Natur aus in der richtigen Reihenfolge verarbeitet. Der Transformator benötigt eine Möglichkeit, die Reihenfolge der Token in der Eingabesequenz zu berücksichtigen. Die Positionskodierung fügt der Einbettung jedes Tokens Informationen hinzu, um seine Position in der Sequenz anzuzeigen. Dies erfolgt häufig mithilfe einer Reihe von Funktionen, die ein eindeutiges Positionssignal erzeugen, das zur Einbettung jedes Tokens hinzugefügt wird. Mit der Positionskodierung kann das Modell die Reihenfolge der Token beibehalten und den Sequenzkontext verstehen.

Transformatorblock

Ein typisches Transformatormodell besteht aus mehreren übereinander gestapelten Transformatorblöcken. Jeder Transformatorblock besteht aus zwei Hauptkomponenten: einem Multi-Head-Selbstaufmerksamkeitsmechanismus und einem positionsbezogenen neuronalen Feed-Forward-Netzwerk. Der Selbstaufmerksamkeitsmechanismus ermöglicht es dem Modell, die Bedeutung verschiedener Token innerhalb der Sequenz abzuwägen. Es konzentriert sich auf relevante Teile der Eingabe, wenn Vorhersagen getroffen werden.

Denken Sie zum Beispiel an die Sätze „Ich bringe mein Geld zur Bank“ und „Ich sitze im Park gerne auf der Bank“. In beiden Sätzen kann die Bedeutung des Wortes Bank nicht verstanden werden, ohne auf die anderen Wörter im Satz zu schauen. Die Wörter Geld und sitze sind wichtig, um die richtige Bedeutung zu verstehen. Selbstaufmerksamkeit ermöglicht die Gruppierung relevanter Token für den Kontext.

Die Feed-Forward-Schicht enthält zusätzliche Komponenten, die dazu beitragen, dass die Modelleisenbahn des Transformators effizienter funktioniert. Zum Beispiel beinhaltet jeder Transformatorblock:

Verbindungen rund um die beiden Hauptkomponenten, die wie Abkürzungen wirken. Sie ermöglichen den Informationsfluss von einem Teil des Netzwerks zum anderen, wobei bestimmte Operationen dazwischen übersprungen werden.
Ebenennormalisierung, bei der die Zahlen – insbesondere die Ausgänge verschiedener Schichten im Netzwerk – innerhalb eines bestimmten Bereichs gehalten werden, sodass das Modell reibungslos trainiert werden kann.
Lineare Transformationsfunktionen sorgen dafür, dass das Modell Werte anpasst, um die Aufgabe, für die es trainiert wird, besser ausführen zu können – etwa die Zusammenfassung eines Dokuments im Gegensatz zur Übersetzung.

Lineare und Softmax-Blöcke

Letztlich muss das Modell eine konkrete Vorhersage treffen, beispielsweise das nächste Wort in einer Sequenz auswählen. Hier kommt der lineare Block ins Spiel. Es ist eine weitere vollständig verbundene Schicht – auch als dichte Schicht bekannt – vor der letzten Phase. Es führt eine gelernte lineare Abbildung vom Vektorraum zur ursprünglichen Eingabedomain durch. In dieser entscheidenden Schicht nimmt der Entscheidungsteil des Modells die komplexen internen Repräsentationen auf und wandelt sie wieder in spezifische Vorhersagen um, die Sie interpretieren und verwenden können. Die Ausgabe dieser Schicht besteht aus einer Reihe von Ergebnissen (oft als Logits bezeichnet) für jedes mögliche Token.

Die Softmax-Funktion ist die letzte Stufe, in der die Logit-Werte in eine Wahrscheinlichkeitsverteilung normalisiert werden. Jedes Element der Softmax-Ausgabe steht für das Vertrauen des Modells in eine bestimmte Klasse oder ein bestimmtes Token.

Wie unterscheiden sich Transformatoren von anderen neuronalen Netzwerkarchitekturen?

Wiederkehrende neuronale Netzwerke (RNNs) und Konvolutionale neuronale Netzwerke (CNNs) sind weitere neuronale Netzwerke, die häufig für Machine-Learning- und Deep-Learning-Aufgaben verwendet werden. Im Folgenden werden ihre Beziehungen zu Transformatoren untersucht.

Transformatoren im Vergleich zu RNNs

Transformatormodelle und RNNs sind beide Architekturen, die für die Verarbeitung sequentieller Daten verwendet werden.

RNNs verarbeiten Datensequenzen ein Element nach dem anderen in zyklischen Iterationen. Der Prozess beginnt damit, dass die Eingabeschicht das erste Element der Sequenz empfängt. Die Informationen werden dann an eine versteckte Schicht weitergegeben, die die Eingabe verarbeitet und die Ausgabe an den nächsten Zeitschritt weiterleitet. Diese Ausgabe wird zusammen mit dem nächsten Element der Sequenz in die versteckte Schicht zurückgespeist. Dieser Zyklus wiederholt sich für jedes Element in der Sequenz, wobei das RNN einen versteckten Zustandsvektor beibehält, der bei jedem Zeitschritt aktualisiert wird. Dieser Prozess ermöglicht es dem RNN effektiv, sich Informationen aus früheren Eingaben zu merken.

Im Gegensatz dazu verarbeiten Transformatoren ganze Sequenzen gleichzeitig. Diese Parallelisierung ermöglicht viel schnellere Trainingszeiten und die Fähigkeit, viel längere Sequenzen als RNNs zu verarbeiten. Der Selbstaufmerksamkeitsmechanismus in Transformatoren ermöglicht es dem Modell auch, die gesamte Datensequenz gleichzeitig zu berücksichtigen. Dadurch entfällt die Notwendigkeit von Wiederholungen oder versteckten Vektoren. Stattdessen verwaltet die Positionskodierung Informationen über die Position jedes Elements in der Sequenz.

Transformatoren haben RNNs in vielen Anwendungen, insbesondere bei NLP-Aufgaben, weitgehend abgelöst, da sie weitreichende Abhängigkeiten effektiver bewältigen können. Sie haben auch eine höhere Skalierbarkeit und Effizienz als RNNs. RNNs sind in bestimmten Kontexten immer noch nützlich, insbesondere wenn Modellgröße und Recheneffizienz wichtiger sind als die Erfassung von Interaktionen über große Entfernungen.

Transformatoren im Vergleich zu CNNs

CNNs sind für rasterartige Daten wie Bilder konzipiert, bei denen räumliche Hierarchien und Lokalität entscheidend sind. Sie verwenden konvolutionale Schichten, um Filter auf eine Eingabe anzuwenden und lokale Muster anhand dieser gefilterten Ansichten zu erfassen. Beispielsweise können bei der Bildverarbeitung erste Schichten Kanten oder Texturen erkennen, und tiefere Schichten erkennen komplexere Strukturen wie Formen oder Objekte.

Transformatoren wurden hauptsächlich für die Verarbeitung sequentieller Daten entwickelt und konnten keine Bilder verarbeiten. Bildtransformatormodelle verarbeiten jetzt Bilder, indem sie sie in ein sequentielles Format konvertieren. CNNs sind jedoch nach wie vor eine hocheffektive und effiziente Wahl für viele praktische Computer-Vision-Anwendungen.

Was sind die verschiedenen Arten von Transformatormodellen?

Transformatoren haben sich zu einer vielfältigen Familie von Architekturen entwickelt. Im Folgenden sind einige Arten von Transformatormodellen aufgeführt.

Bidirektionale Transformatoren

Bidirektionale Encoder-Repräsentationen von Transformatormodellen (BERT) modifizieren die Basisarchitektur, um Wörter im Verhältnis zu allen anderen Wörtern in einem Satz und nicht isoliert zu verarbeiten. Technisch gesehen verwendet sie einen Mechanismus, der als bidirektionales maskiertes Sprachmodell (MLM) bezeichnet wird. Während des Vortrainings maskiert BERT nach dem Zufallsprinzip einen gewissen Prozentsatz der Eingabe-Token und sagt diese maskierten Token basierend auf ihrem Kontext voraus. Der bidirektionale Aspekt ergibt sich aus der Tatsache, dass BERT sowohl die Tokensequenzen von links nach rechts als auch von rechts nach links in beiden Schichten berücksichtigt, um ein besseres Verständnis zu gewährleisten.

Generative vortrainierte Transformatoren

GPT-Modelle verwenden gestapelte Transformator-Decoder, die mithilfe von Sprachmodellierungszielen für einen großen Textkorpus vortrainiert wurden. Sie sind autoregressiv, was bedeutet, dass sie den nächsten Wert in einer Sequenz auf der Grundlage aller vorhergehenden Werte zurückbilden oder vorhersagen. Durch die Verwendung von mehr als 175 Milliarden Parametern können GPT-Modelle Textsequenzen generieren, die an Stil und Ton angepasst sind. GPT-Modelle haben die KI-Forschung zur Erlangung allgemeiner künstlicher Intelligenz beflügelt. Dies bedeutet, dass Unternehmen ein neues Produktivitätsniveau erreichen und gleichzeitig ihre Anwendungen und Kundenerlebnisse neu erfinden können.

Bidirektionale und autoregressive Transformatoren

Ein bidirektionaler und autoregressiver Transformator (BART) ist eine Art Transformatormodell, das bidirektionale und autoregressive Eigenschaften kombiniert. Es ist wie eine Mischung aus dem bidirektionalen Encoder von BERT und dem autoregressiven Decoder von GPT. Es liest die gesamte Eingabesequenz auf einmal und ist wie BERT bidirektional. Es generiert jedoch die Ausgabesequenz ein Token nach dem anderen, abhängig von den zuvor generierten Token und der vom Encoder bereitgestellten Eingabe.

Transformatoren für multimodale Aufgaben

Multimodale Transformatormodelle wie ViLBERT und VisualBERT sind so konzipiert, dass sie mehrere Arten von Eingabedaten verarbeiten können, typischerweise Text und Bilder. Sie erweitern die Transformatorarchitektur, indem sie Dual-Stream-Netzwerke verwenden, die visuelle und textuelle Eingaben getrennt verarbeiten, bevor die Informationen zusammengeführt werden. Dieses Design ermöglicht es dem Modell, modalübergreifende Repräsentationen zu lernen. ViLBERT verwendet beispielsweise Coattentional-Transformatorschichten, um die Interaktion der einzelnen Streams zu ermöglichen. Es ist wichtig für Situationen, in denen es entscheidend ist, die Beziehung zwischen Text und Bildern zu verstehen, z. B. bei visuellen Fragen zur Beantwortung von Fragen.

Bildtransformatoren

Bildtransformatoren (ViT) verwenden die Transformatorarchitektur für Bildklassifizierungsaufgaben neu. Anstatt ein Bild als Pixelraster zu verarbeiten, betrachten sie Bilddaten als eine Folge von Patches fester Größe, ähnlich wie Wörter in einem Satz behandelt werden. Jedes Patch wird abgeflacht, linear eingebettet und dann sequentiell vom Standard-Transformator-Encoder verarbeitet. Positionseinbettungen werden hinzugefügt, um räumliche Informationen beizubehalten. Diese Verwendung der globalen Selbstaufmerksamkeit ermöglicht es dem Modell, Beziehungen zwischen beliebigen Patches unabhängig von ihrer Position zu erfassen.

Wie kann AWS Ihre Anforderungen an das Transformatormodell unterstützen?

Amazon Web Services (AWS) bietet die folgenden KI/ML-Services, die Sie für Ihre Anforderungen an Transformatormodelle verwenden können.

Amazon SageMaker JumpStart ist ein ML-Hub, über den Sie auf vortrainierte Transformer-Modelle zugreifen können, um Aufgaben wie Artikelzusammenfassung und Image-Generierung auszuführen. Vortrainierte Modelle sind mit Ihren Daten vollständig an Ihren Anwendungsfall anpassbar, und Sie können sie mit der Benutzeroberfläche oder dem SDK problemlos in der Produktion einsetzen.

Amazon Bedrock ist ein vollständig verwalteter Service, der eine Auswahl an leistungsstarken Basismodellen (FMs) von führenden KI-Unternehmen wie AI21 Labs, Anthropic, Cohere, Meta, Stability AI und Amazon mit einer einzigen API bietet. Mit den umfassenden Funktionen, die Sie für die Entwicklung generativer KI-Anwendungen benötigen, vereinfacht Amazon Bedrock die Entwicklung und gewährleistet gleichzeitig Datenschutz und Sicherheit. Beispielsweise können Sie:

Ganz einfach mit einer Vielzahl von Top-Basismodellen experimentieren und sie privat mit Ihren Daten anpassen.
Verwaltete Agenten erstellen, die komplexe Geschäftsaufgaben ausführen, ohne Code schreiben zu müssen.
Generative KI-Funktionen sicher in Ihre Anwendungen integrieren und implementieren, ohne die Infrastruktur verwalten zu müssen.

Sie können Ihre Transformatormodelle auch schneller trainieren, indem Sie AWS Trainium verwenden, den ML-Beschleuniger der zweiten Generation, den AWS speziell für das Deep-Learning-Training von über 100 Milliarden Parametermodellen entwickelt hat. Jede Amazon Elastic Compute Cloud (Amazon EC2)-Trn1-Instance setzt bis zu 16 Trainium-Beschleuniger ein, um eine leistungsstarke und kostengünstige Lösung für Deep-Learning-Training in der Cloud bereitzustellen.

Beginnen Sie mit Transformatormodellen in AWS, indem Sie noch heute ein Konto erstellen.

Nächste Schritte in AWS

Zusätzliche produktbezogene Ressourcen ansehen

Mit einem umfassenden Angebot an Machine-Learning-Services schneller innovieren

Ein kostenloses Konto erstellen

Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.

Registrieren

Mit der Entwicklung in der Konsole starten

Starten Sie mit der Entwicklung in der AWS-Managementkonsole.

Anmelden

Was sind Transformatoren in der künstlichen Intelligenz?

Was sind Transformatoren in der künstlichen Intelligenz?

Warum sind Transformatoren wichtig?

Modelle im großen Maßstab ermöglichen

Schnellere Anpassung ermöglichen

Multimodale KI-Systeme ermöglichen

KI-Forschung und Industrieinnovation

Was sind die Anwendungsfälle für Transformatoren?

Natürliche Sprachverarbeitung

Maschinelle Übersetzung

DNA-Sequenzanalyse

Analyse der Proteinstruktur

Wie funktionieren Transformatoren?

Mechanismus der Selbstaufmerksamkeit

Was sind die Komponenten der Transformatorarchitektur?

Eingabeeinbettungen

Positionskodierung

Transformatorblock

Lineare und Softmax-Blöcke

Wie unterscheiden sich Transformatoren von anderen neuronalen Netzwerkarchitekturen?

Transformatoren im Vergleich zu RNNs

Transformatoren im Vergleich zu CNNs

Was sind die verschiedenen Arten von Transformatormodellen?

Bidirektionale Transformatoren

Generative vortrainierte Transformatoren

Bidirektionale und autoregressive Transformatoren

Transformatoren für multimodale Aufgaben

Bildtransformatoren

Wie kann AWS Ihre Anforderungen an das Transformatormodell unterstützen?

Nächste Schritte in AWS

Ende des Supports für Internet Explorer