Was ist ein Basismodell?
Basismodelle (FMs) sind große, anhand riesiger Datensätze trainierte neuronale Deep-Learning-Netzwerke, die die Herangehensweise von Datenwissenschaftlern an Machine Learning (ML) verändert haben. Anstatt künstliche Intelligenz (KI) von Grund auf neu zu entwickeln, verwenden Datenwissenschaftler ein Basismodell als Ausgangspunkt, um ML-Modelle zu entwickeln, die neue Anwendungen schneller und kostengünstiger unterstützen. Der Begriff Basismodell wurde von Forschern geprägt, um ML-Modelle zu beschreiben, die auf einem breiten Spektrum generalisierter und unbeschrifteter Daten trainiert wurden und in der Lage sind, eine Vielzahl allgemeiner Aufgaben wie das Verstehen von Sprache, das Generieren von Text und Bildern und die Konversation in natürlicher Sprache zu erfüllen.
Was ist einzigartig an Basismodellen?
Ein einzigartiges Feature von Basismodellen ist ihre Anpassungsfähigkeit. Diese Modelle können auf der Grundlage von Eingabeaufforderungen eine Vielzahl unterschiedlicher Aufgaben mit einem hohen Maß an Genauigkeit ausführen. Einige Aufgaben umfassen die natürliche Sprachverarbeitung (NLP), die Beantwortung von Fragen und die Klassifizierung von Bildern. Durch ihre Größe und ihren universellen Charakter unterscheiden sie sich von herkömmlichen ML-Modellen, die in der Regel spezifische Aufgaben erfüllen, wie z. B. die Stimmungsanalyse von Text, die Klassifizierung von Bildern und die Vorhersage von Trends.
Sie können Basismodelle als Basismodelle für die Entwicklung spezialisierterer Downstream-Anwendungen verwenden. Diese Modelle sind der Höhepunkt von mehr als einem Jahrzehnt Arbeit, in deren Umfang und Komplexität sie zugenommen haben.
Zum Beispiel wurde BERT, eines der ersten bidirektionalen Fundamentmodelle, 2018 veröffentlicht. Es wurde mit 340 Millionen Parametern und einem 16-GB-Trainingsdatensatz trainiert. Im Jahr 2023, nur fünf Jahre später, trainierte OpenAI GPT-4 mit 170 Billionen Parametern und einem 45-GB-Trainingsdatensatz. Laut OpenAI hat sich die für die Fundamentmodellierung benötigte Rechenleistung seit 2012 alle 3,4 Monate verdoppelt Moderne FMs, wie die großen Sprachmodelle (LLMs) Claude 2 und Llama 2 und das Text-zu-Bild-Modell Stable Diffusion von Stability AI, können eine Reihe von Aufgaben sofort ausführen, die sich über mehrere Domains erstrecken, wie das Schreiben von Blogbeiträgen, das Generieren von Bildern, das Lösen mathematischer Probleme, das Führen von Dialogen und das Beantworten von Fragen auf der Grundlage eines Dokuments.
Warum ist Basismodellierung wichtig?
Basismodelle sind bereit, den Lebenszyklus des Machine Learning erheblich zu verändern. Obwohl es derzeit Millionen von Dollar kostet, ein Basismodell von Grund auf neu zu entwickeln, sind sie auf lange Sicht nützlich. Für Datenwissenschaftler ist es schneller und billiger, vorgeschulte FMs zur Entwicklung neuer ML-Anwendungen zu verwenden, anstatt einzigartige ML-Modelle von Grund auf zu trainieren.
Eine mögliche Anwendung ist die Automatisierung von Aufgaben und Prozessen, insbesondere solcher, die Argumentationsfähigkeiten erfordern. Hier sind einige Anwendungen für Basismodelle:
- Kundenservice
- Sprachübersetzung
- Generierung von Inhalten
- Copywriting
- Bildklassifizierung
- Erstellung und Bearbeitung von Bildern mit hoher Auflösung
- Extraktion von Dokumenten
- Robotik
- Gesundheitswesen
- Autonome Fahrzeuge
Was können Basismodelle leisten?
Basismodelle sind zwar vorgeschult, können aber während der Inferenz weiterhin aus Dateneingaben oder Eingabeaufforderungen lernen. Das bedeutet, dass Sie anhand sorgfältig kuratierter Aufforderungen umfassende Ergebnisse entwickeln können. Zu den Aufgaben, die FMs ausführen können, gehören Sprachverarbeitung, visuelles Verständnis, Codegenerierung und menschenorientiertes Engagement.
Sprachverarbeitung
Diese Modelle verfügen über bemerkenswerte Fähigkeiten zur Beantwortung von Fragen in natürlicher Sprache und sogar über die Fähigkeit, kurze Skripte oder Artikel als Antwort auf Eingabeaufforderungen zu schreiben. Sie können auch Sprachen mithilfe von NLP-Technologien übersetzen.
Visuelles Verständnis
FMs zeichnen sich durch Computer Vision aus, insbesondere im Hinblick auf die Identifizierung von Bildern und physischen Objekten. Diese Fähigkeiten könnten in Anwendungen wie autonomem Fahren und Robotik zum Einsatz kommen. Eine weitere Möglichkeit ist die Generierung von Bildern aus eingegebenem Text sowie die Foto- und Videobearbeitung.
Code-Generierung
Basismodelle können Computercode in verschiedenen Programmiersprachen auf der Grundlage natürlicher Spracheingaben generieren. Es ist auch möglich, FMs zum Evaluieren und Debuggen von Code zu verwenden. Erfahren Sie mehr über die KI-Code-Generierung.
Menschenzentrierte Motivation
Generative KI-Modelle nutzen menschliche Eingaben, um zu lernen und Vorhersagen zu verbessern. Eine wichtige und manchmal übersehene Anwendung ist die Fähigkeit dieser Modelle, menschliche Entscheidungen zu unterstützen. Mögliche Anwendungen umfassen klinische Diagnosen, Entscheidungsunterstützungssysteme und Analysen.
Eine weitere Möglichkeit ist die Entwicklung neuer KI-Anwendungen durch die Feinabstimmung vorhandener Basismodelle.
Sprache-zu-Text
Da FMs Sprache verstehen, können sie für Sprache-zu-Text-Aufgaben wie Transkription und Videountertitelung in einer Vielzahl von Sprachen verwendet werden.
Wie funktionieren Basismodelle?
Basismodelle sind eine Form der generativen künstlichen Intelligenz (generative KI). Sie generieren Ausgaben aus einer oder mehreren Eingaben (Eingabeaufforderungen) in Form von Anweisungen in menschlicher Sprache. Die Modelle basieren auf komplexen neuronalen Netzwerken, einschließlich generativer gegnerischer Netzwerke (GANs), Transformatoren und variationaler Encoder.
Obwohl jede Art von Netzwerk unterschiedlich funktioniert, sind die Prinzipien ihrer Funktionsweise ähnlich. Im Allgemeinen verwendet ein FM erlernte Muster und Beziehungen, um das nächste Element in einer Sequenz vorherzusagen. Bei der Bilderzeugung analysiert das Modell beispielsweise das Bild und erstellt eine schärfere, klarer definierte Version des Bildes. Ähnlich prognostiziert das Modell bei Text das nächste Wort in einer Textfolge auf der Grundlage der vorherigen Wörter und ihres Kontextes. Anschließend wählt es das nächste Wort mithilfe von Wahrscheinlichkeitsverteilungstechniken aus.
Basismodelle verwenden selbstüberwachtes Lernen, um Labels aus Eingabedaten zu erstellen. Das bedeutet, dass niemand das Modell mit beschrifteten Schulungsdatensätzen instruiert oder trainiert hat. Dieses Feature unterscheidet LLMs von früheren ML-Architekturen, die überwachtes oder unüberwachtes Lernen verwenden.
Was sind Beispiele für Basismodelle?
Die Anzahl und Größe der auf dem Markt erhältlichen Basismodelle ist rasant gewachsen. Inzwischen sind Dutzende von Modellen verfügbar. Hier finden Sie eine Liste prominenter Basismodelle, die seit 2018 veröffentlicht wurden.
BERT
Bidirectional Encoder Representations from Transformers (BERT) wurde 2018 veröffentlicht und war eines der ersten Basismodelle. BERT ist ein bidirektionales Modell, das den Kontext einer vollständigen Sequenz analysiert und dann eine Vorhersage trifft. Es wurde auf einem Klartextkorpus und auf Wikipedia mit 3,3 Milliarden Tokens (Wörtern) und 340 Millionen Parametern trainiert. BERT kann Fragen beantworten, Sätze vorhersagen und Texte übersetzen.
GPT
Das Modell Generative Pre-trained Transformer (GPT) wurde 2018 von OpenAI entwickelt. Es verwendet einen 12-lagigen Transformatordecoder mit einem Selbstaufmerksamkeitsmechanismus. Und es wurde anhand des BookCorpus-Datensatzes trainiert, der über 11.000 kostenlose Romane enthält. Ein bemerkenswertes Feature von GPT-1 ist die Fähigkeit, Zero-Shot-Learning durchzuführen.
GPT-2 wurde 2019 veröffentlicht. OpenAI trainierte es mit 1,5 Milliarden Parametern (im Vergleich zu den 117 Millionen Parametern, die auf GPT-1 verwendet wurden). GPT-3 verfügt über ein 96-lagiges neuronales Netzwerk und 175 Milliarden Parameter und wird mithilfe des Common-Crawl-Datensatzes mit 500 Milliarden Wörtern trainiert. Der beliebte ChatGPT-Chatbot basiert auf GPT-3.5. Und GPT-4, die neueste Version, wurde Ende 2022 auf den Markt gebracht und hat die Uniform Bar Examination mit einer Punktzahl von 297 (76 %) erfolgreich bestanden.
Amazon Titan
Amazon Titan FMs sind für große Datensätze vortrainiert, was sie zu leistungsstarken Allzweckmodellen macht. Sie können unverändert verwendet oder privat mit unternehmensspezifischen Daten für eine bestimmte Aufgabe angepasst werden, ohne große Datenmengen mit Anmerkungen zu versehen. Zunächst wird Titan zwei Modelle anbieten. Das erste ist ein generatives LLM für Aufgaben wie Zusammenfassung, Textgenerierung, Klassifizierung, offene Fragen und Antworten und Informationsextraktion. Das zweite ist ein LLM für Einbettungen, das Texteingaben einschließlich Wörtern, Phrasen und großen Texteinheiten in numerische Darstellungen (sogenannte Einbettungen) übersetzt, die die semantische Bedeutung des Textes enthalten. Dieses LLM generiert zwar keinen Text, ist aber für Anwendungen wie Personalisierung und Suche nützlich, da das Modell durch den Vergleich von Einbettungen relevantere und kontextuellere Antworten liefert als der Wortvergleich. Um weiterhin bewährte Verfahren für den verantwortungsvollen Umgang mit KI zu unterstützen, sind Titan FMs so konzipiert, dass sie schädliche Inhalte in den Daten erkennen und entfernen, unangemessene Inhalte in der Benutzereingabe ablehnen und die Ergebnisse der Modelle filtern, die unangemessene Inhalte wie Hassreden, Obszönitäten und Gewalt enthalten.
AI21 Jurassic
Jurassic-1 wurde 2021 veröffentlicht und ist ein autoregressives Sprachmodell mit 76 Ebenen und 178 Milliarden Parametern. Jurassic-1 generiert menschenähnlichen Text und löst komplexe Aufgaben. Seine Leistung ist vergleichbar mit GPT-3.
Im März 2023 veröffentlichte AI21 Labs Jurrassic-2, das den Unterricht und die Sprachfähigkeiten verbessert hat.
Claude
Claude 3.5 Sonnet
Das intelligenteste und fortschrittlichste Modell von Anthropic, Claude 3.5 Sonnet, bietet außergewöhnliche Fähigkeiten für eine Vielzahl von Aufgaben und Bewertungen und übertrifft gleichzeitig Claude 3 Opus.
Claude 3 Opus
Opus ist ein hochintelligentes Modell mit zuverlässiger Leistung bei komplexen Aufgaben. Es kann offene Aufforderungen und unsichtbare Szenarien mit bemerkenswerter Geläufigkeit und menschlichem Verständnis bewältigen. Verwenden Sie Opus, um Aufgaben zu automatisieren und Forschung und Entwicklung in einer Vielzahl von Anwendungsfällen und Branchen zu beschleunigen.
Claude 3 Haiku
Haiku ist das schnellste und kompakteste Modell von Anthropic und reagiert nahezu sofort. Haiku ist die beste Wahl, um nahtlose KI-Erlebnisse zu schaffen, die menschliche Interaktionen nachahmen. Unternehmen können Haiku verwenden, um Inhalte zu moderieren, die Bestandsverwaltung zu optimieren, schnelle und genaue Übersetzungen zu erstellen, unstrukturierte Daten zusammenzufassen und vieles mehr.
Cohere
Cohere hat zwei LLMs: eines ist ein Generationsmodell mit ähnlichen Fähigkeiten wie GPT-3 und das andere ist ein Repräsentationsmodell für das Verständnis von Sprachen. Cohere hat zwar nur 52 Milliarden Parameter, übertrifft aber GPT-3 in vielerlei Hinsicht.
Stabile Diffusion
Stabile Diffusion ist ein Text-zu-Bild-Modell, das realistisch aussehende, hochauflösende Bilder erzeugen kann. Es wurde 2022 veröffentlicht und verfügt über ein Diffusionsmodell, das mithilfe von Rauschen- und Rauschunterdrückungstechnologien lernt, wie man Bilder erstellt.
Das Modell ist kleiner als konkurrierende Diffusionstechnologien wie DALL-E 2, was bedeutet, dass es keine umfangreiche Computerinfrastruktur benötigt. Stabile Diffusion läuft auf einer normalen Grafikkarte oder sogar auf einem Smartphone mit einer Snapdragon-Gen2-Plattform.
Lesen Sie mehr über Stable Diffusion »
BLOOM
BLOOM ist ein mehrsprachiges Modell mit ähnlicher Architektur wie GPT-3. Es wurde 2022 in Zusammenarbeit mit über tausend Wissenschaftlern und dem Hugging-Space-Team entwickelt. Das Modell hat 176 Milliarden Parameter und das Training dauerte dreieinhalb Monate mit 384 Nvidia A100 GPUs. Der BLOOM-Checkpoint benötigt zwar 330 GB Speicherplatz, läuft aber auf einem eigenständigen PC mit 16 GB RAM. BLOOM kann Text in 46 Sprachen erstellen und Code in 13 Programmiersprachen schreiben.
Hugging Face
Hugging Face ist eine Plattform, die Open-Source-Tools bietet, mit denen Sie Modelle für Machine Learning erstellen und bereitstellen können. Es fungiert als Community-Hub und Entwickler können Modelle und Datensätze teilen und erkunden. Die Mitgliedschaft für Einzelpersonen ist kostenlos, kostenpflichtige Abonnements bieten jedoch höhere Zugriffsebenen. Sie haben öffentlichen Zugriff auf fast 200.000 Modelle und 30.000 Datensätze.
Was sind die Herausforderungen bei Basismodellen?
Basismodelle können kohärent auf Aufforderungen zu Themen reagieren, für die sie nicht explizit geschult wurden. Sie haben jedoch gewisse Schwächen. Hier sind einige der Herausforderungen, mit denen Basismodelle konfrontiert sind:
- Anforderungen an die Infrastruktur. Der Aufbau eines Basismodelss von Grund auf ist teuer und erfordert enorme Ressourcen, die Schulung kann Monate dauern.
- Frontend-Entwicklung. Für praktische Anwendungen müssen Entwickler Basismodelle in einen Software-Stack integrieren, einschließlich Tools für schnelles Engineering, Feinabstimmung und Pipeline-Engineering.
- Mangelndes Verständnis. Obwohl sie grammatikalisch und sachlich korrekte Antworten liefern können, haben Basismodelle Schwierigkeiten, den Kontext einer Aufforderung zu verstehen. Und sie haben weder ein soziales noch ein psychologisches Bewusstsein.
- Unzuverlässige Antworten. Antworten auf Fragen zu bestimmten Themen können unzuverlässig und manchmal unangemessen, toxisch oder falsch sein.
- Voreingenommenheit. Voreingenommenheit ist durchaus möglich, da Modelle Hassreden und unangemessene Untertöne aus Trainingsdatensätzen aufgreifen können. Um dies zu vermeiden, sollten Entwickler Schulungsdaten sorgfältig filtern und spezifische Normen in ihre Modelle integrieren.
Wie kann AWS helfen?
Amazon Bedrock ist die einfachste Möglichkeit, generative KI-Anwendungen mit Basismodellen zu erstellen und zu skalieren. Amazon Bedrock ist ein vollständig verwalteter Service, der Basismodelle von Amazon und führenden KI-Startups über eine API zur Verfügung stellt, sodass Sie aus verschiedenen FMs das Modell auswählen können, das für Ihren Anwendungsfall am besten geeignet ist. Mit Bedrock können Sie die Entwicklung und Bereitstellung skalierbarer, zuverlässiger und sicherer generativer KI-Anwendungen beschleunigen, ohne die Infrastruktur verwalten zu müssen.
Amazon SageMaker JumpStart ist ein ML-Hub, der Modelle, Algorithmen und Lösungen anbietet. Er bietet Zugriff auf Hunderte von Basismodellen, einschließlich der leistungsstärksten öffentlich verfügbaren Basismodelle. Es kommen ständig neue Basismodelle hinzu, darunter Llama 2, Falcon und Stable Diffusion XL 1.0.
Nächste Schritte in AWS
Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.
Starten Sie mit der Entwicklung in der AWS-Managementkonsole.