Was ist Retrieval-Augmented Generation?
Bei Retrieval-Augmented Generation (RAG) wird die Ausgabe eines großen Sprachmodells optimiert, sodass es auf eine maßgebliche Wissensbasis außerhalb seiner Trainingsdatenquellen verweist, bevor eine Antwort generiert wird. Große Sprachmodelle (LLMs) werden mit riesigen Datenmengen trainiert und verwenden Milliarden von Parametern, um Originalausgaben für Aufgaben wie das Beantworten von Fragen, das Übersetzen von Sprachen und das Vervollständigen von Sätzen zu generieren. RAG erweitert die bereits leistungsstarken Funktionen von LLMs auf bestimmte Domains oder die interne Wissensbasis einer Organisation, ohne dass das Modell neu trainiert werden muss. Es ist ein kostengünstiger Ansatz zur Verbesserung der LLM-Ergebnisse, sodass er in verschiedenen Kontexten relevant, genau und nützlich bleibt.
Warum ist Retrieval-Augmented Generation wichtig?
LLMs sind eine wichtige Technologie für künstliche Intelligenz (KI), die intelligente Chatbots und andere Anwendungen für natürliche Sprachverarbeitung (NLP) unterstützt. Ziel ist es, Bots zu entwickeln, die Benutzerfragen in verschiedenen Kontexten beantworten können, indem sie auf autoritative Wissensquellen verweisen. Leider führt die Natur der LLM-Technologie zu einer Unvorhersehbarkeit der LLM-Antworten. Darüber hinaus sind die LLM-Trainingsdaten statisch und führen einen Stichtag für das vorhandene Wissen ein.
Zu den bekannten Herausforderungen von LLMs gehören:
- Falsche Informationen präsentieren, wenn keine Antwort vorliegt.
- Präsentation veralteter oder allgemeiner Informationen, wenn der Benutzer eine bestimmte, aktuelle Antwort erwartet.
- Eine Antwort aus nicht autoritativen Quellen erstellen.
- Es entstehen ungenaue Antworten aufgrund einer verwirrenden Terminologie, bei der verschiedene Trainingsquellen dieselbe Terminologie verwenden, um über verschiedene Dinge zu sprechen.
Sie können sich das große Sprachmodell als einen übermäßig begeisterten neuen Mitarbeiter vorstellen, der sich weigert, über aktuelle Ereignisse auf dem Laufenden zu bleiben, aber jede Frage immer mit absoluter Zuversicht beantwortet. Leider kann sich eine solche Einstellung negativ auf das Vertrauen der Nutzer auswirken und Sie möchten nicht, dass Ihre Chatbots nachahmen!
RAG ist ein Ansatz zur Lösung einiger dieser Herausforderungen. Es leitet das LLM weiter, um relevante Informationen aus maßgeblichen, vorab festgelegten Wissensquellen abzurufen. Unternehmen haben eine bessere Kontrolle über die generierte Textausgabe, und die Benutzer erhalten Einblicke in die Art und Weise, wie das LLM die Antwort generiert.
Was sind die Vorteile von Retrieval-Augmented Generation?
Die RAG-Technologie bietet mehrere Vorteile für die generativen KI-Bemühungen eines Unternehmens.
Kostengünstige Implementierung
Die Chatbot-Entwicklung beginnt in der Regel mit einem Basismodell. Basismodelle (FMs) sind API-zugängliche LLMs, die auf einem breiten Spektrum generalisierter und unbeschrifteter Daten trainiert wurden. Die Rechen- und Finanzkosten für die Umschulung von FMs für organisations- oder domainspezifische Informationen sind hoch. RAG ist ein kostengünstigerer Ansatz für die Einführung neuer Daten in das LLM. Es macht die Technologie der generativen künstlichen Intelligenz (generative KI) breiter zugänglich und nutzbar.
Aktuelle Informationen
Auch wenn die ursprünglichen Trainingsdatenquellen für ein LLM für Ihre Bedürfnisse geeignet sind, ist es schwierig, die Relevanz aufrechtzuerhalten. RAG ermöglicht es Entwicklern, die neuesten Forschungsergebnisse, Statistiken oder Neuigkeiten zu den generativen Modellen bereitzustellen. Sie können RAG verwenden, um das LLM direkt mit Live-Feeds in sozialen Medien, Nachrichtenseiten oder anderen häufig aktualisierten Informationsquellen zu verbinden. Das LLM kann den Benutzern dann die neuesten Informationen zur Verfügung stellen.
Verbessertes Benutzervertrauen
RAG ermöglicht es dem LLM, genaue Informationen mit Quellenangabe zu präsentieren. Die Ausgabe kann Zitate oder Verweise auf Quellen enthalten. Benutzer können Quelldokumente auch selbst nachschlagen, wenn sie weitere Erläuterungen oder Einzelheiten benötigen. Dies kann das Vertrauen in Ihre generative KI-Lösung erhöhen.
Mehr Kontrolle durch Entwickler
Mit RAG können Entwickler ihre Chat-Anwendungen effizienter testen und verbessern. Sie können die Informationsquellen des LLM kontrollieren und ändern, um sie an sich ändernde Anforderungen oder eine funktionsübergreifende Nutzung anzupassen. Entwickler können auch den Abruf vertraulicher Informationen auf verschiedene Autorisierungsstufen beschränken und sicherstellen, dass das LLM angemessene Antworten generiert. Darüber hinaus können sie auch Fehler beheben und Korrekturen vornehmen, wenn das LLM bei bestimmten Fragen auf falsche Informationsquellen verweist. Unternehmen können generative KI-Technologie für ein breiteres Anwendungsspektrum sicherer implementieren.
Wie funktioniert Retrieval-Augmented Generation?
Ohne RAG nimmt das LLM die Benutzereingaben auf und erstellt eine Antwort auf der Grundlage von Informationen, auf denen es trainiert wurde – oder auf dem, was es bereits weiß. Mit RAG wird eine Komponente zum Abrufen von Informationen eingeführt, die die Benutzereingabe verwendet, um zunächst Informationen aus einer neuen Datenquelle abzurufen. Die Benutzeranfrage und die relevanten Informationen werden beide an das LLM weitergegeben. Das LLM nutzt das neue Wissen und seine Trainingsdaten, um bessere Antworten zu finden. Die folgenden Abschnitte geben einen Überblick über den Prozess.
Externe Daten erstellen
Die neuen Daten außerhalb des ursprünglichen Trainingsdatensatzes des LLM werden als externe Daten bezeichnet. Es kann aus mehreren Datenquellen stammen, z. B. aus APIs, Datenbanken oder Dokumentablagen. Die Daten können in verschiedenen Formaten wie Dateien, Datenbankdatensätzen oder Langformtext vorliegen. Eine andere KI-Technik, das Einbetten von Sprachmodellen, konvertiert Daten in numerische Darstellungen und speichert sie in einer Vektordatenbank. Durch diesen Prozess entsteht eine Wissensbibliothek, die die generativen KI-Modelle verstehen können.
Abrufen relevanter Informationen
Der nächste Schritt besteht darin, eine Relevanzsuche durchzuführen. Die Benutzerabfrage wird in eine Vektordarstellung konvertiert und mit den Vektordatenbanken abgeglichen. Stellen Sie sich zum Beispiel einen intelligenten Chatbot vor, der Personalfragen für ein Unternehmen beantworten kann. Wenn ein Mitarbeiter fragt: „Wie viel Jahresurlaub habe ich?“ ruft das System die Dokumente zum Jahresurlaub zusammen mit den Aufzeichnungen über den vergangenen Urlaub des einzelnen Mitarbeiters ab. Diese spezifischen Dokumente werden zurückgegeben, da sie für die Eingaben des Mitarbeiters von großer Bedeutung sind. Die Relevanz wurde anhand mathematischer Vektorberechnungen und Repräsentationen berechnet und festgestellt.
Die LLM-Eingabeaufforderung erweitern
Als Nächstes erweitert das RAG-Modell die Benutzereingaben (oder Eingabeaufforderungen), indem es die relevanten abgerufenen Daten im Kontext hinzufügt. In diesem Schritt werden Prompt-Engineering-Techniken verwendet, um effektiv mit dem LLM zu kommunizieren. Die erweiterte Eingabeaufforderung ermöglicht es den großen Sprachmodellen, eine genaue Antwort auf Benutzeranfragen zu generieren.
Externe Daten aktualisieren
Die nächste Frage könnte lauten: Was ist, wenn die externen Daten veraltet sind? Um aktuelle Informationen für den Abruf beizubehalten, aktualisieren Sie die Dokumente asynchron und aktualisieren Sie die Einbettungsdarstellung der Dokumente. Sie können dies durch automatisierte Echtzeitprozesse oder durch regelmäßige Stapelverarbeitung tun. Dies ist eine häufige Herausforderung in der Datenanalyse – verschiedene datenwissenschaftliche Ansätze für das Change Management können verwendet werden.
Das folgende Diagramm zeigt den konzeptionellen Ablauf der Verwendung von RAG mit LLMs.
Was ist der Unterschied zwischen Retrieval-Augmented Generation und semantischer Suche?
Die semantische Suche verbessert die RAG-Ergebnisse für Unternehmen, die ihren LLM-Anwendungen umfangreiche externe Wissensquellen hinzufügen möchten. Moderne Unternehmen speichern umfangreiche Informationen – wie Handbücher, häufig gestellte Fragen, Forschungsberichte, Kundendienstanleitungen und Personaldokumentationen – in verschiedenen Systemen. Das Abrufen von Kontexten ist in großem Maßstab eine Herausforderung und beeinträchtigt folglich die generative Ausgabequalität.
Semantische Suchtechnologien können große Datenbanken mit unterschiedlichen Informationen scannen und Daten genauer abrufen. Sie können beispielsweise Fragen beantworten wie: „Wie viel wurde letztes Jahr für Maschinenreparaturen ausgegeben?“ indem sie die Frage den relevanten Dokumenten zuordnen und statt der Suchergebnisse einen bestimmten Text zurückgeben. Entwickler können diese Antwort dann verwenden, um dem LLM mehr Kontext zu bieten.
Konventionelle oder Stichwort-Suchlösungen in RAG liefern begrenzte Ergebnisse für wissensintensive Aufgaben. Entwickler müssen sich auch mit Worteinbettungen, Dokumentaufteilung und anderen Komplexitäten auseinandersetzen, wenn sie ihre Daten manuell vorbereiten. Im Gegensatz dazu übernehmen semantische Suchtechnologien die gesamte Arbeit der Wissensdatenbankvorbereitung, sodass Entwickler dies nicht tun müssen. Sie generieren auch semantisch relevante Passagen und nach Relevanz geordnete Token-Wörter, um die Qualität der RAG-Nutzlast zu maximieren.
Wie kann AWS Ihre Anforderungen an die Generierung von Retrieval-Augmented Generation unterstützen?
Amazon Bedrock ist ein vollständig verwalteter Dienst, der eine Auswahl an leistungsstarken Basismodellen sowie eine breite Palette von Funktionen bietet, um generative KI-Anwendungen zu erstellen und gleichzeitig die Entwicklung zu vereinfachen und Datenschutz und Sicherheit zu gewährleisten. Mit den Wissensdatenbanken für Amazon Bedrock können Sie FMs mit nur wenigen Klicks mit Ihren Datenquellen für RAG verbinden. Vektorkonvertierungen, Abrufe und eine verbesserte Ausgabegenerierung werden alle automatisch abgewickelt.
Für Unternehmen, die ihre eigene RAG verwalten, ist Amazon Kendra ein hochpräziser Unternehmenssuchdienst, der auf Machine Learning basiert. Es bietet eine optimierte Kendra Retrieve-API, die Sie zusammen mit dem hochgenauen semantischen Ranker von Amazon Kendra als Enterprise-Retriever für Ihre RAG-Workflows verwenden können. Mit der Retrieve API können Sie beispielsweise:
- Bis zu 100 semantisch relevante Passagen mit jeweils bis zu 200 Token-Wörtern abrufen, sortiert nach Relevanz.
- Vorgefertigte Konnektoren für beliebte Datentechnologien wie Amazon Simple Storage Service, SharePoint, Confluence und andere Websites verwenden.
- Eine Vielzahl von Dokumentformaten wie HTML, Word, PowerPoint, PDF, Excel und Textdateien unterstützen.
- Antworten auf der Grundlage der Dokumente, die die Endbenutzerberechtigungen zulassen, filtern.
Amazon bietet auch Optionen für Unternehmen, die individuellere generative KI-Lösungen entwickeln möchten. Amazon SageMaker JumpStart ist ein Hub für ML mit Basismodellen, integrierten Algorithmen und vorgefertigten ML-Lösungen, die Sie mit nur wenigen Klicks bereitstellen können. Sie können die RAG-Implementierung beschleunigen, indem Sie auf vorhandene SageMaker-Notebooks und -Codebeispiele verweisen.
Starten Sie mit Retrieval-Augmented Generation in AWS, indem Sie noch heute ein kostenloses Konto erstellen
Nächste Schritte in AWS
Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.
Starten Sie mit der Entwicklung in der AWS-Managementkonsole.