Überspringen zum Hauptinhalt

Amazon Bedrock

Amazon Bedrock Model Distillation

Übersicht

Mit der Amazon-Bedrock-Modelldestillation können Sie kleinere, schnellere und kostengünstigere Modelle verwenden, die anwendungsfallspezifische Genauigkeit bieten, die mit den fortschrittlichsten Modellen in Amazon Bedrock vergleichbar ist. Destillierte Modelle in Amazon Bedrock sind bis zu 500 % schneller und bis zu 75 % günstiger als Originalmodelle, mit einem Genauigkeitsverlust von weniger als 2 % für Anwendungsfälle wie RAG.

Kleinere, kostengünstigere Modelle verwenden

Mit der Modelldestillation können Kunden ein „Lehrer“-Modell auswählen, dessen Genauigkeit sie für ihren Anwendungsfall erreichen möchten, und dann ein „Schüler“-Modell auswählen, das sie optimieren möchten. Kunden geben auch Prompts für ihren Anwendungsfall an. Die Modelldestillation automatisiert den Prozess der Generierung von Antworten des Lehrers und der Verwendung dieser Antworten zur Optimierung des Schülermodells. Schülermodelle können sich dann wie Lehrermodelle verhalten, mit ähnlicher Genauigkeit und zu geringeren Kosten. Die Modelldestillation unterstützt eine Vielfalt von Modellen verschiedener Anbieter, darunter Amazon Nova Premier (Lehrer) und Nova Pro (Schüler), Claude 3.5 Sonnet v2 (Lehrer), Llama 3.3 70B (Lehrer) und Llama 3.2 1B/3B (Schüler). Spezifische benutzerdefinierte Modelle können per On-Demand-Inferenz aufgerufen werden, wodurch der Bedarf an ständig verfügbarer Infrastruktur reduziert wird. Bitte beachten Sie die Liste der Modelle hier.
Screenshot of a user interface for selecting teacher and student models for distillation, featuring Llama 3.1 models. The teacher model Llama 3.1 405B is selected, and student model options include Llama 3.1 70B and Llama 3.1 8B.

Die Leistung destillierter Modelle mit proprietärer Datensynthese maximieren

Die Optimierung eines kleineren, kosteneffizienten Modells, um eine ähnliche Genauigkeit zu erreichen wie ein größeres Modell für Ihren speziellen Anwendungsfall, ist ein iterativer Prozess. Zur Verringerung eines Teils der Iterationslast, die für bessere Ergebnisse erforderlich ist, kann die Modelldestillation verschiedene Datensynthesemethoden anwenden, die für Ihren Anwendungsfall am besten geeignet sind. Bedrock kann beispielsweise den Trainingsdatensatz erweitern, indem es ähnliche Prompts oder hochwertige synthetische Antworten generiert, wobei vom Kunden bereitgestellte Prompt-Antwort-Paare als goldene Beispiele verwendet werden.
Screenshot of the AWS Synthetic Data Generation and Model Distillation user interface. The UI enables users to set the maximum response length, choose a distillation input dataset from an S3 location or invocation logs, and provides options to upload data or browse S3 buckets to generate synthetic responses for fine-tuning machine learning models.

Kosten durch einfache Bereitstellung Ihrer Produktionsdaten senken

Bei der herkömmlichen Optimierung müssen Kunden Prompts und Antworten erstellen. Bei der Modelldestillation müssen Kunden lediglich Prompts bereitstellen, die die Modelldestillation dann verwendet, um synthetische Antworten zu generieren und die Schülermodelle zu optimieren. Kunden können uns zu ihren Aufrufprotokollen weiterleiten und die Protokolle auch anhand bestimmter Metadatenfelder herausfiltern. Die Modelldestillation kann sowohl Prompts als auch Antworten über Aufrufprotokolle lesen und die Generierung synthetischer Antworten im Modelldestillations-Workflow überspringen, was die Kosten senkt, da keine Antworten aus dem Lehrermodell erneut generiert werden müssen. Erste Schritte mit Codebeispielen.
Screenshot of the AWS Synthetic Data Generation interface showing options for model distillation, including setting response length, selecting distillation input dataset, configuring S3 log access, adding metadata, and managing access to input data such as prompts or prompt-response pairs.

Genauigkeit der Vorhersage von Funktionsaufrufen für Agents erhöhen

Das Aufrufen von Agent-Funktionen ist eine wichtige Fähigkeit für moderne KI-Anwendungen. Dadurch können Modelle mit externen Tools, Datenbanken und APIs interagieren, indem genau bestimmt wird, wann und wie bestimmte Funktionen aufgerufen werden. Größere Modelle sind zwar in der Regel sehr gut darin, die richtigen aufzurufenden Funktionen zu bestimmen und die geeigneten Parameter zu konstruieren, sind aber in der Regel mit höheren Kosten und Latenzen verbunden. Die Amazon-Bedrock-Modelldestillation ermöglicht kleineren Modellen, Funktionsaufrufe genau vorherzusagen, um so wesentlich schnellere Reaktionszeiten zu erzielen und die Betriebskosten zu senken.