Überspringen zum Hauptinhalt

Was sind generative KI-Modelle?

Generative KI-Modelle haben Stärken und Grenzen. Je nach Komplexität, Leistung, Datenschutz und Kostenanforderungen Ihres Anwendungsfalls sind einige Modelle möglicherweise besser geeignet als andere. Dieser Leitfaden befasst sich mit den Faktoren und bewährten Methoden, die bei der Auswahl eines generativen KI-Modells zu berücksichtigen sind.

Generative Modelle künstlicher Intelligenz können auf der Grundlage von natürlichen Spracheingaben der Benutzer originale und aussagekräftige Text-, Bild-, Audio- und Videoinhalte erstellen. Unternehmen nutzen sie für alles Mögliche, von der Versorgung von Chatbots über die Erstellung von Designvorlagen bis hin zur Lösung komplexer Probleme in der Biologie. Es gibt Tausende proprietäre und Open-Source-KI-Modelle, und täglich werden neue Modelle und verbesserte Versionen veröffentlicht.

Trotz ihrer Flexibilität und Vielseitigkeit sind generative KI-Modelle keine Allzwecklösung für jeden Anwendungsfall. KI-Teams müssen sorgfältig das beste Modell auswählen und bewerten, das Kosten und Leistung optimiert. Die Bewertung von Modellen ist komplex. Beliebte Benchmarks wie Helm und die Hugging-Face-Bestenliste bieten nur einen allgemeinen Überblick darüber, wie ein bestimmtes KI-Modell bei gängigen Aufgaben in natürlicher Sprache abschneidet. KI-Teams müssen verschiedene Strategien zur Bewertung der Modellausgaben für benutzerdefinierte Dateneingaben anwenden und dann diejenige auswählen, die ihren Anforderungen am besten entspricht.

Wie werden generative KI-Modelle für verschiedene Anwendungsfälle bewertet?

Hier sind einige Faktoren, die Sie bei der Auswahl eines geeigneten KI-Modells für Ihren Anwendungsfall berücksichtigen sollten.

Modalität

Modalität bezieht sich auf den Datentyp, den das Modell verarbeitet: Einbettungen, Bilder (Vision) oder Text. Einige Modelle sind unimodal und können einen einzelnen Datentyp effizient verarbeiten. Andere sind multimodal und können mehrere Datentypen integrieren, sind jedoch möglicherweise für einen Typ besser geeignet als für andere. Beispielsweise eignen sich Modelle wie Claude, Llama 3.1 oder Titan Text G1 für textbasierte Aufgaben, während Stable Diffusion XL und Titan Image Generator v2 besser für visuelle Aufgaben geeignet sind. Ähnlich wird das G1-Modell von Titan Multimodal Embeddings bevorzugt, um jedes Eingabebild oder jeden Eingabetext in eine Einbettung zu übersetzen, die die semantische Bedeutung sowohl des Bildes als auch des Textes im selben semantischen Raum enthält.

Modellgröße

Die Modellgröße ist die Anzahl der Parameter oder Konfigurationsvariablen innerhalb des Modells. Sie kann zwischen mehreren Millionen und über 100 Milliarden variieren, wobei die meisten Modelle zwischen 10 und 100 Milliarden Parameter haben. Die Modellgröße definiert direkt die Fähigkeit des Modells, aus Daten zu lernen. Modelle mit mehr Parametern erzielen bessere Ergebnisse, da sie neue Daten besser verstehen können. Allerdings sind sie in der Anpassung und im Betrieb teurer.

Inferenzlatenz

Die Inferenzlatenz ist in der Regel ein Problem in Echtzeit-Szenarien, in denen die Benutzer Ihrer KI-Anwendung sofortige Antworten erwarten. Es handelt sich dabei um die Gesamtzeit, die ein Modell benötigt, um Eingaben zu verarbeiten und basierend auf der Länge der Eingabe eine Ausgabe zurückzugeben. Generative KI-Modelle mit komplexen Architekturen können langsamere Inferenzgeschwindigkeiten aufweisen als kleinere Modelle. Die Inferenzlatenz hängt jedoch sowohl von Ihren erwarteten Prompts als auch von der Leistung des Modells ab. Eine erhöhte Anzahl von Token (wie Buchstaben, Satzzeichen usw.) in der Eingabe des Endbenutzers kann ebenfalls zu einer erhöhten Latenz führen.

Kontextfenster

Das Kontextfenster des generativen KI-Modells gibt die Anzahl der Token an, die es sich zu einem bestimmten Zeitpunkt für den Kontext „merken“ kann. Ein Modell mit einem größeren Kontextfenster behält mehr von der vorherigen Konversation bei und liefert relevantere Antworten. Aus diesem Grund werden größere Kontextfenster für komplexe Aufgaben wie das Zusammenfassen langer Dokumente oder das Führen von Multi-Turn-Konversationen bevorzugt.

Überlegungen bezüglich der Kosten

Die Betriebskosten des Modells umfassen die Nutzungskosten für proprietäre Modelle sowie die Rechen- und Speicherkosten. Die Betriebskosten können je nach Workload von Modell zu Modell variieren. Durch das Abwägen von Kosten und Nutzen stellen Sie sicher, dass Sie den besten Gegenwert für Ihre Investition erhalten. Beispielsweise fallen für die Ausführung von Claude 2 oder Command R+ nutzungsabhängige Gebühren an, da es sich um proprietäre Modelle handelt, während die Bereitstellung von Llama 2 7B geringere Rechenkosten verursacht. Wenn proprietäre Modelle jedoch eine deutlich bessere Genauigkeit oder Effizienz für Ihre Aufgabe bieten, können ihre zusätzlichen Kosten gerechtfertigt sein.

Antwortqualität

Sie können die Qualität der Antworten eines KI-Modells anhand verschiedener Metriken bewerten, wie z. B.

  • Genauigkeit – wie oft die Antworten des Modells korrekt sind
  • Relevanz – wie passend die Antworten auf die gegebene Eingabe sind 
  • Robustheit – wie gut das Modell mit absichtlich irreführenden Eingaben umgeht, die es verwirren sollen
  • Toxizität – Der Prozentsatz unangemessener Inhalte oder Verzerrungen in den Modellausgaben.

Die Metriken werden in der Regel anhand eines vorkonfigurierten Ausgangswerts gemessen. Es hat sich bewährt, die Qualität der Antworten mehrerer verschiedener Modelle anhand desselben Eingabedatensatzes zu bewerten und das Modell mit der höchsten Antwortqualität auszuwählen.

Was ist das Auswahlverfahren für generative KI-Modelle?

Bei der Auswahl generativer KI-Modelle müssen Sie zunächst die spezifischen Anforderungen Ihrer KI-Anwendung bestimmen. Stellen Sie sicher, dass Sie die Erwartungen der Benutzer, die Anforderungen an die Datenverarbeitung, Überlegungen zur Bereitstellung und andere Feinheiten innerhalb Ihres Unternehmens und Ihrer Branche verstehen. Anschließend können Sie verschiedene KI-Modelle durch Qualitätstests eliminieren, bis Sie das beste Modell gefunden haben, das Ihren Anforderungen entspricht.

Schritt 1 – Vorauswahl der ersten Modelle

Beginnen Sie den Prozess, indem Sie aus den Tausenden von Modellen etwa 20 Modelle in die engere Wahl nehmen, die Ihren Anforderungen entsprechen. Die Wahl zwischen Open-Source- und proprietären Modellen ist schon die halbe Miete. Sobald Sie dies festgelegt haben, können Sie die Auswahl weiter eingrenzen, indem Sie die Modelle anhand der im vorherigen Abschnitt beschriebenen Schlüsselkriterien wie Modalität, Modellgröße, Kontextfenster usw. bewerten.

Open-Source-Modelle im Vergleich zu proprietären generativen KI-Modellen

Open-Source-Modelle bieten Flexibilität und ermöglichen es Teams, das Modell anhand geschützter Daten zu optimieren oder vollständig neu zu trainieren. Dies kann besonders in spezialisierten Branchen von großem Wert sein, in denen allgemeine Modelle bei Nischenanwendungsfällen keine gute Leistung erbringen. Beispielsweise könnte eine große Versicherungsgesellschaft es bevorzugen, ein Open-Source-Modell mit benutzerdefinierten Daten zu trainieren, anstatt proprietäre Modelle für den Finanzsektor zu verwenden, die ihren spezifischen Anforderungen nicht ganz entsprechen.

Bei Open-Source-Modellen sind jedoch zusätzliche Überlegungen erforderlich. Sie können Sicherheits- und Rechtsrisiken mit sich bringen, sodass Unternehmen ihre eigenen Compliance-Maßnahmen durchsetzen und die Lizenzbedingungen gründlich überprüfen müssen. Proprietäre Modelle bieten dagegen in der Regel integrierte Sicherheits-Features, Entschädigungen für Trainingsdaten und -ausgaben sowie Compliance-Garantien, wodurch sich der Betriebsaufwand für Unternehmen, die die Risikominderung priorisieren, verringert.

Schritt 2 – Ausgabe überprüfen und die Liste weiter eingrenzen

In diesem Schritt besteht Ihr Ziel darin, die drei besten generativen KI-Modelle zu ermitteln, die für Ihren Anwendungsfall am besten geeignet sind. Identifizieren Sie zunächst eine Teilmenge von Test-Prompts, die Ihrem Anwendungsfall entsprechen. Überprüfen Sie anschließend visuell die Ausgabe jedes Modells auf die spezifischen Prompts. Suchen Sie nach Ausgaben mit mehr Details, die am besten zu Ihrer Eingabe passen. Wählen Sie die drei besten aus, die die relevantesten, detailliertesten und genauesten Ausgaben liefern.

Amazon SageMaker Clarify eignet sich am besten für diese Stufe. Es bewertet automatisch FMs für Ihren generativen KI-Anwendungsfall anhand von Metriken wie Genauigkeit, Robustheit und Toxizität, um Ihre verantwortungsvolle KI-Initiative zu unterstützen.

Schritt 3 – Benchmarking auf Basis von Anwendungsfällen

Jetzt können Sie die ausgewählten besten KI-Modelle anhand vordefinierter Prompts und Ausgaben für Ihren spezifischen Testdatensatz genauer bewerten. Der entscheidende Faktor hierbei ist ein umfassender Testdatensatz, der alle Aspekte Ihres Anwendungsfalls mit mehreren Varianten abdeckt. Sie sollten auch über eine entsprechende ideale Ausgabe verfügen, um statistisch zu bewerten, welche Modellausgabe Ihrer idealen Ausgabe am nächsten kommt.

Amazon Bedrock bietet Bewertungstools, mit denen Sie das KI-Modell für Ihren Anwendungsfall mit Modellbewertung bewerten, vergleichen und auswählen können.

Es gibt drei Bewertungsansätze, die Sie verfolgen können.

Programmatisch

Bewerten Sie Modellausgaben mithilfe traditioneller Algorithmen und Metriken in natürlicher Sprache wie BERT Score, F1 und anderen exakten Vergleichstechniken. Mit Amazon Bedrock können Sie dies mithilfe integrierter Prompt-Datensätze erreichen, oder Sie können Ihre eigenen verwenden.

Menschen werden einbezogen

Beauftragen Sie menschliche Bewerter – Ihre Teammitglieder, eine Stichprobe von Endnutzern oder professionelle KI-Bewerter – die Ausgabe aller drei Modelle anhand vorab festgelegter Modellmetriken zu bewerten. Sie können die Ausgaben manuell mit den idealen Ausgaben vergleichen oder, wenn der Anwendungsfall zu weit gefasst ist, die Ausgaben nach bestem Ermessen bewerten und kennzeichnen.
Mit Amazon Bedrock können Sie Modellausgaben gemeinsam mit Ihren Mitarbeitenden bewerten oder AWS Ihre Bewertungen anhand von Antworten auf benutzerdefinierte Prompt-Datensätze mit Metriken wie Relevanz, Stil und Übereinstimmung mit der Markenstimme oder integrierten Metriken verwalten lassen.

Ein anderes KI-Modell als Bewerter

Bei diesem Ansatz bewertet ein anderes KI-Modell die Ausgaben der drei Modelle auf unvoreingenommene Weise. Dies funktioniert am besten bei Anwendungsfällen, bei denen die Ausgaben klar definiert sind und ihre Ähnlichkeit mit der idealen Ausgabe statistisch messbar ist. Mit Amazon Bedrock können Sie Modellausgaben mithilfe eines anderen KI-Modells im LLM-as-a-Judge-Modus bewerten. Sie können Ihre benutzerdefinierten Prompt-Datensätze mit Metriken wie Korrektheit, Vollständigkeit und Schädlichkeit sowie verantwortungsvollen KI-Metriken wie Antwortverweigerung und Schädlichkeit verwenden.

Schritt 4 – Endgültige Auswahl

Verwenden Sie die Bewertungsdaten zusammen mit der Kosten- und Leistungsanalyse, um das endgültige Modell auszuwählen. Mit Amazon Bedrock können Sie das Vergleichs-Feature bei Bewertungen verwenden, um die Ergebnisse aller Änderungen zu sehen, die Sie an Ihren Prompts und den zu bewertenden Modellen vorgenommen haben. Zeigen Sie all Ihre Analytik an einem Ort an und wählen Sie das Modell aus, das das beste Gleichgewicht zwischen Leistung, Kosten und den damit verbundenen Risiken bietet und Ressourcen effizient nutzt.

Die Auswahl des richtigen generativen KI-Modells für Ihren Anwendungsfall erfordert einen strukturierten Ansatz, der technische Fähigkeiten, geschäftliche Anforderungen und betriebliche Einschränkungen in Einklang bringt. Der Schlüssel liegt darin, Ihre Entscheidung an den spezifischen Anforderungen Ihres Anwendungsfalls auszurichten. Bewerten Sie Modelle sorgfältig anhand von Faktoren wie Modalität, Größe, Datenverarbeitungsfähigkeiten und Bereitstellungsaspekten. Letztendlich steigert das richtige Modell die Effizienz und Innovationskraft und bietet eine skalierbare Grundlage für zukünftige KI-gestützte Fortschritte in Ihrem Unternehmen.