Das richtige Basismodell für Ihr Startup auswählen

Wie war dieser Inhalt?

Wenn Startups generative künstliche Intelligenz (KI) in ihre Produkte integrieren, ist die Auswahl eines Fundamentmodells (FM) einer der ersten und wichtigsten Schritte. Ein FM ist ein umfangreiches Modell für Machine Learning (ML), das anhand einer riesigen Datenmenge in großem Maßstab vorab trainiert wurde. Dies führt zu einem Modell, das an eine Vielzahl nachgelagerter Aufgaben angepasst werden kann.

Die Modellauswahl hat strategische Auswirkungen darauf, wie ein Startup aufgebaut wird. Alles, von der Benutzererfahrung und Markteinführung bis hin zu Einstellungen und Rentabilität, kann durch das von Ihnen gewählte Modell beeinflusst werden. Modelle unterscheiden sich in Bezug auf eine Reihe von Faktoren, darunter:

  • Grad der Anpassung – Die Möglichkeit, die Ausgabe eines Modells mit neuen Daten zu ändern, die von prompten Ansätzen bis hin zum vollständigen Umtrainieren des Modells reichen
  • Modellgröße – Wie viele Informationen das Modell gelernt hat, definiert durch die Anzahl der Parameter
  • Inferenzoptionen – Von der selbstverwalteten Bereitstellung bis hin zu API-Aufrufen
  • Lizenzvereinbarungen – Einige Vereinbarungen können die kommerzielle Nutzung einschränken oder verbieten
  • Kontextfenster – Wie viele Informationen passen in eine einzige Aufforderung
  • Latenz – Wie lange dauert es, bis ein Modell eine Ausgabe generiert

In den folgenden Abschnitten erfahren Sie, was Sie bei der Auswahl eines FM beachten sollten, das den Anforderungen Ihres Startups entspricht.

Anwendungsspezifische Benchmarks

Bei der Bewertung der Leistung verschiedener FMs für Ihren Anwendungsfall ist die Etablierung einer Benchmark-Strategie ein entscheidender Schritt in diesem Prozess. Auf diese Weise können Sie quantifizieren, wie gut der Inhalt Ihren Erwartungen entspricht.

„Es gibt eine große Anzahl von Modellen, die von Closed-Source-Playern ... bis hin zu Open-Source-Modellen wie Dolly, Alpaca und Vicuna reichen. Jedes dieser Modelle hat seine eigenen Kompromisse – es ist wichtig, dass Sie das beste Modell für die jeweilige Aufgabe auswählen“, erklärt Noa Flaherty, Chief Technology Officer (CTO) und Mitbegründer von Vellum. „Wir haben Unternehmen bei der Implementierung einer Vielzahl von KI-Anwendungsfällen unterstützt und aus erster Hand erfahren, dass jeder Anwendungsfall unterschiedliche Anforderungen an Kosten, Qualität, Latenz, Kontextfenster und Datenschutz stellt.“

Generalisierte Benchmarks (wie Stanfords Holistic Evaluation of Language Models) sind für einige Startups ein guter Ausgangspunkt, da sie dabei helfen, zu priorisieren, mit welchen Grundmodellen experimentiert werden soll. Generalisierte Benchmarks können jedoch für Startups, die sich darauf konzentrieren, für einen bestimmten Kundenstamm aufzubauen, unzureichend sein.

Wenn Ihr Modell beispielsweise Arzttermine oder Kundenfeedback zusammenfassen muss, sollte das Modell danach bewertet werden, wie gut es diese spezifischen Aufgaben ausführen kann. „Um benutzerdefiniertes Benchmarking durchführen zu können, benötigen Sie einen Workflow für schnelles Experimentieren in der Regel durch Versuch und Irrtum in einer Vielzahl von Szenarien. Es kommt häufig vor, dass Sie Ihr Modell/Ihre Eingabeaufforderung zu stark an einen bestimmten Testfall anpassen und glauben, dass Sie das richtige Modell haben, nur damit es einmal in der Produktion nicht mehr funktioniert“, rät Noa. Kundenspezifisches Benchmarking kann Techniken wie die Berechnung der BLEU- und ROUGE-Werte beinhalten. Dies sind zwei Kennzahlen, anhand derer Startups die Anzahl der Korrekturen quantifizieren können, die an KI-generiertem Text vorgenommen werden müssen, bevor er für die Verwendung in Human-in-the-Loop-Anwendungen zugelassen wird.

Qualitätsmetriken und Modellevaluierung sind von entscheidender Bedeutung, weshalb Noa Vellum überhaupt gegründet hat. Dieses von Y Combinator unterstützte Startup konzentriert sein Produktangebot auf Experimente. Laut Noa: „Je mehr Sie Modelle in einer Vielzahl von Fällen vergleichen/gegenüberstellen können, die denen ähneln, die Sie in der Produktion sehen werden, desto besser wird es Ihnen gehen, wenn Sie einmal in der Produktion sind.“

Kleinere, speziell entwickelte Modelle sind auf dem Vormarsch

Sobald Ihre Qualitätsmaßstäbe festgelegt wurden, können Sie damit beginnen, kleinere Modelle zu verwenden, die für bestimmte Aufgaben konzipiert sind, z. B. das Befolgen von Anweisungen oder Zusammenfassungen. Mit diesen speziell entwickelten Modellen kann die Anzahl der Parameter eines Modells erheblich reduziert werden, ohne dass es Domain-spezifische Aufgaben ausführen kann. Das Startup GoCharlie hat beispielsweise in Zusammenarbeit mit SRI ein marketingspezifisches multimodales Modell mit 1B-Parametern entwickelt.

„Einheitsmodelle werden niemals die Bedürfnisse eines Endbenutzers wirklich erfüllen, wohingegen Modelle, die speziell auf diese Bedürfnisse zugeschnitten sind, am effektivsten sein werden“, erklärt Kostas Hatalis, Chief Executive Officer (CEO) und Mitbegründer von GoCharlie. „Wir glauben, dass speziell entwickelte Modelle, die auf bestimmte Branchen wie Marketing zugeschnitten sind, entscheidend sind, um die tatsächlichen Bedürfnisse der Endnutzer zu verstehen.“

Die Open-Source-Forschungsgemeinschaft treibt viele Innovationen rund um kleinere, speziell angefertigte Modelle wie das Alpaca von Stanford oder das Falcon 40B des Technology Innovation Institute voran. Das Open LLM Leaderboard von Hugging Face hilft dabei, diese Open-Source-Modelle anhand einer Reihe allgemeiner Benchmarks zu bewerten. Diese kleineren Modelle liefern vergleichbare Benchmark-Metriken für Aufgaben, bei denen Anweisungen befolgt werden, und zwar mit einem Bruchteil der Parameteranzahl und der Schulungsressourcen.

Während Startups ihre Modelle für Domain-spezifische Aufgaben anpassen, ermöglichen ihnen Open-Source-FMs, ihre Systeme mit ihren eigenen Datensätzen weiter anzupassen und zu verfeinern. Die Parameter-Efficient Fine-Tuning (PERT) -Lösungen von Hugging Face haben beispielsweise gezeigt, dass die Anpassung einer kleinen Anzahl von Modellparametern bei gleichzeitigem Einfrieren der meisten anderen Parameter der vortrainierten LLMs die Rechen- und Speicherkosten erheblich senken kann. Solche auf Domänenanpassungen basierenden Feinabstimmungstechniken sind mit API-basiertem, proprietärem FM im Allgemeinen nicht möglich, wodurch die Tiefe begrenzt werden kann, bis zu der ein Startup ein differenziertes Produkt entwickeln kann.

Die Fokussierung auf bestimmte Aufgaben macht auch das vortrainierte Wissen des FM in Bereichen wie Mathematik, Geschichte oder Medizin für das Startup im Allgemeinen nutzlos. Einige Startups entscheiden sich dafür, den Anwendungsbereich von FM bewusst auf eine bestimmte Domäne zu beschränken, indem sie in ihren Modellen Grenzen setzen, wie z. B. Open-Source-NeMo-Guardrails von Nvidia. Diese Grenzen tragen dazu bei, Modelle vor Halluzinationen zu bewahren: irrelevante, falsche oder unerwartete Ergebnisse.

Flexibilität bei Inferenzen ist wichtig

Eine weitere wichtige Überlegung bei der Modellauswahl ist, wie das Modell bedient werden kann. Open-Source-Modelle sowie selbstverwaltete proprietäre Modelle bieten die Flexibilität, individuell anzupassen, wie und wo die Modelle gehostet werden. Durch die direkte Steuerung der Infrastruktur eines Modells können Startups mithilfe von bewährten Methoden wie Autoskalierung und Redundanz die Zuverlässigkeit ihrer Anwendungen sicherstellen. Die Verwaltung der Hosting-Infrastruktur trägt auch dazu bei, sicherzustellen, dass alle von einem Modell generierten und genutzten Daten in dedizierten Cloud-Umgebungen gespeichert werden, die den vom Startup festgelegten Sicherheitsanforderungen entsprechen können.

Die kleineren, speziell entwickelten Modelle, die wir bereits erwähnt haben, benötigen auch weniger rechenintensive Hardware, was Startups hilft, die Wirtschaftlichkeit und das Preis-Leistungs-Verhältnis der Geräte zu optimieren. In einem kürzlich durchgeführten Experiment hat AWS bei der Verwendung von ARM-basierten AWS-Graviton3-Instances für Open-Source-Modelle im Vergleich zu ähnlichen Amazon Elastic Compute Cloud (EC2) -Instances Einsparungen von bis zu 50 % bei den Inferenzkosten festgestellt.

Diese AWS Graviton3-Prozessoren verbrauchen bei gleicher Leistung außerdem bis zu 60 % weniger Energie als vergleichbare Amazon EC2-Instances. Dies hilft Startups, die die Umweltauswirkungen berücksichtigen, die sich aus der Wahl energiehungriger Inferenzhardware ergeben. In einer Studie des Weltwirtschaftsforums wurde der Energieverbrauch von Rechenzentren detailliert beschrieben. Einst als externe Wirkung betrachtet, sind die Auswirkungen auf die Umwelt bei vielen in den Vordergrund gerückt. AWS ermöglicht es Startups, ihre Umweltauswirkungen mithilfe von Angeboten wie Carbon Footprint Reporting zu quantifizieren, das Unternehmen dabei unterstützt, die Energieeffizienz verschiedener Hardwareauswahlen zu vergleichen.

Fazit

Aaron Melgar

Aaron Melgar

Aaron unterstützt das KI/ML-Ökosystem für Startups und Risikokapital bei AWS, das sich auf das Unternehmenswachstum in der Frühphase konzentriert. Er ist ehemaliger Gründer, Series-A Product Manager, Machine Learning Director und Strategy Consultant. Er ist ein Amerikaner der ersten Generation, der Tennis, Golf, Reisen und den Austausch von Hörbuch-Empfehlungen über Wirtschaft, Psychologie oder Wirtschaft liebt.

Wie war dieser Inhalt?