So senken Startups ihre KI/ML-Kosten und schaffen Innovationen mit AWS Inferentia

Wie war dieser Inhalt?

Als Machine Learning (ML)-Startup kennen Sie wahrscheinlich die Herausforderungen, die mit dem Training und Bereitstellen von ML-Modellen in Ihren Anwendungen einhergehen („ML-Produktisierung“). Die ML-Produktisierung stellt eine Herausforderung dar, denn Startups müssen gleichzeitig eine hohe Anwendungsleistung erzielen, ein angenehmes Benutzererlebnis schaffen und die Kosten effizient verwalten – und das alles bei gleichzeitigem Aufbau eines wettbewerbsfähigen und nachhaltigen Startups.

Bei der Auswahl der Infrastruktur für ihre ML-Workloads sollten Startups überlegen, wie sie Training und Inferenz am besten angehen. Beim Training handelt es sich um einen Prozess, bei dem ein Modell durch Lernen aus vorhandenen Daten erstellt und für eine bestimmte Aufgabe optimiert wird. Inferenz ist der Prozess, bei dem dieses Modell verwendet wird, um Vorhersagen auf der Grundlage neuer Eingabedaten zu treffen. In den letzten fünf Jahren hat AWS in unsere eigenen, speziell entwickelten Accelerators investiert, um die Grenzen der Leistung und Rechenkosten für ML-Workloads zu erweitern. AWS-Trainium- und AWS-Inferentia-Accelerators ermöglichen die niedrigsten Kosten für das Training von Modellen und die Ausführung von Inferenzen in der Cloud.

AWS-Inferentia-basierte Amazon-EC2-Inf1-Instances sind ideal für Startups, die ML-Inferenzanwendungen ausführen möchten, wie zum Beispiel:

  • Suche
  • Empfehlungsmodule
  • Computer Vision
  • Spracherkennung
  • Natürliche Sprachverarbeitung (NLP)
  • Personalisierung
  • Betrugserkennung

Zum Trainieren und Bereitstellen komplexerer Modelle wie generativer KI-Modelle (große Sprachmodelle und Diffusionsmodelle) möchte Ihr Startup möglicherweise die neuen AWS-Trainium-basierten Amazon-EC2-Trn1-Instances und AWS-Inferentia2-basierten Amazon-EC2-Inf2-Instances ausprobieren.

In diesem Beitrag befassen wir uns mit Anwendungsfällen von zwei Startups – Actuate und Finch Computing – und dem Erfolg, den sie mit von Inferentia betriebenen Inf1-Instances erzielt haben.

Actuate | Bedrohungserkennung mithilfe von KI-Videoanalyse in Echtzeit | 91 % Einsparungen bei den Inferenzkosten

Anwendungsfall: Actuate bietet eine Software-as-a-Service (SaaS)-Plattform, mit der jede Kamera in eine intelligente Echtzeit-Bedrohungserkennung umgewandelt werden kann, um Waffen, Einbrecher, Menschenansammlungen und herumlungende Personen sofort und genau zu erkennen. Die Software-Plattform von Actuate lässt sich in bestehende Videokamerasysteme integrieren, um fortschrittliche Sicherheitssysteme zu schaffen. Mit der Software zur Bedrohungserkennung durch künstliche Intelligenz (KI) von Actuate erhalten Kunden innerhalb von Sekunden Echtzeitwarnungen und können schnell handeln, um ihre Grundstücke zu sichern.

Gelegenheit: Actuate musste eine hohe Erkennungsgenauigkeit gewährleisten. Dies bedeutete, dass die Modelle ständig mit mehr Daten neu trainiert werden mussten, was wertvolle Entwicklungszeit in Anspruch nahm. Da Actuate außerdem schnelle Reaktionszeiten benötigte, war das Unternehmen auf eine GPU-basierte Infrastruktur angewiesen, die in großem Maßstab zu kostspielig war. Als Startup-Unternehmen mit begrenzten Ressourcen konnte Actuate durch die Minimierung der Inferenzkosten und des Zeitaufwands für die Entwickler diese Ressourcen nutzen, um bessere Funktionen zu entwickeln und seinen Endbenutzern einen Mehrwert zu bieten.

Lösung und Auswirkung: Zunächst implementierte Actuate Amazon SageMaker, um seine Modelle zu trainieren und bereitzustellen. Dadurch verkürzte sich ihre Bereitstellungszeit – gemessen von den gekennzeichneten Daten bis zum bereitgestellten Modell – von 4 Wochen auf 4 Minuten. In der nächsten Phase migrierten sie die ML-Modelle in der gesamten Suite ihrer Produkte von GPU-basierten Instanzen zu AWS Inferentia-basierten Inf1-Instanzen. Diese Migration erforderte nur eine minimale Beteiligung der Entwickler, da sie keinen Anwendungscode neu schreiben mussten und nur ein paar Codezeilen ändern mussten. Actuate erzielte mit AWS Inferentia sofort einsatzbereite Kosteneinsparungen von bis zu 70 % Bei weiterer Optimierung reduzierten sie die Inferenzkosten um 91 %. Dies ermöglichte es ihnen, ihre Ressourcen zu nutzen, um sich auf Verbesserungen der Benutzererfahrung und grundlegende KI-Forschung zu konzentrieren.

Ressourcen: Um mehr über den Anwendungsfall von Actuate zu erfahren, können Sie sich die Präsentation auf der reInvent ansehen. Um mit einem Computer-Vision-Modell auf Inf1-Instances zu beginnen, besuchen Sie die Seite zur Neuron-Dokumentation und erkunden Sie dieses Notebook für das Yolov5-Modell auf GitHub.

Finch Computing | Echtzeit-Einblicke mit NLP zu Informationsressourcen | 80 % Einsparungen bei den Inferenzkosten

Anwendungsfall: Finch – eine Kombination der Wörter „finden“ und „suchen“ – Computing dient Medienunternehmen und Datenaggregatoren, US-Geheimdiensten und Regierungsorganisationen sowie Finanzdienstleistungsunternehmen. Die Produkte des Unternehmens verwenden Algorithmen zur natürlichen Sprachverarbeitung (NLP), um verwertbare Einblicke in riesige Mengen von Textdaten aus einer Vielzahl von Informationsbeständen zu gewinnen. Ein Beispiel hierfür ist die Stimmungszuweisung, bei der ein Inhalt als positiv, negativ oder neutral identifiziert und ein numerischer Wert zurückgegeben wird, der die Stimmungsstufe und -art angibt.

Gelegenheit: Nachdem Finch Computing sein Produkt um die Unterstützung für die niederländische Sprache erweitert hatte, wollte das Unternehmen die Unterstützung für Französisch, Deutsch, Spanisch und andere Sprachen erweitern. Dies würde nicht nur bestehenden Kunden mit Inhalten in diesen Sprachen helfen, sondern neue Kunden in ganz Europa ansprechen. Finch Computing hatte seine eigenen Deep-Learning-Übersetzungsmodelle auf GPUs entwickelt und eingesetzt, die für die Unterstützung weiterer Sprachen zu kostspielig waren. Das Unternehmen war auf der Suche nach einer alternativen Lösung, mit der es schnell und kostengünstig neue Sprachmodelle erstellen und ausführen konnte.

Lösung und Auswirkung: In nur wenigen Monaten migrierte Finch Computing seine rechenintensiven Übersetzungsmodelle von GPU-basierten Instances auf Amazon-EC2-Inf1-Instances, die von AWS Inferentia unterstützt werden. Inf1-Instances ermöglichten denselben Durchsatz wie GPUs, halfen Finch jedoch, mehr als 80 % seiner Kosten einzusparen. Finch Computing konnte die drei zusätzlichen Sprachen implementieren und neue Kunden gewinnen. Heute laufen alle ihre Übersetzungsmodelle auf Inf1 und sie planen, Inf2-Instances für neue generative KI-Anwendungsfälle wie Textzusammenfassung und Überschriftengenerierung zu erkunden.

Ressourcen: Um mehr über den Anwendungsfall von Finch Computing zu erfahren, lesen Sie diese Fallstudie. Um mit einem Übersetzungsmodell zu beginnen, besuchen Sie die Seite der Neuron-Dokumentation und sehen Sie sich dieses Notebook für das MarianMT-Modell auf GitHub an.

AWS Inferentia für kostengünstige, hochleistungsfähige ML-Inferenz

In diesem Blog haben wir uns mit zwei Startups befasst, die ML-Modelle kostengünstig in der Produktion in AWS Inferentia bereitgestellt und dabei einen hohen Durchsatz und eine geringe Latenz erzielt haben.

Sind Sie bereit, mit Inf1-Instances zu beginnen? Sie können AWS Neuron SDK verwenden, das sich nativ in beliebte ML-Frameworks wie PyTorch und TensorFlow integrieren lässt. Um zu erfahren, wie das geht, besuchen Sie die Seite der Neuron-Dokumentation und erkunden Sie dieses Beispielmodell-Repository auf GitHub.

Erfahren Sie, wie immer mehr AIML-Startups in AWS entwickeln und skalieren 🚀:

Shruti Koparkar

Shruti Koparkar

Shruti Koparkar ist Senior Product Marketing Manager bei AWS. Sie hilft Kunden bei der Erkundung, Evaluierung und Einführung der beschleunigten Computerinfrastruktur von Amazon EC2 für ihre Anforderungen bei Machine Learning.

Wie war dieser Inhalt?