Kundenberichte / Software und Internet / USA
Perplexity beschleunigt mit Amazon SageMaker HyperPod das Training von Basismodellen um 40 %
Erfahren Sie, wie das generative AI-Startup Perplexity mithilfe von Amazon SageMaker HyperPod das Modelltraining schneller und effizienter durchführt.
Bis zu 40 % verringerte
Trainingszeit
Über 100 000 Abfragen pro Stunde
unterstützt
Behält eine
niedrige Latenz bei
Optimiert
das Benutzererlebnis
Übersicht
Als transformative Kraft umfasst die generative künstliche Intelligenz (AI) Algorithmen für Machine Learning (ML), die in der Lage sind, neue Inhalte – von Bildern bis hin zu Texten – zu generieren, indem sie aus riesigen Datenmengen lernen. Perplexity, ein Unternehmen, das derzeit eine der weltweit ersten Konversations-Antwort-Engines entwickelt, nutzt die Leistungsfähigkeit generativer AI, um Benutzern zu helfen, relevantes Wissen zu finden.
Angesichts der Herausforderung, seine Modelle im Hinblick auf Genauigkeit und Präzision zu optimieren, benötigte Perplexity eine robuste Lösung, die in der Lage war, seine Rechenanforderungen zu erfüllen. Mit der Vision, das Benutzererlebnis zu verbessern, hat sich Perplexity an Amazon Web Services (AWS) gewandt. Durch den Einsatz einer fortschrittlichen ML-Infrastruktur, Trainingsbibliotheken und Inferenztools von AWS erlangte Perplexity die Flexibilität, Leistung und Effizienz, die erforderlich sind, um eine globale Benutzerbasis in großem Maßstab zu bedienen.
Chance | Verwenden von AWS-Services zur Optimierung des Benutzererlebnisses
Im Gegensatz zu herkömmlichen Suchmaschinen, die häufig Anzeigen und bestimmte Schlüsselwörtern den relevanten Ergebnissen vorziehen, ist die Lösung von Perplexity so optimiert, dass sie Nutzern das Wissen vermittelt, das sie suchen. Ungefähr 10 Millionen aktive Benutzer pro Monat verlassen sich auf Perplexity, um neue Konzepte zu erlernen, Herausforderungen zu lösen und Antworten zu finden.
„Mithilfe großer Sprachmodelle können wir das menschliche Sprachverständnis und das Denkvermögen in einem Modell erfassen. In Kombination mit den Fakten im Internet hat uns das beim Aufbau unserer Antwort-Engine geholfen“, sagt Aravind Srinivas, CEO und Mitbegründer von Perplexity. „Im Wesentlichen haben wir einen traditionellen Suchindex (Fakten-Engine) und eine Argumentations-Engine (großes Sprachmodell) zusammen orchestriert, um die weltweit erste Konversations-Antwort-Engine zu entwickeln.“
Seit seiner Markteinführung im Jahr 2022 nutzt Perplexity zentrale AWS-Services wie Amazon Elastic Compute Cloud (Amazon EC2) – das sichere und anpassbare Rechenkapazität für praktisch jede Workload bietet –, um die Backend-, Frontend- und Suchkomponenten seines Produkts zu betreiben. Als Perplexity heranwuchs und die Zahl der ML-Modelle zunahm, benötigte das Unternehmen eine enorme Rechenleistung, um die Benutzer bedienen zu können.
Perplexity sprach mit AWS-Experten und erfuhr, dass Amazon SageMaker HyperPod, eine speziell entwickelte Infrastruktur für verteiltes Training in großem Maßstab, die Anforderungen für groß angelegtes Modelltraining erfüllen kann. Amazon SageMaker HyperPod ist mit verteilten Amazon-SageMaker-Trainingsbibliotheken vorkonfiguriert, die für die parallele Ausführung hoch skalierbarer und kostengünstiger, benutzerdefinierter Daten optimiert sind und parallele Deep-Learning-Trainingsaufträge mit Verbindungsgeschwindigkeiten von über 1 600 Gbit/s modellieren. Amazon SageMaker HyperPod verhindert auch Unterbrechungen beim Training der Basismodelle, indem es regelmäßig Checkpoints speichert. Wenn während des Trainings ein Hardwarefehler auftritt, erkennt der AWS-Service den Ausfall automatisch, repariert oder ersetzt die fehlerhafte Instance und setzt das Training ab dem zuletzt gespeicherten Checkpoint fort. Dies ermöglicht ein ununterbrochenes Modelltraining über Wochen oder Monate in einer verteilten Umgebung.
Bei AWS liegt die Macht in den Händen des Kunden. Es gibt keine Anforderungen, welche Services Sie nutzen müssen.“
Aravind Srinivas
CEO und Mitbegründer von Perplexity
Lösung | Reduzieren der Modelltrainingszeit um bis zu 40 % mit Amazon SageMaker HyperPod
AWS bot Perplexity eine einmonatige Testversion an, um Möglichkeiten für verteiltes Training zu demonstrieren. Dabei entdeckte das Unternehmen die Vorteile der Nutzung von AWS. Zum Beispiel gewann Perplexity an Flexibilität bei der Ressourcenzuweisung; es verwendet verschiedene Amazon-EC2-Instance-Typen und GPUs, die auf bestimmte Aufgaben zugeschnitten sind.
Um ML-Modelle zu trainieren, benötigt Perplexity große Mengen an Arbeitsspeicher, um riesige Datenmengen ausführen und verschiedene Gradienten speichern zu können. Es entschied sich für Amazon-EC2-P4de-Instances, welche die höchste Leistung für ML-Training und Hochleistungs-Datenverarbeitungsanwendungen bieten, um Trainingsaufträge auszuführen und die Speicher- und Bandbreitenanforderungen zu erfüllen. Durch die Verwendung von Amazon SageMaker HyperPod überträgt Perplexity Daten zwischen verschiedenen GPUs viel schneller, wodurch die Trainingszeit für ML-Modelle um bis zu 40 % reduziert wurde.
„Die integrierten, parallelen Daten- und Modellbibliotheken von Amazon SageMaker HyperPod halfen uns, die Trainingszeit auf GPUs zu optimieren und den Trainingsdurchsatz zu verdoppeln,“ sagt Srinivas. Dadurch können unsere Trainingsexperimente jetzt doppelt so schnell ablaufen, wodurch unsere Entwickler schneller iterieren könne. Das beschleunigt die Entwicklung neuer generativer AI-Erlebnisse für unsere Kunden.“ Da Amazon SageMaker HyperPod den Cluster-Zustand automatisch überwacht und GPU-Ausfälle behebt, können sich unsere Entwickler auf die Modellentwicklung konzentrieren, anstatt Zeit mit der Verwaltung und Optimierung der zugrundeliegenden Infrastruktur zu verbringen.“
Perplexity zielt darauf ab, schnelle und genaue Antworten auf Benutzeranfragen zu geben, wofür Inferenzfunktionen nahezu in Echtzeit erforderlich sind. Mithilfe der Amazon-EC2-P5-Instances – die GPU-basierte Instances mit der höchsten Leistung für Deep-Learning-Anwendungen bieten – kann Perplexity Antworten mit einem viel höheren Durchsatz als zuvor generieren. Tatsächlich kann das Unternehmen Spitzenzeiten mit 10 000 gleichzeitigen Benutzern und über 100 000 Abfragen pro Stunde bewältigen, ohne die Latenz oder das Benutzererlebnis zu beeinträchtigen. Perplexity hostet auch das öffentlich verfügbare Llama-2-Modell auf Amazon-EC2-P5-Instances und verwendet Amazon SageMaker HyperPod, um das Open-Source-Modell mithilfe seiner eigenen Daten zu optimieren. Die Feinabstimmung von Modellen trägt dazu bei, die Genauigkeit und Relevanz der Antworten zu verbessern und das Modell an die Anforderungen der Antwort-Engine von Perplexity anzupassen.
Ergebnis | Weiterentwickeln der generativen AI mithilfe der AWS-Infrastruktur und AI/ML-Services
Aufbauend auf seinen Erfolgen ist Perplexity bereit, neue Wege in der generativen AI zu beschreiten. Im Rahmen seiner zukunftsorientierten Strategie wird das Unternehmen mit AWS Trainium, einem leistungsstarken ML-Trainingsbeschleuniger, experimentieren, um den Trainingsdurchsatz weiter zu verbessern. Perplexity hat auch eine API eingeführt, um Benutzern den Zugriff auf seine große Sprachmodelle zu ermöglichen, die vollständig in AWS ausgeführt werden und von Amazon SageMaker HyperPod optimiert wurden.
Um seine Wissensbasis zu erweitern und seinen Benutzern genauere Antworten zu geben, hat Perplexity auch Amazon Bedrock eingeführt, einen vollständig verwalteten Service, der eine Auswahl an leistungsstarken Basismodellen führender KI-Unternehmen mit einer einzigen API bietet. Zum Beispiel hat Perplexity damit begonnen, Claude 2 über Amazon Bedrock zu verwenden, um erweiterte Funktionen für Codierung, Mathematik und Argumentation in seinen Service zu integrieren.
„Bei AWS liegt die Macht in den Händen des Kunden“, sagt Srinivas. „Es gibt keine Anforderungen, welche Services Sie nutzen müssen. Das AWS-Team sagt uns immer: „Tun Sie, was für Ihre Kunden am besten ist. Tun Sie, was für Ihr Unternehmen am besten ist.“ Diese Kundenorientierung ist es, was wir an AWS wirklich lieben.“
Über Perplexity
Perplexity entwickelt eine funktionale und dialogorientierte Antwort-Engine, die darauf optimiert ist, Benutzern zu helfen, Wissen zu finden, anstatt Werbung und Schlüsselwörter zu liefern.
Genutzte AWS-Services
Amazon SageMaker HyperPod
AmazonSageMaker HyperPod befreit Sie von der aufwändigen Arbeit, die mit dem Aufbau und der Optimierung der Infrastruktur für Machine Learning (ML) zum Training von Basismodellen (FMs) verbunden ist, und reduziert die Trainingszeit um bis zu 40 %.
Amazon-EC2-P5-Instances
Amazon Elastic Compute Cloud (Amazon EC2)-P5-Instances, betrieben mit den neuesten NVIDIA-H100-Tensor-Core-GPUs, bieten Höchstleistung in Amazon EC2 für Deep Learning (DL)- und High Performance Computing (HPC)-Anwendungen.
Amazon-EC2-P4de-Instances
P4de-Instances werden von 8 NVIDIA A100-GPUs mit 80 GB hochleistungsfähigem HBM2e-GPU-Speicher betrieben, doppelt so viel wie die GPUs in unseren aktuellen P4d-Instances.
Amazon Bedrock
Amazon Bedrock ist ein vollständig verwalteter Service, der über eine einzige API eine Auswahl an leistungsstarken Basismodellen (FMs) von führenden AI-Unternehmen wie AI21 Labs, Anthropic, Cohere, Meta, Stability AI und Amazon sowie eine breite Auswahl an Funktionen bietet, die Sie für die Entwicklung von generativen AI-Anwendungen mit Sicherheit, Datenschutz und verantwortungsvoller AI benötigen.
Weitere Kundenberichte zu Software und Internet
Erste Schritte mit Amazon SageMaker im kostenlosen Kontingent
Im Rahmen des kostenlosen AWS-Kontingents können Sie Amazon SageMaker zum Einstieg kostenlos verwenden. Ihr zwei Monate langes kostenloses Kontingent startet mit dem ersten Monat, nachdem Sie Ihre erste SageMaker-Ressource erstellt haben.