AWS-KI-Chips

AWS Neuron

SDK zur Optimierung von KI und Deep Learning auf AWS Trainium und AWS Inferentia

Was ist AWS Neuron?

AWS Neuron ist der Entwickler-Stack für die Ausführung von Deep-Learning- und generativen KI-Workloads in AWS Trainium und AWS Inferentia. Neuron basiert auf einer Open-Source-Grundlage und ermöglicht es Entwicklern, nativ mit PyTorch- und JAX-Frameworks sowie mit ML-Bibliotheken wie HuggingFace, vLLM, PyTorch Lightning und anderen zu entwickeln, bereitzustellen und zu erkunden, ohne Ihren Code zu ändern. AWS Neuron umfasst einen Compiler, Laufzeit-, Trainings- und Inferenzbibliotheken sowie Entwicklertools für Überwachung, Profilerstellung und Debugging. Neuron unterstützt Ihren durchgängigen Entwicklungszyklus für Machine Learning (ML), angefangen bei der Erstellung und Bereitstellung von Deep-Learning- und KI-Modellen über die Optimierung zur Erzielung höchster Leistung und niedrigster Kosten bis hin zu tiefgründigeren Erkenntnissen über das Modellverhalten.

Neuron ermöglicht schnelles Experimentieren, das Training von Frontier-Modellen im Produktionsmaßstab, Leistungsoptimierung auf niedriger Ebene durch das Neuron Kernel Interface (NKI) für benutzerdefinierte Kernel, den kostenoptimierten Einsatz von Inferenzen für agentenbasierte KI- und Reinforcement-Learning-Workloads sowie umfassendes Profiling und Debugging mit Neuron Explorer.

An abstract illustration of a human head silhouette filled with colorful geometric data patterns and lines, representing artificial intelligence and machine learning concepts.

Entwickelt für Forscher

Neuron ermöglicht schnelle KI-Forschung, indem der native PyTorch-Code unverändert auf Trainium ausgeführt wird. Mit der Unterstützung des PyTorch Eager-Modus können Forscher neue Ideen ausprobieren und schnell iterieren. Die Skalierung ist mit den verteilten PyTorch-Bibliotheken wie FSDP, DDP und DTensor einfach, um Modelle chipübergreifend zu teilen oder auf mehrere Knoten zu skalieren. Neuron unterstützt torch.compile und Bibliotheken wie TorchTitan und HuggingFace Transformers funktionieren jetzt ohne Änderungen direkt in Trainium. Außerdem können JAX-Entwickler Neuron verwenden, um ihre Modelle einfach zu entwickeln, zu optimieren und auf Inferentia und Trainium bereitzustellen.

Weitere Informationen

Abstract digital illustration featuring concentric rings of pink brick-like segments on a dark blue background, representing AWS security, identity, and compliance concepts.

Entwickelt für Produktivität

Neuron optimiert die Inferenzökonomie für agentenbasierte KI- und Reinforcement-Learning-Workloads. Standard-vLLM V1-APIs funktionieren auf Trainium und Inferentia mit sofort einsatzbereiter Hochleistung mit Features wie Expert Parallelism, disaggregierter Inferenz und spekulativer Dekodierung sowie optimierten Kerneln aus der Neuron Kernel Library, um die Token-Wirtschaftlichkeit im großen Maßstab zu maximieren.  ML-Entwickler können mit HuggingFace Optimum Neuron, PyTorch Lightning und TorchTitan trainieren und dann Inferenz mit Standard-vLLM-APIs bereitstellen.

A vibrant abstract background featuring a pattern of colorful rectangular shapes arranged in horizontal rows, with various shades of blue, red, purple, pink, and yellow.

Entwickelt für Innovation

Die Entwicklung von KI-Modellen erfordert sowohl schnelle Innovation als auch Leistungsoptimierung. Standard-Frameworks wie PyTorch machen es zwar einfach, Experimente zu skalieren, aber um die Leistungsgrenzen zu überschreiten, muss der gesamte Stack (Chip, Server und UltraServer) optimiert werden. Neuron bietet ML-Leistungsingenieuren beispiellosen Zugriff auf unsere AWS-KI-Chips über das Neuron Kernel Interface (NKI), tiefere Einblicke durch den Neuron Explorer und unsere optimierte Kernel-Bibliothek namens Neuron Kernel Library (NKILib). NKI bietet APIs für Speicherzuweisung und Ausführungsplanung sowie direkten Zugriff auf das Trainium ISA, sodass die Programmierung auf Befehlsebene gesteuert werden kann. Der NKI Compiler ist Open Source, basiert auf MLIR und bietet Entwicklern Erkenntnisse über die gesamte Compiler-Pipeline. Die Open-Source-Neuron Kernel Library bietet optimierte Implementierungen mit Quellcode, Dokumentation und Benchmarks. Neuron Explorer bietet eine einheitliche Suite von Tools, die Entwickler auf ihrem Weg zur Leistungsoptimierung und zum Debuggen begleiten. Leistungsingenieure können die Ausführung vom Quellcode bis hin zum Hardwarebetrieb verfolgen, Profile von Einzelknoten- und verteilten Anwendungen erstellen und KI-gestützte Einblicke und umsetzbare Empfehlungen für Kerneloptimierungen und Leistungsverbesserungen erhalten.

Abstract illustration featuring various geometric shapes, such as triangles, circles, rectangles, and grids, in gradient pastel yellow and purple tones on a lavender background. Arrows and dotted lines add motion and connectivity, suitable for themes of application integration and creative design.

Entwickelt für Open Source

KI-Innovationen gedeihen in offenen Communities, in denen Entwickler sie überprüfen, modifizieren und Beiträge leisten können. Neuron engagiert sich für die Open-Source-Community und fördert Innovationen. Während wir mehr Teile unseres Stacks auf Open Source, NKI Compiler, Neuron Kernel Driver, Neuron Kernel Library, NxD Inference, Neuron Explorer und PyTorch verlagern, sind JAX- und vLLM-Integrationen heute vollständig als Open Source verfügbar. Open-Source-Bibliotheken und -Tools ermöglichen es Entwicklern, Compiler-Implementierungen zu überprüfen, Optimierungen beizutragen und Kernelcode ohne Barrieren anzupassen. Entwickeln Sie Ihre Projekte mit uns!

An abstract background featuring flowing, multicolored waves beneath a variety of geometric shapes (such as circles, rectangles, hexagons, and triangles) on a dark backdrop. The image visually suggests data visualization, analytics, or machine learning concepts.

Neuron kennenlernen

Neuron bietet eine native Integration mit PyTorch, sodass Forscher und ML-Entwickler vorhandenen Code unverändert auf Trainium ausführen können. Standard-APIs wie FSDP, DDP und DTensor funktionieren nahtlos für verteiltes Training in Einrichtungen mit mehreren Knoten. Beliebte ML-Bibliotheken wie TorchTitan, HuggingFace Optimum Neuron, PyTorch Lightning und andere werden direkt mit minimalen Änderungen ausgeführt. Trainieren Sie Modelle mit vertrauten Workflows und Tools, vom vor dem Training bis nach dem Training mit Reinforcement Learning, und nutzen Sie gleichzeitig die Leistungs- und Kostenvorteile von Trainium sowohl für Experimente als auch für Schulungen im Produktionsmaßstab.

Neuron ermöglicht die Bereitstellung von Produktionsinferenzen mit Standard-Frameworks und APIs auf Trainium und Inferentia. Die vLLM-Integration mit Standard-APIs bietet eine leistungsstarke Bereitstellung mit optimierten Kerneln aus der Neuron Kernel Library. Erweiterte Features wie Expert Parallelism, disaggregierte Inferenz und spekulative Dekodierung maximieren die Anzahl der Token pro Sekunde und minimieren gleichzeitig die Kosten pro Token. Stellen Sie agentenbasierte KI- und Reinforcement-Learning-Workloads in großem Maßstab mit sofort einsatzbereiten Leistungsoptimierungen bereit.

Für Leistungsingenieure, die maximale Hardwareeffizienz anstreben, bietet Neuron die vollständige Kontrolle über das Neuron Kernel Interface (NKI) mit direktem Zugriff auf den NeuroNISA-Befehlssatz, Speicherzuweisung und Ausführungsplanung. Entwickler können neue Operationen erstellen, die in Standard-Frameworks nicht verfügbar sind, und leistungskritischen Code mit benutzerdefinierten Kerneln optimieren. Der Open-Source-NKI-Compiler, der auf MLIR basiert, bietet Transparenz in den Kompilierungsprozessen. Die Neuron Kernel Library bietet produktionsbereite, optimierte Kernel mit vollständigem Quellcode, Dokumentation und Benchmarks.

Neuron Explorer bietet eine einheitliche Suite von Tools, die Entwickler auf ihrem Weg zur Leistungsoptimierung und zum Debuggen begleiten. Durch die Konsolidierung von Profiling, Debugging, Implementierung von Optimierungen und Validierung von Verbesserungen in einer einzigen Umgebung vermeidet Neuron Explorer Zeitverluste durch fragmentierte Tools. Hierarchisches Profiling mit Codeverknüpfung für PyTorch, JAX und NKI verfolgt die Ausführung vom Quellcode bis hin zu Hardwareoperationen. KI-gestützte Empfehlungen analysieren Profile, um Engpässe zu identifizieren und umsetzbare Erkenntnisse für Sharding-Strategien und Kernel-Optimierungen zu liefern. Die Benutzeroberfläche ist Open Source auf GitHub.

Neuron bietet umfassende Überwachungs- und Beobachtbarkeitsfunktionen, die es ML-Entwicklern und MLOps-Teams ermöglichen, die betriebliche Exzellenz bei Produktionseinsätzen aufrechtzuerhalten. Die native Amazon-CloudWatch-Integration ermöglicht die zentrale Überwachung der gesamten ML-Infrastruktur mit Unterstützung für containerisierte Anwendungen auf Kubernetes und Amazon EKS. Partnerplattformintegrationen mit Tools wie Datadog erweitern die Beobachtbarkeit um einheitliche Überwachung, Protokollierung und Warnmeldungen. Neuron bietet Hilfsprogramme wie Neuron-Top für die Echtzeitüberwachung, Neuron Monitor für die Erfassung von Metriken, neuron-ls für die Geräteliste und Neuron Sysfs für detaillierte Systeminformationen.

Neuron vereinfacht die Bereitstellung für ML-Entwickler und MLOps-Teams mit vorkonfigurierten Umgebungen und Infrastruktur-Tools. Neuron Deep Learning AMIs (DLAMIs) und Deep Learning Container (DLCs) sind mit dem Neuron-Softwarestack, beliebten Frameworks und wichtigen Bibliotheken ausgestattet. Für Kubernetes-Bereitstellungen verwaltet das Neuron Device Plugin die Ressourcenzuweisung, die Neuron Scheduler Extension sorgt für eine intelligente Workload-Platzierung und der Dynamic Resource Allocation (DRA)-Treiber abstrahiert die Komplexität der Hardwaretopologie mit einer intuitiven größenbasierten Ressourcenauswahl. Helm-Charts optimieren die Orchestrierung für containerisierte Bereitstellungen.

Mit Neuron entwickeln

Verwenden von Amazon Machine Images für Deep Learning

Neuron Deep Learning Amazon Machine Images (Neuron DLAMIs) sind mit dem Neuron SDK, beliebten Frameworks und hilfreichen Bibliotheken vorkonfiguriert, sodass Sie schnell mit dem Training und der Ausführung von Inferenzen in AWS Inferentia beginnen können. Neuron DLAMIs optimieren Ihren Workflow und optimieren die Leistung, indem sie die Komplexität der Einrichtung beseitigen. So können Sie sich auf die Erstellung und Bereitstellung von KI-Modellen konzentrieren. Erste Schritte mit Neuron DLAMIs.

Erste Schritte

Verwenden von Deep Learning Containers

Stellen Sie Modelle schnell mithilfe vorkonfigurierter AWS Neuron Deep Learning Container (Neuron DLCs) mit optimierten Frameworks für Trainium und Inferentia bereit. Erstellen Sie für benutzerdefinierte Lösungen Ihre eigenen Container und nutzen Sie Kubernetes-Features wie Neuron Device Plugin, Neuron Scheduler Extension und Helm-Charts. Integrieren Sie nahtlos in AWS-Services wie Amazon EKS, AWS Batch und Amazon ECS für skalierbare Bereitstellungen. Erste Schritte mit Neuron DLCs.

Erste Schritte

Verwenden von Hugging Face

Optimum Neuron verbindet Hugging Face Transformer und das AWS Neuron SDK und bietet standardmäßige Hugging-Face-APIs für Trainium und Inferentia. Es bietet Lösungen sowohl für Training als auch für Inferenz, einschließlich Unterstützung für umfangreiches Modelltraining und die Bereitstellung von KI-Workflows. Optimum Neuron unterstützt Amazon SageMaker und vorgefertigte Deep Learning Containers und vereinfacht die Verwendung von Trainium und Inferentia für ML. Diese Integration ermöglicht es Entwicklern, mit vertrauten Hugging-Face-Benutzeroberflächen zu arbeiten und gleichzeitig Trainium und Inferentia für ihre transformerbasierten Projekte zu nutzen. Erste Schritte mit Hugging Face Optimum Neuron.

Erste Schritte

Verwenden von Amazon SageMaker JumpStart

Sie können Amazon SageMaker JumpStart verwenden, um Modelle mit Neuron zu trainieren und bereitzustellen. JumpStart unterstützt die Feinabstimmung und Bereitstellung beliebter Modelle wie der Llama-Modellfamilie von Meta. Erste Schritte mit SageMaker JumpStart.

Erste Schritte

Nächste Schritte

Erste Schritte

Erste Schritte mit dem Amazon SageMaker JumpStart

Weitere Informationen

Erste Schritte

Erste Schritte mit Neuron DLAMIs in Amazon Elastic Compute Cloud (Amazon EC2)

Weitere Informationen

AWS Neuron

Was ist AWS Neuron?

Entwickelt für Forscher

Entwickelt für Produktivität

Entwickelt für Innovation

Entwickelt für Open Source

Neuron kennenlernen

Mit Neuron entwickeln

Verwenden von Amazon Machine Images für Deep Learning

Verwenden von Deep Learning Containers

Verwenden von Hugging Face

Verwenden von Amazon SageMaker JumpStart

Nächste Schritte

Erste Schritte mit dem Amazon SageMaker JumpStart

Erste Schritte mit Neuron DLAMIs in Amazon Elastic Compute Cloud (Amazon EC2)

Lernen

Ressourcen

Entwickler

Hilfe

AWS Neuron

Was ist AWS Neuron?

Entwickelt für Forscher

Entwickelt für Produktivität

Entwickelt für Innovation

Entwickelt für Open Source

Neuron kennenlernen

Training und Inferenz mit Neuron

Neuron Kernel Interface (NKI)

Neuron Explorer

Überwachung und Beobachtbarkeit

Einsatz und Infrastruktur

Mit Neuron entwickeln

Verwenden von Amazon Machine Images für Deep Learning

Verwenden von Deep Learning Containers

Verwenden von Hugging Face

Verwenden von Amazon SageMaker JumpStart

Nächste Schritte

Erste Schritte mit dem Amazon SageMaker JumpStart

Erste Schritte mit Neuron DLAMIs in Amazon Elastic Compute Cloud (Amazon EC2)

Lernen

Ressourcen

Entwickler

Hilfe