Amazon SageMaker HyperPod unterstützt jetzt Datenerfassung für Inferenz-Workloads

Veröffentlicht am: 20. Mai 2026

Amazon SageMaker HyperPod unterstützt jetzt die Datenerfassung für Inferenz-Workloads, eine neue Funktion, die Nutzlasten von Inferenzanfragen und Antworten von Produktionsendpunkten auf Amazon S3 aufzeichnet. Kunden, die generative KI-Modelle auf HyperPod einsetzen, benötigen Einblick in die Modelleingaben und -ausgaben, um Abweichungen zu erkennen, Produktionsprobleme zu beheben, Bewertungsdatensätze zu erstellen und ihre bereitgestellten Modelle kontinuierlich zu verbessern. Bisher mussten sie jedoch benutzerdefinierte Logging-Pipelines außerhalb des Dienstes erstellen, um diese Sichtbarkeit zu erhalten.

Mit der Datenerfassung können Kunden spekulative Dekodierungsentwürfe aus ihrem realen Produktionsdatenverkehr trainieren, um eine bessere Leistung als generische Entwurfsmodelle zu erzielen, Evaluierungspipelines aus Produktionsdaten erstellen, Feinabstimmungsaufträge mit realen Eingaben versorgen und Audit Trails zur Einhaltung der Vorschriften führen. Kunden entscheiden, wo der Inferenzverkehr an jedem Endpunkt erfasst werden soll, am SageMaker-Endpunkt, am Load Balancer oder am Modell-Pod. Erfasste Daten werden asynchron an ihren Amazon S3-Bucket übertragen, ohne Inferenzen zu blockieren, und unterstützen konfigurierbares Sampling und vom Kunden verwaltete AWS-KMS-Verschlüsselung. Sie können die Datenerfassung aktivieren, wenn Sie Modelle über den HyperPod Inference Operator bereitstellen, und die erfassten Daten mit Amazon SageMaker Model Monitor und Ihren vorhandenen Workflows für Evaluierung, Feinabstimmung und Modellentwurfstraining verwenden.

Diese Funktion ist für SageMaker HyperPod-Cluster mit dem EKS-Orchestrator in allen AWS-Regionen verfügbar, in denen SageMaker HyperPod unterstützt wird. Weitere Informationen finden Sie unter Datenerfassung für Inferenz auf HyperPod.