AWS Germany – Amazon Web Services in Deutschland
Das DeepSeek-R1-Modell ist jetzt im Amazon Bedrock Marketplace und Amazon SageMaker JumpStart verfügbar
von Vivek Gangasani, Banu Nagasundaram, Jonathan Evans, und Niithiyn Vijeaswaran übersetzt durch David Surey
Vor Kurzem haben wir bekannt gegeben, dass das erste Frontier-Modell der ersten Generation von DeepSeek AI[EXTERN,EN], DeepSeek-R1[EXTERN,EN], über Amazon SageMaker JumpStart und den Amazon Bedrock Marketplace für den Inferenz-Einsatz verfügbar ist. Mit diesem Launch können Sie jetzt DeepSeek AIs erste Generation des Frontier-Modells, DeepSeek-R1, zusammen mit den destillierten Versionen von 1,5 bis 70 Milliarden Parametern einsetzen, um Ihre generativen KI-Ideen auf AWS zu entwickeln, zu testen und verantwortungsvoll zu skalieren.
In diesem Beitrag zeigen wir, wie Sie mit DeepSeek-R1 auf Amazon Bedrock und SageMaker JumpStart beginnen können. Sie können ähnliche Schritte ausführen, um auch die destillierten Versionen der Modelle zu deployen.
Überblick über DeepSeek-R1
DeepSeek-R1 ist ein von DeepSeek-AI[EN,EXTERN] entwickeltes großes Sprachmodell (LLM), das Verstärkungslernen (reinforcement learning) einsetzt, um die Argumentationsfähigkeiten durch einen mehrstufigen Trainingsprozess aus einer DeepSeek-V3-Base-Grundlage zu verbessern. Ein wichtiges Unterscheidungsmerkmal ist der Schritt des Verstärkungslernens (RL), der verwendet wurde, um die Antworten des Modells über den Standard-Vortrainings- und Feinabstimmungsprozess hinaus zu verfeinern. Durch die Einbeziehung von RL kann sich DeepSeek-R1 effektiver an Benutzerfeedback und -ziele anpassen und letztendlich sowohl die Relevanz als auch die Klarheit verbessern. Darüber hinaus verwendet DeepSeek-R1 einen Chain-of-Thought (CoT)[EXTERN,EN]-Ansatz, was bedeutet, dass es in der Lage ist, komplexe Anfragen aufzuschlüsseln und schrittweise durchzudenken. Dieser geführte Denkprozess ermöglicht es dem Modell, genauere, transparentere und detailliertere Antworten zu produzieren. Dieses Modell kombiniert RL-basierte Feinabstimmung (fine tuning) mit CoT-Fähigkeiten und zielt darauf ab, strukturierte Antworten zu generieren, wobei der Fokus auf Interpretierbarkeit und Benutzerinteraktion liegt. Mit seinen vielfältigen Fähigkeiten hat DeepSeek-R1 die Aufmerksamkeit der Industrie als vielseitiges Textgenerierungsmodell auf sich gezogen, das in verschiedene Arbeitsabläufe wie Agenten, logisches Denken und Dateninterpretationsaufgaben integriert werden kann.
DeepSeek-R1 verwendet eine Mischung-von-Experten ( Mixture of Experts) (MoE)-Architektur und hat eine Größe von 671 Milliarden Parametern. Die MoE-Architektur ermöglicht die Aktivierung von 37 Milliarden Parametern und ermöglicht eine effiziente Inferenz, indem Anfragen an die relevantesten Experten-„Cluster“ weitergeleitet werden. Dieser Ansatz ermöglicht es dem Modell, sich auf verschiedene Problembereiche zu spezialisieren und gleichzeitig eine hohe Effizienz zu erhalten. DeepSeek-R1 benötigt mindestens 800 GB HBM-Speicher im FP8-Format für die Inferenz. In diesem Beitrag verwenden wir eine ml.p5e.48xlarge-Instanz, um das Modell bereitzustellen. ml.p5e.48xlarge verfügt über 8 Nvidia H200 GPUs, die 1128 GB GPU-Speicher bieten.
Die destillierten DeepSeek-R1-Modelle übertragen die Schlussfolgerungsfähigkeiten des Haupt-R1-Modells auf effizientere Architekturen, die auf beliebten Open-Source-Modellen wie Qwen (1,5B, 7B, 14B und 32B) und Llama (8B und 70B) basieren. Destillation beschreibt einen Prozess, bei dem kleinere, effizientere Modelle trainiert werden, um das Verhalten und die Denkmuster des größeren DeepSeek-R1-Modells nachzuahmen, das dabei als Lehrermodell fungiert.
Sie können das DeepSeek-R1-Modell entweder über Amazon SageMaker JumpStart oder den Amazon Bedrock Marketplace bereitstellen. Da DeepSeek-R1 ein aufstrebendes Modell ist, empfehlen wir, dieses Modell mit Schutzmaßnahmen ( Guardrails) bereitzustellen. In diesem Blogartikel verwenden wir Amazon Bedrock Guardrails, um Sicherheitsvorkehrungen einzuführen, schädliche Inhalte zu verhindern und Modelle anhand wichtiger Sicherheitskriterien zu bewerten. Zum Zeitpunkt des Verfassens dieses Blogs unterstützt Bedrock Guardrails für DeepSeek-R1-Bereitstellungen auf Amazon SageMaker JumpStart und Amazon Bedrock Marketplace nur die ApplyGuardrail-API. Sie können mehrere Schutzmaßnahmen erstellen, die auf verschiedene Anwendungsfälle zugeschnitten sind, und sie auf das DeepSeek-R1-Modell anwenden. Dies dient dazu die Benutzererfahrungen zu verbessern und Sicherheitskontrollen über Ihre generativen KI-Anwendungen hinweg zu standardisieren.
Voraussetzungen
Um das DeepSeek-R1-Modell bereitzustellen, benötigen Sie Zugang zu einer ml.p5e-Instanz. Um zu überprüfen, ob Sie Kontingente für P5e haben, öffnen Sie die Service Quotas-Konsole und wählen Sie unter AWS Services, Amazon SageMaker aus. Bestätigen Sie hier, dass Sie ml.p5e.48xlarge für die Endpunktnutzung verwenden können. Stellen Sie sicher, dass Sie mindestens eine ml.P5e.48xlarge-Instanz in der AWS-Region haben, in der Sie bereitstellen. Um eine Erhöhung des Limits zu beantragen, erstellen Sie eine Anfrage zur Limiterhöhung und wenden Sie sich an Ihr AWS Account Team.
Da Sie dieses Modell mit Amazon Bedrock Guardrails bereitstellen werden, stellen Sie sicher, dass Sie die korrekten AWS Identity and Access Management (IAM)-Berechtigungen haben, um Amazon Bedrock Guardrails zu verwenden. Anweisungen finden Sie unter Berechtigungen für die Verwendung von Guardrails zur Inhaltsfilterung einrichten.
Implementierung von Guardrails mittels der ApplyGuardrail-API
Amazon Bedrock Guardrails ermöglicht es Ihnen, Sicherheitsvorkehrungen einzuführen, schädliche Inhalte zu verhindern und Modelle anhand wichtiger Sicherheitskriterien zu bewerten. Sie können Sicherheitsmaßnahmen für das DeepSeek-R1-Modell mithilfe der Amazon Bedrock ApplyGuardrail
-API implementieren. Dies ermöglicht es Ihnen, Schutzmaßnahmen anzuwenden, um Benutzereingaben und Modellantworten zu bewerten, die auf Amazon Bedrock Marketplace und SageMaker JumpStart bereitgestellt wurden. Sie können eine Schutzmaßnahme über die Amazon Bedrock-Konsole oder die API erstellen. Beispielcode zum Erstellen der Schutzmaßnahme finden Sie in unserem GitHub-Repository[EXTERN,EN].
Der allgemeine Ablauf umfasst die folgenden Schritte: Zunächst erhält das System eine Eingabe für das Modell. Diese Eingabe wird dann durch die ApplyGuardrail
-API verarbeitet. Wenn die Eingabe die Schutzmaßnahmenprüfung besteht, wird sie zur Inferenz an das Modell gesendet. Nach Erhalt der Ausgabe des Modells wird eine weitere Schutzmaßnahmenprüfung durchgeführt. Wenn die Ausgabe diese letzte Prüfung besteht, wird sie als endgültiges Ergebnis zurückgegeben. Wenn jedoch entweder die Eingabe oder die Ausgabe von der Schutzmaßnahme beeinflusst wird, wird eine Meldung zurückgegeben. Diese gibt die Art der Intervention und ob sie in der Eingabe- oder Ausgabephase erfolgte an. Die in den folgenden Abschnitten gezeigten Beispiele demonstrieren die Inferenz unter Verwendung dieser API.
Bereitstellung von DeepSeek-R1 mittels Amazon Bedrock Marketplace
Der Amazon Bedrock Marketplace bietet Ihnen Zugang zu über 100 beliebten, aufstrebenden und spezialisierten Basismodellen (FMs) über Amazon Bedrock. Um auf DeepSeek-R1 in Amazon Bedrock zuzugreifen, führen Sie die folgenden Schritte aus:
- Wählen Sie in der Amazon Bedrock-Konsole unter Basismodelle im Navigationsbereich Modellkatalog aus.
Zum Zeitpunkt der Erstellung dieses Beitrags können Sie dieInvokeModel
API verwenden, um das Modell aufzurufen. Es unterstützt keine Converse-APIs und andere Amazon Bedrock-Tools. - Filtern Sie nach DeepSeek als Anbieter und wählen Sie das DeepSeek-R1-Modell aus.
Die Modelldetailseite bietet wesentliche Informationen über die Fähigkeiten des Modells, die Preisstruktur und Implementierungsrichtlinien. Sie finden detaillierte Nutzungsanweisungen, einschließlich Beispiel-API-Aufrufen und Code-Snippets für die Integration. Das Modell unterstützt verschiedene Textgenerierungsaufgaben, einschließlich Inhaltserstellung, Codegenerierung und Beantwortung von Fragen. Dies alles unter Verwendung seiner Optimierung durch verstärkendes Lernen und CoT-Reasoning-Fähigkeiten.
Die Seite enthält auch Bereitstellungsoptionen und Lizenzinformationen, um Ihnen den Einstieg mit DeepSeek-R1 in Ihren Anwendungen zu erleichtern. - Um mit der Nutzung von DeepSeek-R1 zu beginnen, wählen Sie Bereitstellen.
Sie werden aufgefordert, die Bereitstellungsdetails für DeepSeek-R1 zu konfigurieren. Die Modell-ID wird vorausgefüllt sein. - Geben Sie für Endpunktname einen Endpunktnamen ein (zwischen 1–50 alphanumerische Zeichen).
- Geben Sie für Anzahl der Instanzen eine Anzahl von Instanzen ein (zwischen 1–100).
- Wählen Sie für Instanztyp Ihren Instanztyp aus. Für optimale Leistung mit DeepSeek-R1 wird ein GPU-basierter Instanztyp wie ml.p5e.48xlarge empfohlen.
Optional können Sie erweiterte Sicherheits- und Infrastruktureinstellungen konfigurieren, einschließlich Virtual Private Cloud (VPC)-Netzwerke, Dienstrollenberechtigungen und Verschlüsselungseinstellungen. Für die meisten Anwendungsfälle funktionieren die Standardeinstellungen gut. Für Produktionsbereitstellungen möchten Sie diese Einstellungen jedoch möglicherweise überprüfen, um sie an die Sicherheits- und Compliance-Anforderungen Ihrer Organisation anzupassen. - Wählen Sie Bereitstellen, um mit der Nutzung des Modells zu beginnen.
Wenn die Bereitstellung abgeschlossen ist, können Sie die Fähigkeiten von DeepSeek-R1 direkt im Amazon Bedrock-Playground testen. - Wählen Sie Im Playground öffnen, um auf eine interaktive Oberfläche zuzugreifen, in der Sie mit verschiedenen Prompts experimentieren und Modellparameter wie Temperatur und maximale Länge anpassen können.
Verwenden Sie bei der Nutzung von R1 mit Bedrocks InvokeModel und Playground Console für optimale Ergebnisse DeepSeeks Chat-Vorlage. Zum Beispiel<|begin▁of▁sentence|><|User|>content for inference<|Assistant|>
.
Dies ist eine hervorragende Möglichkeit, die Reasoning- und Textgenerierungsfähigkeiten des Modells zu erkunden, bevor Sie es in Ihre Anwendungen integrieren. Der Playground bietet sofortiges Feedback und hilft Ihnen zu verstehen, wie das Modell auf verschiedene Eingaben reagiert, und ermöglicht es Ihnen, Ihre Prompts für optimale Ergebnisse zu verfeinern.
Sie können das Modell schnell im Playground über die Benutzeroberfläche testen. Um das bereitgestellte Modell jedoch programmatisch mit einer Amazon Bedrock-API aufzurufen, benötigen Sie die Endpunkt-ARN.
Führen Sie Inferenz mit Guardrails mit dem bereitgestellten DeepSeek-R1-Endpunkt durch
Das folgende Codebeispiel zeigt, wie man Inferenz mit einem bereitgestellten DeepSeek-R1-Modell über Amazon Bedrock unter Verwendung der invoke_model
und ApplyGuardrail
API durchführt. Sie können eine Leitplanke über die Amazon Bedrock-Konsole oder die API erstellen. Für den Beispielcode zum Erstellen der Leitplanke besuchen sie unser GitHub-Repository[EXTERN,EN]. Nachdem Sie die Leitplanke erstellt haben, verwenden Sie den folgenden Code, um Leitplanken zu implementieren. Das Skript initialisiert den bedrock_runtime
Client, konfiguriert Inferenzparameter und sendet eine Anfrage zur Generierung von Text basierend auf einem Benutzer-Prompt.
Bereitstellen von DeepSeek-R1 mit Amazon SageMaker JumpStart
Amazon SageMaker JumpStart ist eine Machine Learning (ML)-Platform mit FMs, integrierten Algorithmen und vorgefertigten ML-Lösungen, die Sie mit nur wenigen Klicks bereitstellen können. Mit SageMaker JumpStart können Sie vortrainierte Modelle an Ihren Anwendungsfall anpassen, mit Ihren Daten, und sie entweder über die Benutzeroberfläche oder das SDK in die Produktion bringen.
Die Bereitstellung des DeepSeek-R1-Modells über SageMaker JumpStart bietet zwei bequeme Ansätze: Verwendung der intuitiven SageMaker JumpStart-Benutzeroberfläche oder programmatische Implementierung über das SageMaker Python SDK. Lassen Sie uns beide Methoden erkunden, um Ihnen bei der Auswahl des für Ihre Bedürfnisse am besten geeigneten Ansatzes zu helfen.
Bereitstellen von DeepSeek-R1 über die SageMaker JumpStart-Benutzeroberfläche
Führen Sie die folgenden Schritte aus, um DeepSeek-R1 mit SageMaker JumpStart bereitzustellen:
- Wählen Sie in der SageMaker-Konsole im Navigationsbereich Studio aus.
- Erstbenutzer werden aufgefordert, eine Domain zu erstellen.
- Wählen Sie in der SageMaker Studio-Konsole im Navigationsbereich JumpStart aus.
Der Modell-Browser zeigt verfügbare Modelle an, mit Details wie dem Anbieternamen und den Modellfähigkeiten.
- Suchen Sie nach DeepSeek-R1, um die DeepSeek-R1-Modellkarte anzuzeigen.
Jede Modellkarte zeigt wichtige Informationen, einschließlich:- Modellname
- Anbietername
- Aufgabenkategorie (z.B. Textgenerierung)
- Bedrock Ready-Abzeichen (falls zutreffend), das anzeigt, dass dieses Modell bei Amazon Bedrock registriert werden kann, sodass Sie Amazon Bedrock-APIs verwenden können, um das Modell aufzurufen
- Wählen Sie die Modellkarte aus, um die Modelldetailseite anzuzeigen.
Die Modelldetailseite enthält die folgenden Informationen:- Den Modellnamen und Anbieterinformationen
- Bereitstellen-Schaltfläche zum Bereitstellen des Modells
- Über– und Notebooks-Registerkarten mit detaillierten Informationen
Der Tab Über enthält wichtige Details wie:
- Modellbeschreibung
- Lizenzinformationen
- Technische Spezifikationen
- Nutzungsrichtlinien
Bevor Sie das Modell bereitstellen, wird empfohlen, die Modelldetails und Lizenzbedingungen zu überprüfen, um die Kompatibilität mit Ihrem Anwendungsfall zu bestätigen.
- Wählen Sie Bereitstellen, um mit der Bereitstellung fortzufahren.
- Verwenden Sie für Endpunktname den automatisch generierten Namen oder erstellen Sie einen benutzerdefinierten.
- Wählen Sie für Instanztyp einen Instanztyp aus (Standard: ml.p5e.48xlarge).
- Geben Sie für Anfängliche Instanzanzahl die Anzahl der Instanzen ein (Standard: 1).
Die Auswahl geeigneter Instanztypen und -anzahlen ist entscheidend für die Kosten- und Leistungsoptimierung. Überwachen Sie Ihre Bereitstellung, um diese Einstellungen bei Bedarf anzupassen. Unter Inferenztyp ist Echtzeit-Inferenz standardmäßig ausgewählt. Dies ist für anhaltenden Datenverkehr und geringe Latenz optimiert. - Überprüfen Sie alle Konfigurationen auf Richtigkeit. Für dieses Modell empfehlen wir dringend, sich an die Standardeinstellungen von SageMaker JumpStart zu halten und sicherzustellen, dass die Netzwerkisolierung bestehen bleibt.
- Wählen Sie Bereitstellen, um das Modell bereitzustellen.
Der Bereitstellungsprozess kann mehrere Minuten dauern.
Wenn die Bereitstellung abgeschlossen ist, ändert sich Ihr Endpunktstatus zu InService. An diesem Punkt ist das Modell bereit, Inferenzanfragen über den Endpunkt zu akzeptieren. Sie können den Bereitstellungsfortschritt auf der Seite Endpunkte der SageMaker-Konsole überwachen, die relevante Metriken und Statusinformationen anzeigt. Wenn die Bereitstellung abgeschlossen ist, können Sie das Modell mithilfe eines SageMaker-Laufzeitclients aufrufen und in Ihre Anwendungen integrieren.
Bereitstellen von DeepSeek-R1 mit dem SageMaker Python SDK
Um mit DeepSeek-R1 unter Verwendung des SageMaker Python SDK zu beginnen, müssen Sie das SageMaker Python SDK installieren und sicherstellen, dass Sie über die erforderlichen AWS-Berechtigungen und ein paasendes Umgebungs-Setup verfügen. Das folgende Schritt-für-Schritt-Codebeispiel zeigt, wie Sie DeepSeek-R1 programmatisch für Inferenz bereitstellen und verwenden können. Der Code für die Bereitstellung des Modells ist in unserem Github Repository [EXTERN,EN] verfügbar. Sie können das Notebook klonen und von SageMaker Studio aus ausführen.
Sie können zusätzliche Anfragen an den Predictor stellen:
Implementieren von Leitplanken und Durchführen von Inferenz mit Ihrem SageMaker JumpStart-Predictor
Ähnlich wie bei Amazon Bedrock können Sie auch die ApplyGuardrail
-API mit Ihrem SageMaker JumpStart-Predictor verwenden. Sie können eine Leitplanke über die Amazon Bedrock-Konsole oder die API erstellen und sie wie im folgenden Code gezeigt implementieren:
Aufräumen
Um unerwünschte Kosten zu vermeiden, führen Sie die Schritte in diesem Abschnitt aus.
Löschen der Amazon Bedrock Marketplace-Bereitstellung
Wenn Sie das Modell über den Amazon Bedrock Marketplace bereitgestellt haben, führen Sie die folgenden Schritte aus:
- Wählen Sie in der Amazon Bedrock-Konsole unter Foundation Models im Navigationsbereich Marketplace-Bereitstellungen aus.
- Suchen Sie im Abschnitt Verwaltete Bereitstellungen den Endpunkt, den Sie löschen möchten.
- Wählen Sie den Endpunkt aus und wählen Sie im Menü Aktionen die Option Löschen.
- Überprüfen Sie die Endpunktdetails, um sicherzustellen, dass Sie die richtige Bereitstellung löschen:
- Endpunktname
- Modellname
- Endpunktstatus
- Wählen Sie Löschen, um den Endpunkt zu löschen.
- Überprüfen Sie im Bestätigungsdialog für das Löschen die Warnmeldung, geben Sie
confirm
ein und wählen Sie Löschen, um den Endpunkt dauerhaft zu entfernen.
Löschen des SageMaker JumpStart-Predictors
Das von Ihnen bereitgestellte SageMaker JumpStart-Modell verursacht Kosten, solange Sie es weiterlaufen lassen. Verwenden Sie den folgenden Code, um den Endpunkt zu löschen, wenn Sie keine weiteren Kosten verursachen möchten. Weitere Details finden Sie unter Endpunkte und Ressourcen löschen.
Fazit
In diesem Beitrag haben wir untersucht, wie Sie auf das DeepSeek-R1-Modell zugreifen und es mithilfe des Amazon Bedrock Marketplace und Amazon SageMaker JumpStart bereitstellen können. Besuchen Sie jetzt SageMaker JumpStart in SageMaker Studio oder den Amazon Bedrock Marketplace, um loszulegen. Weitere Informationen finden Sie unter Verwenden von Amazon Bedrock-Tools mit Amazon SageMaker JumpStart-Modellen[EN], SageMaker JumpStart vortrainierte Modelle, Amazon SageMaker JumpStart Foundation Models, Amazon Bedrock Marketplace und Erste Schritte mit Amazon SageMaker JumpStart.
Über die Autor:Innen
![]() |
Vivek Gangasani ist Lead Specialist Solutions Architect für Inferenz bei AWS. Er hilft aufstrebenden Generative-KI-Unternehmen beim Aufbau innovativer Lösungen mit AWS-Diensten und beschleunigtem Computing. Derzeit konzentriert er sich auf die Entwicklung von Strategien für das Fine-Tuning und die Optimierung der Inferenz-Leistung von großen Sprachmodellen. In seiner Freizeit wandert Vivek gerne, schaut Filme und probiert verschiedene Küchen aus. |
![]() |
Niithiyn Vijeaswaran ist Generative AI Specialist Solutions Architect im Third-Party Model Science Team bei AWS. Sein Schwerpunktbereich sind AWS KI-Beschleuniger (AWS Neuron). Er hat einen Bachelor-Abschluss in Informatik und Bioinformatik. |
![]() |
Jonathan Evans ist Specialist Solutions Architect für generative KI im Third-Party Model Science Team bei AWS. |
![]() |
Banu Nagasundaram leitet Produkt, Engineering und strategische Partnerschaften für Amazon SageMaker JumpStart, SageMakers Plattform für maschinelles Lernen und generative KI. Sie ist leidenschaftlich daran interessiert, Lösungen zu entwickeln, die Kunden dabei helfen, ihre KI-Reise zu beschleunigen und geschäftlichen Mehrwert zu erschließen. |