Entwicklung

Höchst genaue Schulungsdatensätze zusammenstellen

Mit Amazon SageMaker Ground Truth können Sie im Handumdrehen dank Machine Learning höchst genaue Schulungsdatensätze zusammenstellen und die Kosten für die Datenkennzeichnung um bis zu 70 Prozent senken. Erfolgreiche Machine-Learning-Modelle werden mit gekennzeichneten Daten trainiert, um dem Modell beizubringen, wie es richtige Entscheidungen trifft. Dieser Prozess dauert oft mehrere Monate und erfordert die Arbeit zahlreicher Menschen. SageMaker Ground Truth bietet eine innovative Lösung zur Verringerung der Kosten und der Komplexität. Gleichzeitig wird Machine Learning mit einem menschlichen Kennzeichnungsverfahren, dem aktiven Lernen, kombiniert, was die Genauigkeit der Datenkennzeichnung erhöht. 

Weitere Informationen

Verwaltete Notebooks für Erstellungsmodelle

Amazon SageMaker bietet vollständig verwaltete Instances mit Jupyter-Notebooks zur Erkundung und Vorverarbeitung von Trainingsdaten. Diese Notebooks sind vorab mit CUDA- und cuDNN-Treibern für bekannte Deep Learning-Plattformen, Anaconda-Paketen und Bibliotheken für TensorFlow, Apache MXNet, PyTorch und Chainer geladen. 

Das gängige Open-Source-Notebook-Format Jupyter ermöglicht mit nur einem Mausklick Zugriff auf eine vollständig verwaltete Notebook-Umgebung für maschinelles Lernen.

In diesen Notebook-Workspaces können Sie Ihre Daten erkunden und die Ergebnisse mithilfe beliebter Bibliotheken, Frameworks und Schnittstellen in wiederverwendbaren Workflows dokumentieren. Innerhalb des Notebooks können Sie Ihre bereits in Amazon S3 gespeicherten Daten verwenden. Mit AWS Glue können Sie außerdem mühelos Daten aus Amazon RDS, Amazon DynamoDB und Amazon Redshift zur Analyse in S3 verschieben. Sie können ein Notebook erstellen oder importieren oder eines der zahlreichen vordefinierten und bereits in Amazon SageMaker geladenen Notebooks verwenden. Diese vordefinierten Notebooks stehen für alle integrierten Machine Learning-Algorithmen zur Verfügung. Darüber hinaus stehen Ihnen Notebook-Vorlagen zur Verfügung, die Ihnen die ersten Schritte mit gängigen ML-Anwendungen und erweiterten Funktionen von Amazon SageMaker erleichtern. 

Integrierte, leistungsstarke Algorithmen

Amazon SageMaker bietet leistungsstarke, skalierbare Machine Learning-Algorithmen, die für Geschwindigkeit, Skalierung und Genauigkeit optimiert sind. Diese Algorithmen können Trainings für Datensätze im Petabyte-Bereich durchführen und bieten eine bis zu 10-fache Leistung im Vergleich zu anderen Implementierungen. Sie können überwachte Algorithmen nutzen, bei denen die richtigen Antworten während des Trainings bekannt sind, und das Modell bei Fehlern entsprechend anweisen. Amazon SageMaker enthält überwachte Algorithmen wie XGBoost und lineare/logistische Regression oder Klassifikation, um Problemen im Zusammenhang mit Empfehlungen und Zeitreihenvorhersagen zu begegnen. Amazon SageMaker unterstützt zudem unüberwachtes Lernen (d. h. die Algorithmen müssen die richtigen Antworten selbst ermitteln), wie bei der k-Means-Clusteranalyse und der Hauptkomponentenanalyse (Principal Component Analysis, PCA), um Probleme wie die Ermittlung von Kundengruppen anhand des Kaufverhaltens zu lösen.

Amazon SageMaker stellt Ihnen die gängigsten Machine Learning-Algorithmen automatisch zur Verfügung. Sie müssen lediglich Ihre Datenquelle angeben und können dann sofort k-Means-Clusteranalysen zur Datensegmentierung, Factorization Machines für Empfehlungen, Zeitreihenprognosen, lineare Regressionen oder PCAs durchführen. 

BlazingText Word2Vec Die BlazingText-Implementierung des Algorithmus Word2Vec ermöglicht die Skalierung und Beschleunigung der Generierung von Worteinbettungen aus einer Vielzahl von Dokumenten.
DeepAR Dies ist ein Algorithmus, der präzise Prognosen generiert. Hierfür lernt er mithilfe rekurrenter neuraler Netzwerke (RNNs) Muster aus zahlreichen zugehörigen Zeitreihen.
Factorization Machines Dieses Modell kann alle Interaktionen zwischen Merkmalen auch anhand sehr kleiner Datenmengen abschätzen.
Gradient Boosted Trees (XGBoost) XGBoost, kurz für "Extreme Gradient Boosting", ist eine optimierte, verteilte Gradient Boosting-Bibliothek.
Bildklassifikation (ResNet) Dies ist ein gängiges neuronales Netz zur Entwicklung von Bildklassifikationssystemen.
IP-Einblicke Ein Algorithmus zur Erkennung böswilliger Benutzer oder Ermittlung von Nutzungsmustern von IP-Adressen.
k-Means-Clustering Dies ist einer der einfachsten ML-Algorithmen, der zur Ermittlung von Gruppen in Daten ohne Text verwendet wird.
K-Nearest Neighbor (k-NN) Ein indexbasierter Algorithmus zur Behebung von klassifizierungs- und regressionsbasierten Problemen.

Latent Dirichlet Allocation (LDA)

Dieses Modell eignet sich sehr gut zur automatischen Ermittlung der Hauptthemen in einer Gruppe von Textdateien.
Lineares Lernen (Klassifikation) Bei der linearen Klassifikation wird anhand der Merkmale eines Objekts die Gruppe ermittelt, der das Objekt angehört.
Lineares Lernen (Regression) Mithilfe der linearen Regression wird die lineare Beziehung zwischen zwei Variablen vorhergesagt.
Neural Topic Modeling (NTM) Dieser Ansatz zum Erlernen von Themen anhand von Text- und Bilddatensätzen basiert auf neuronalen Netzen.
Object2Vec Ein neural-einbettender Algorithmus zur Berechnung der nächsten Nachbarn und Visualisierung natürlicher Cluster.
Objekterkennung Erkennt, klassifiziert und platziert Rahmen um mehrere Objekte in einem Bild.
Hauptkomponentenanalyse (Principal Component Analysis, PCA) Dieser häufig bei der Vorverarbeitung von Daten verwendete Algorithmus reduziert eine Tabelle oder Matrix mit einer großen Anzahl von Merkmalen auf eine kleinere Anzahl repräsentativer Merkmale.
Random Cut Forest Ein nicht überwachter Algorithmus für maschinelles Lernen zur Erkennung von Anomalien.
Semantische Segmentierung
Partitioniert ein Bild, um interessante Plätze durch die Kennzeichnung der einzelnen Pixel des Bildes zu identifizieren.
Seqence2Sequence Dieser Codierer/Decodierer für allgemeine Zwecke kann für Text verwendet werden, der häufig bei maschineller Übersetzung, Textzusammenfassung usw. Anwendung findet.

Diese Algorithmen wurden so optimiert, dass sie die 10-fache Leistung herkömmlicher Implementierungen erzielen. Möglich ist dies unter anderem dadurch, dass die Algorithmen aufgrund ihrer Implementierung bereits analysierte Daten nicht erneut analysieren müssen. Auf herkömmliche Weise implementierte Algorithmen referenzieren häufig dieselben Datensätze mehrmals. Bei kleinen Datensätzen ist dies nicht weiter problematisch; bei größeren Datensätzen kann das Training dadurch jedoch erheblich verlangsamt werden. Indem nur ein einziger Durchgang erforderlich ist, sind effiziente und kostengünstige Trainings mit Datensätzen im Petabyte-Bereich möglich. 

Breite Framework-Unterstützung

Amazon SageMaker konfiguriert und optimiert TensorFlow, Apache MXNet, Chainer, PyTorch, Scikit-learn und SparkML automatisch, sodass Sie diese Frameworks ohne vorherige Einrichtung verwenden können. In den kommenden Monaten werden außerdem weitere gängige Frameworks ergänzt. Sie können jedoch jederzeit beliebige Frameworks in Amazon SageMaker verwenden, indem Sie es in einen Docker-Container integrieren und diesen in der Amazon EC2 Container Registry speichern.

Unterstützung des verstärkendes Lernens mit Amazon SageMaker RL

Neben dem klassischen überwachten und unüberwachten Lernen unterstützt Amazon SageMaker auch das verstärkende Lernen. Bei SageMaker sind jetzt vollständig verwaltete Algorithmen für das verstärkende Lernen integriert, darunter einige der neuesten und leistungsstärksten Algorithmen der akademischen Literatur. SageMaker unterstützt verstärkendes Lernen in zahlreichen Frameworks, darunter TensorFlow und MXNet, sowie in neueren Frameworks, die von Grund auf für das verstärkende Lernen ausgelegt sind, wie Intel Coach oder Ray RL. Unterstützt werden mehrere 2D- und 3D-Physics-Simulationsumgebungen, darunter auch Umgebungen, die auf der Open-Source-Schnittstelle OpenGym basieren. Darüber hinaus ermöglicht SageMaker RL das Trainieren mit virtuellen 3D-Umgebungen, die mit Amazon Sumerian und Amazon RoboMaker erstellt wurden. Um Ihnen den Einstieg zu erleichtern, bietet SageMaker auch zahlreiche Beispiel-Notebooks und Tutorials. 

Machine Lernen fällt größtenteils in die Kategorie "überwachtes Lernen". Für diese Methode ist eine große Menge an gekennzeichneten Trainingsdaten erforderlich, aber die erstellten Modelle können ausgereifte Entscheidungen treffen. Das ist der gängige Ansatz mit Computer-Visions-, Rede- und Sprachmodellen. Eine weitere gängige, aber seltener genutzte Kategorie von Machine Learning wird als "unüberwachtes Lernen" bezeichnet. Dabei versuchen Algorithmen, eine verborgene Struktur in nicht gekennzeichneten Daten zu erkennen. Das Trainieren eines unüberwachten Modells ist deutlich einfacher, dafür kann das Modell nicht so ausgereifte Entscheidungen treffen. Unüberwachte Modelle werden häufig genutzt, um Anomalien in Daten zu erkennen, z. B. ungewöhnliche Schwankungen der Temperatur oder Anzeichen eines Netzwerk-Eindringversuchs.

Mit dem verstärkenden Lernen ist ein dritter, ergänzender Machine-Learning-Ansatz aufgekommen. Er unterscheidet sich stark von den anderen Trainingsmodellen. Das verstärkende Lernen erfordert praktisch keine gekennzeichneten Trainingsdaten, kann die menschliche Ausgereiftheit aber dennoch erreichen (und in einigen Fällen übertreffen). Der größte Vorteil des verstärkenden Lernens besteht darin, dass es lernen kann, eine komplexe Serie an Verhaltensweisen so zu modellieren, dass ein bestimmtes Ergebnis herauskommt, anstatt einfach eine einzige Entscheidung zu treffen. Zu den gängigsten Anwendungen des verstärkenden Lernens gehört heute das Trainieren autonomer Fahrzeuge, zu einem Ziel zu navigieren.

Eine einfache Möglichkeit, die Funktionsweise des verstärkenden Lernens zu verstehen, ist die Vorstellung eines einfachen Videospiels, bei dem eine Figur durch ein Labyrinth laufen und dabei Fahnen sammeln und Feinden aus dem Weg gehen muss. Statt eines menschlichen Spielers steuert der Algorithmus die Figur und spielt Millionen von Spielrunden. Der Algorithmus muss zunächst lediglich wissen, dass sich die Figur nach oben, unten, rechts und links bewegen kann und mit Punkten für Erfolge belohnt wird. Dann lernt er, wie er spielen muss, um die höchstmögliche Punktzahl zu erreichen. Er eignet sich Verhaltensweisen an, die den Punktestand verbessern (z. B. das Einsammeln von Fahnen oder das Nutzen von Punktestand-Multiplikatoren) und Strafabzüge verhindern (z. B. durch das Treffen auf einen Feind). Im Laufe der Zeit können Algorithmen für das verstärkende Lernen fortschrittliche Spielstrategien lernen, z. B., dass sie den unteren Teil des Labyrinths zuerst leeren, wann und wie sie einen Bonus verwenden und wie sie das Verhalten von Feinden ausnutzen können.

Das verstärkende Lernen kann die Leistungsstärke traditioneller Machine-Learning-Methoden drastisch verbessern. Beispielsweise wurden das verstärkende und das überwachte Lernen miteinander kombiniert, um individuelle Behandlungen in der Gesundheitspflege zu realisieren, die Lieferketten in der Fertigung zu optimieren, die Leistung von Windkraftanlagen zu steigern, selbstfahrende Autos zu steuern, Roboter sicher zu betreiben und sogar personalisierte Kurse und Lernpläne für Studierende zu schaffen.

Lokale Tests und Prototypenentwicklung

Die Open-Source-Docker-Container Apache MXNet und Tensorflow, die in Amazon SageMaker verwendet werden, sind auf Github verfügbar. Sie können diese Container in Ihre lokale Umgebung herunterladen und das Amazon SageMaker Python-SDK zum Testen Ihrer Skripts verwenden, bevor Sie sie in Amazon SageMaker-Schulungs- oder -Hosting-Umgebungen bereitstellen. Wenn Sie bereit sind, von lokalen Testläufen zu Produktions-Training und -Hosting zu wechseln, müssen Sie lediglich eine einzige Codezeile ändern.

Trainieren

Training mit nur einem Mausklick

Wenn Sie für ein Training in Amazon SageMaker bereit sind, müssen Sie lediglich den Speicherort der Daten in Amazon S3 sowie den Typ und die Menge der benötigten Amazon SageMaker ML-Instances angeben und können das Training anschließend mit nur einem Mausklick in der Konsole starten. Amazon SageMaker richtet einen verteilten Datenverarbeitungscluster ein, führt das Training durch, gibt das Ergebnis in Amazon S3 aus und löst den Cluster nach Ende des Trainings wieder auf. 

Das Trainieren von Modellen ist mit Amazon SageMaker besonders einfach: Sie müssen lediglich den Speicherort der Daten in S3 angeben und Amazon SageMaker führt den Algorithmus für einen Trainingscluster aus, der innerhalb eines eigenen softwaredefinierten Netzwerks isoliert und Ihren Anforderungen entsprechend konfiguriert ist. Wählen Sie einfach den Instance-Typ aus – einschließlich P3-GPU-Instances, die sich ideal für schnelle und effiziente Trainings eignen – und Amazon SageMaker erstellt den Cluster in einer automatisch skalierbaren Gruppe. Außerdem können Sie jedem Knoten EBS-Volumes zuordnen, die Datenpipelines einrichten und das Training mit Ihren eigenen TensorFlow-, MXNet-, Chainer- oder PyTorch-Skripten, Amazon-eigenen Algorithmen oder Ihren eigenen Algorithmen aus dem Container starten. Nach Ende des Trainings werden die Ergebnisse in S3 ausgegeben und der Cluster wird automatisch wieder aufgelöst.

Um die Skalierung von Trainings zu erleichtern, haben wir das Training von Datenströmen aus S3 optimiert. Über die API können Sie angeben, ob alle Daten an jeden Knoten im Cluster gesendet werden sollen oder ob Amazon SageMaker die Verteilung der Daten auf die Knoten den Anforderungen des Algorithmus entsprechend verwalten soll.

In Verbindung mit den integrierten Algorithmen kann die mit Amazon SageMaker mögliche Skalierbarkeit von Trainings die Zeit und Kosten von Trainingsläufen erheblich reduzieren. 

Managed Spot Training

Mit Managed Spot Training können Sie die Kosten für das Training Ihrer Machine Learning-Modelle optimieren und bis zu 90 % sparen.

Managed Spot Training verwendet Amazon EC2 Spot-Instances, was eine freie AWS-Kapazität ist, die verwendet werden kann, um Kosten zu verwalten und bis zu 90 % zu sparen. Diese Option ist ideal, wenn Sie darin flexibel sind, wann Ihre Trainingsaufträge ausgeführt werden können. Mit Managed Spot Training verwaltet Amazon SageMaker die Spot-Kapazität, sodass Ihre Trainingsaufträge im Vergleich zu On-Demand-Instances zuverlässig zu bis zu 90 % reduzierten Kosten ausgeführt werden. Trainingsaufträge werden ausgeführt, sobald die Rechenkapazität verfügbar wird, sodass Sie nicht kontinuierlich nach Kapazität suchen müssen und keine zusätzlichen Werkzeuge erstellt werden müssen. Managed Spot Training arbeitet mit der automatischen Modelloptimierung, den integrierten Algorithmen und Rahmenbedingungen, die mit Amazon SageMaker kommen, und benutzerdefinierten Algorithmen.

Automatische Modelloptimierung

Amazon SageMaker kann das Modell automatisch optimieren, indem Tausende verschiedene Kombinationen von Algorithmusparametern angepasst werden, um die genauesten Vorhersagen zu erzielen, die mit dem Modell möglich sind. 

Die Optimierung des Modells für maximale Präzision erfordert zwei wesentliche Schritte: die Anpassung der Dateneingaben an das Modell (z. B. Logarithmus einer Zahl) und die Anpassung der Parameter des Algorithmus. Diese werden als Hyperparameter bezeichnet und die Ermittlung der richtigen Werte kann schwierig sein. In der Regel wird mit einem zufälligen Wert begonnen, der wiederholt angepasst wird, um die Auswirkungen jeder Änderung zu beobachten. Abhängig von der Anzahl der Hyperparameter im Modell kann dieser Zyklus sehr lange dauern.

Amazon SageMaker bietet für Schulungen optionales automatische Modelloptimierung an. Das vereinfacht diesen Prozess. Amazon SageMaker greift bei der Optimierung Ihres Modells für Machine Learning auf Machine-Learning-Modelle zurück. Dazu erlernt der Algorithmus die Auswirkungen verschiedener Datentypen auf das Modell und wendet dieses Wissen auf zahlreiche Kopien des Modells an, um schnell das bestmögliche Ergebnis zu ermitteln. Als Entwickler oder Datenwissenschaftler müssen Sie sich daher nur mit den gewünschten Anpassungen an den Eingabedaten für das Modell beschäftigen und können somit zahlreiche Aspekte des Trainings ignorieren.

Geben Sie zu Beginn der besten Modelloptimierung einfach über die API an, wie viele Trainings Sie planen. Amazon SageMaker kümmert sich um den Rest. 

Einmal trainieren, überall ausführen

Dank Amazon SageMaker Neo ist es möglich, dass Machine-Learning-Modelle einmal trainiert und dann überall in der Cloud und am Edge ausgeführt werden können. Normalerweise ist es äußerst schwierig, Machine-Learning-Modelle so zu optimieren, dass sie auf mehreren Plattformen ausführbar sind: Entwickler müssen die Modelle für die jeweilige Hardware- und Softwarekonfiguration jeder Plattform nämlich manuell anpassen. Dieser Zeit- und Arbeitsaufwand entfällt mit Neo durch die automatische Optimierung von TensorFlow-, MXNet-, PyTorch-, ONNX- und XGBoost-Modellen für die Bereitstellung auf ARM-, Intel- und Nvidia-Prozessoren. In Kürze wird auch die Hardware von Cadence, Qualcomm und Xilinx unterstützt. Sie können über die SageMaker-Konsole auf SageMaker Neo zugreifen und mit nur wenigen Klicks ein Modell erstellen, das für die Cloud-Instance oder das Edge-Gerät optimiert ist. Optimierte Modelle können mit bis zu doppelter Geschwindigkeit ausgeführt werden und verbrauchen weniger als ein Hundertstel des Speicherplatzes von traditionellen Modellen. 

Weitere Informationen

Modellverfolgungsfähigkeit

Mit der Modellverfolgung von Amazon SageMaker können Sie Modellversuche zum Machine Learning organisieren, finden und auswerten, bevor Sie das beste Modell für Ihren Anwendungsfall finden.

Die Entwicklung eines Modells für Machine Learning erfordert ein kontinuierliches Experimentieren mit verschiedenen Datensätzen, Algorithmen und Parameterwerten, wobei die Auswirkungen kleiner, inkrementeller Änderungen auf Leistung und Genauigkeit bewertet werden. Diese iterative Übung führt häufig zu einer Explosion von Hunderten oder sogar Tausenden von Modelltrainingsexperimenten und Modellversionen, wodurch die Konvergenz und Entdeckung des siegreichen Modells verlangsamt wird. Darüber hinaus macht es die Informationsexplosion sehr schwierig, die Herkunft einer Modellversion zurückzuverfolgen, d. H. Die einzigartige Kombination von Datensätzen, Algorithmen und Parametern, die dieses Modell ursprünglich erstellt haben.

Mit den Modellverfolgungsfunktionen von Amazon SageMaker können Sie jetzt die besten Modelle für Ihren Anwendungsfall finden, indem Sie nach wichtigen Modellattributen wie dem verwendeten Algorithmus, Parameterwerten und benutzerdefinierten Tags suchen. Mithilfe von benutzerdefinierten Tags können Sie die Modelle finden, die für ein bestimmtes Projekt geschult oder von einem bestimmten Data Science-Team erstellt wurden, und so Ihre Arbeit kategorisieren und katalogisieren. Sie können Ihre Trainingsläufe auch schnell anhand ihrer Leistungsmetriken wie Trainingsverlust und Validierungsgenauigkeit vergleichen und klassifizieren. Schließlich können Sie mit den Modellverfolgungsfunktionen schnell die gesamte Linie eines Modells zurückverfolgen, das in Live-Umgebungen eingesetzt wird, bis zu dem Datensatz, der für das Training oder die Validierung des Modells verwendet wurde.

Bereitstellen

Bereitstellung mit nur einem Mausklick

Sie können das Modell mit nur einem Mausklick auf automatisch skalierbaren Amazon ML-Instances in mehreren Availability Zones bereitstellen, um eine hohe Redundanz zu erzielen. Sie müssen lediglich den Typ der -Instance sowie die gewünschte Mindest- und Höchstzahl angeben und Amazon SageMaker übernimmt den Rest. Der Service startet die Instances, stellt das Modell bereit und richtet den sicheren HTTPS-Endpunkt für die Anwendung ein. Die Anwendung muss lediglich einen API-Aufruf an diesen Endpunkt enthalten, um mit niedriger Latenz und hohem Durchsatz Erkenntnisse zu gewinnen. Mithilfe dieser Architektur können Sie die neuen Modelle in Ihre Anwendungsdokumente integrieren, da Modelländerungen keine Änderungen am Anwendungscode mehr erfordern. 

Vollständig verwaltetes Hosting mit Auto Scaling

Amazon SageMaker übernimmt die Verwaltung der Produktions-Datenverarbeitungsinfrastruktur (Zustandsprüfungen durchführen, Sicherheitspatches einspielen und andere routinemäßige Wartungsaufgaben). Dabei sind die Überwachungs- und Protokollierungsfunktionen von Amazon CloudWatch integriert. 

Batch-Transformation

Durch die Batch-Transformation können Sie anhand von großen oder kleinen Daten-Batches Prognosen erstellen. Es ist dabei nicht erforderlich, den Datensatz in einzelne Blöcke zu unterteilen oder Echtzeitendpunkte zu verwalten. Sie können mit einer einfachen API Prognosen für eine große Anzahl von Datensätzen anfordern und diese Daten leicht und schnell umwandeln.

 

Inferenz-Pipeline

Mit Amazon SageMaker können Sie Inferenz-Pipelines bereitstellen, um unformatierte Eingabedaten weiterzugeben und die Vorverarbeitung, Voraussagen und Nachverarbeitung bei Echtzeit- und Stapel-Interferenz-Anforderungen auszuführen. Inferenz-Pipelines können aus jedem beliebigen Machine-Learning-Framework, integrierten Algorithmus oder aus benutzerdefinierten Containern bestehen, die auf Amazon SageMaker nutzbar sind. Sie können Pipelines für die Funktionsdatenverarbeitung und das Funktionsengineering mit einer Suite an Funktionsumwandlern erstellen, die in den SparkML- und Scikit-learn-Framework-Containern in Amazon SageMaker verfügbar sind. Diese Pipelines können Sie dann als Teil der Inferenz-Pipelines bereitstellen, um Datenverarbeitungscode wiederzuverwenden und die Verwaltung von Machine-Learning-Prozessen zu vereinfachen.

 

Weitere Informationen zu den Amazon SageMaker-Preisen

Zur Seite mit den Preisen
Sind Sie startbereit?
Registrieren
Haben Sie Fragen?
Kontakt