Erste Schritte mit Amazon Machine Learning

Kostenloses Konto erstellen

12 Monate lang Zugriff auf das kostenlose Kontingent von AWS sowie AWS Support-Funktionen der Stufe "Basic" mit Kundenservice rund um die Uhr, Support-Foren und vielen weiteren Vorteilen.

Beachten Sie, dass Amazon Machine Learning derzeit nicht unter das kostenlose Kontingent für AWS fällt.

F: Was ist Amazon Machine Learning?

Amazon Machine Learning ist ein maschineller Service, mit dem Sie auf einfache Art Prognoseanwendungen einschließlich Betrugserkennung, Nachfrageprognosen und Klickprognosen erstellen können. Amazon Machine Learning nutzt leistungsfähige Algorithmen, mit denen Sie Modelle für das maschinelle Lernen erstellen können, indem Sie Muster in vorhandenen Daten finden und mithilfe dieser Muster Prognosen aus neuen Daten erstellen, sobald diese verfügbar werden. Die AWS Management Console und die API bieten Tools zur Daten- und Modellvisualisierung. Außerdem stellen sie Assistenten bereit, die Sie beim Erstellen von Modellen für das maschinelle Lernen, bei der Qualitätsprüfung und bei der Feinabstimmung der Prognosen unterstützen, um die Anforderungen Ihrer Anwendung zu erfüllen. Wenn die Modelle erstellt wurden, können Sie Prognosen für Ihre Anwendung mithilfe der einfachen API abrufen, ohne benutzerdefinierte Codes zur Prognosegenerierung zu implementieren oder Infrastrukturen verwalten zu müssen. Amazon Machine Learning ist hochgradig skalierbar, kann Milliarden von Prognosen generieren und diese in Echtzeit mit hohem Durchsatz bereitstellen. Für die Nutzung von Amazon Machine Learning sind keine Einrichtungskosten erforderlich. Sie bezahlen für das, was Sie nutzen, können also klein beginnen und skalieren, wenn Ihre Anwendung wächst.

F: Was kann ich mit Amazon Machine Learning tun?

Mit Amazon Machine Learning können Sie eine Vielzahl von Prognoseanwendungen erstellen. Sie können Amazon Machine Learning beispielsweise zum Erstellen von Anwendungen benutzen, die verdächtige Transaktionen melden, betrügerische Bestellungen entdecken, Nachfrage vorhersagen, Inhalte personalisieren, Benutzeraktivitäten vorhersagen, Rezensionen filtern, soziale Medien verfolgen, Text analysieren und Artikel empfehlen.

F: Was ist machinelles Lernen?

Maschinelles Lernen (ML) ist eine Technologie, die Sie dabei unterstützt, Verlaufsdaten für informierte Geschäftsentscheidungen zu nutzen. ML-Algorithmen entdecken Muster in Daten und entwickeln mathematische Modelle mithilfe dieser Muster. Anschließend können Sie diese Modelle nutzen, um Prognosen über zukünftige Daten aufzustellen. Eine mögliche Anwendung des maschinellen Lernens besteht beispielsweise darin, aufgrund von erfolgreichen und fehlgeschlagenen Käufen in der Vergangenheit betrügerische Transaktionen zu entdecken.

F: Was sind die ersten Schritte mit Amazon Machine Learning?

Am besten beginnen Sie mit Amazon Machine Learning, indem Sie dem Tutorial im Amazon Machine Learning Developer Guide folgen. Das Tutorial führt Sie durch das Erstellen eines Modells für maschinelles Lernen anhand einer Beispieldatenmenge, durch das Bewerten dieses Modells und durch seinen Einsatz zum Erstellen von Prognosen. Nach Abschluss des Tutorials können Sie mit Amazon Machine Learning Ihre eigenen ML-Modelle erstellen. Weitere Informationen finden Sie in den Dokumenten Amazon Machine Learning Developer Guide und Amazon Machine Learning API Reference.

F: Was sind Trainingsdaten?

Trainingsdaten werden zum Erstellen von Modellen für maschinelles Lernen verwendet. Sie bestehen aus bekannten Datenpunkten aus der Vergangenheit. Sie können Amazon Machine Learning verwenden, um Muster aus diesen Daten abzuleiten und anhand der Muster Modelle für maschinelles Lernen zu erstellen.

F: Was ist das Zielattribut?

Das Zielattribut ist ein spezielles Attribut in den Trainingsdaten, das die Informationen enthält, die Amazon Machine Learning vorherzusagen versucht. Angenommen, Sie möchten ein Modell erstellen, das vorhersagt, ob eine Transaktion betrügerisch sein wird oder nicht. Ihre Trainingsdaten enthalten Metadaten einer vergangenen Transaktion, wobei es ein Zielattribut mit dem Wert „1“ gibt, wenn die Transaktion von der Bank endgültig abgelehnt wurde, andernfalls mit dem Wert „0“. Sie verwenden Amazon Machine Learning, um Muster zu entdecken, die das Zielattribut mit den Metadaten verbindet (alle anderen Attribute). Sie verwenden ML-Modelle, die auf diesen Mustern beruhen, um eine Prognose zu erstellen, ohne dass das Zielattribut vorhanden ist. In diesem Beispiel wird aufgrund der Metadaten vorhergesagt, ob eine Transaktion betrügerisch sein wird, bevor bekannt ist, ob die Bank die Transaktion ablehnt oder nicht.

F: Welchen Algorithmus verwendet Amazon Machine Learning, um Modelle zu generieren?

Amazon Machine Learning verwendet zurzeit einen logistischen Regressionsalgorithmus gemäß Branchenstandard, um Modelle zu generieren.

F: In welchen AWS-Regionen ist Amazon Machine Learning verfügbar?

Eine Liste der unterstützten AWS-Regionen für Amazon Machine Learning erhalten Sie in der Tabelle zu den AWS-Regionen für die gesamte globale AWS-Infrastruktur.  Weitere Informationen erhalten Sie außerdem unter Regionen und Endpunkte in der allgemeinen AWS-Referenz.

F: Wie ist die Serviceverfügbarkeit von Amazon Machine Learning?

Amazon Machine Learning ist für hohe Verfügbarkeit konzipiert. Es gibt keine Wartungsfenster und keine geplanten Ausfallzeiten. Die API für Modelltraining, Bewertung und Batch-Prognosen wird in den bewährten Hochverfügbarkeits-Rechenzentren von Amazon ausgeführt. Die Replizierung des Service-Stacks arbeitet an drei Standorten in jeder AWS-Region und bietet so eine Fehlertoleranz bei eventuellen Ausfällen von Server oder Verfügbarkeitszone.

F: Welche Sicherheitsmaßnahmen gibt es bei Amazon Machine Learning?

Amazon Machine Learning stellt sicher, dass ML-Modelle und andere Systembestandteile sowohl bei der Übertragung als auch im inaktiven Zustand verschlüsselt sind. Anforderungen an die Amazon Machine Learning API und die Konsole werden über eine sichere SSL-Verbindung gesendet. Sie können AWS Identity and Access Management (AWS IAM) verwenden, um zu steuern, welche IAM-Benutzer Zugriff auf bestimmte Aktionen und Ressourcen von Amazon Machine Learning haben.

Zurück zum Seitenanfang >>

F: Wo speichere ich meine Daten?

Sie können Amazon Machine Learning verwenden, um Ihre Daten von drei Stellen zu lesen: (a) eine oder mehrere Dateien in Amazon S3, (b) Ergebnisse einer Amazon Redshift-Abfrage, (c) Ergebnisse einer RDS-Abfrage (Amazon Relational Database Service) einer Datenbank, die mit der MySQL-Engine läuft. Daten anderer Produkte können normalerweise in Amazon S3 in CSV-Dateien exportiert werden, sodass sie für Amazon Machine Learning verfügbar sind. Detaillierte Anweisungen für die Konfiguration von Berechtigungen, mit denen Amazon Machine Learning in die Lage versetzt wird, auf die unterstützten Datenspeicher zuzugreifen, finden Sie im Amazon Machine Learning Developer Guide.

F: Gibt es Grenzen für die Größe der Datenmenge, die ich für das Training verwenden kann?

Amazon Machine Learning kann Modelle mit Datenmengen von bis zu 100 GB trainieren.

F: Wie kann ich erfahren, ob meine Daten fehlerhaft sind?

Mit Amazon Machine Learning können Sie Fehler im Datenformat entdecken. Die Funktion zur Dateneinsicht auf der Servicekonsole von Amazon Machine Learning hilft Ihnen, tiefer liegende Fehler in Ihren Daten zu finden, beispielsweise Felder, die leer sind oder unerwartete Werte enthalten. Amazon Machine Learning kann ML trainieren und genaue Prognosen generieren, auch wenn eine geringe Zahl von Datenfehlern dieser beiden Arten vorliegt. Damit können Ihre Anforderungen erfolgreich sein, sogar wenn einige der beobachteten Daten ungültig oder falsch sind.

F: Was kann ich tun, wenn meine Daten unvollständig sind oder Informationen fehlen?

Es ist am besten, immer dafür zu sorgen, dass Ihre Daten so vollständig und genau wie möglich sind. Die Lernalgorithmen von Amazon Machine Learning tolerieren unvollständige oder fehlende Informationen in geringem Umfang ohne Beeinträchtigung der Modellqualität. Mit steigender Zahl der Fehler nimmt die Modellqualität ab. Amazon Machine Learning bearbeitet Ihre Anforderung zum Trainieren des Modells nicht weiter, wenn die Anzahl der Datensätze, deren Verarbeitung fehlschlägt, entweder über 10.000 oder bei über 10 % aller Datensätze der Datenmenge liegt.

Um unvollständige oder fehlende Daten zu korrigieren, müssen Sie zur Master-Datenquelle zurückkehren und entweder die Daten an dieser Quelle korrigieren oder die Beobachtungen mit unvollständigen oder fehlenden Daten aus den Datenmengen ausschließen, die zum Trainieren der Amazon Machine Learning-Modelle verwendet werden. Wenn Sie beispielsweise feststellen, dass einige Zeilen einer Amazon Redshift-Tabelle ungültige Werte enthalten, können Sie die Abfrage zur Auswahl der Daten für Amazon Machine Learning ändern, um diese Zeilen auszuschließen.

F: Wie kann ich wissen, ob mein Modell genaue Prognosen liefert?

Amazon Machine Learning bietet leistungsfähige Funktionen zur Modellbewertung. Sie können Amazon Machine Learning verwenden, um eine Bewertungskennzahl gemäß Branchenstandard für jedes Ihrer Modelle zu berechnen, was Ihnen beim Verständnis der Prognosequalität dieser Modelle hilft. Außerdem können Sie mithilfe von Amazon Machine Learning sicherstellen, dass die Modellbewertung unverfälscht ist, indem Sie einen Teil der Trainingsdaten für Bewertungszwecke ausschließen. Damit wird sichergestellt, dass das Modell nicht aufgrund von Datenpunkten bewertet wird, die es während des Trainings verarbeitet hat. Die Servicekonsole von Amazon Machine Learning bietet leistungsfähige, bedienungsfreundliche Tools zum Erforschen und Verstehen der Ergebnisse von Modellbewertungen.

F: Wie kann ich mein Modell anpassen, wenn es nicht die gewünschten Ergebnisse liefert?

Die beste Methode zum Verbessern der Modellqualität besteht darin, beim Training des Modells mehr Daten und Daten mit höherer Qualität zu benutzen. Mehr Beobachtungen, zusätzliche Arten von Informationen (Funktionen) und das Transformieren Ihrer Daten, um den Lernprozess zu optimieren (Funktionskonstruktion), sind großartige Methoden zum Verbessern der Prognosegenauigkeit von Modellen. Mithilfe von Amazon Machine Learning können Sie viele Prototypenmodelle erstellen und die integrierten Datenprozessoren von Amazon Machine Learning verwenden, um verschiedene häufige Arten von Funktionkonstruktionen so einfach zu machen wie das Ändern einer Zeile in der integrierten „Rezept“-Sprache. Außerdem kann Amazon Machine Learning automatisch ein empfohlenes Rezept zur Datentransformation auf der Basis Ihrer Daten erstellen, wenn Sie ein neues Datenquellenobjekt erstellen, das auf Ihre Daten verweist. Dieses Rezept wird auf der Basis Ihrer Dateninhalte automatisch optimiert.

Amazon Machine Learning bietet weiterhin mehrere Parameter zum Anpassen des Lernprozesses: (a) Zielgröße des Modells, (b) Anzahl von Durchläufen mit den Daten, (c) Typ und Umfang der Regularisierung, die auf das Modell angewendet wird. Die Standardeinstellungen von Amazon Machine Learning sind für viele realitätsnahe ML-Aufgaben gut geeignet, aber sie können erforderlichenfalls über die Servicekonsole oder die API angepasst werden.

Schließlich sollte noch ein wichtiger Aspekt der Modellanpassung berücksichtigt werden, nämlich wie die Prognosen Ihrer ML-Modelle von Ihrer Anwendung interpretiert werden, damit die Modelle optimal an die Unternehmensziele angepasst werden können. Amazon Machine Learning hilft Ihnen beim Anpassen des Grenzwerts für die Interpretation bei binären Klassifizierungsmodellen. Dadurch können Sie fundierte Entscheidungen bei den verschiedenen Arten von Fehlern treffen, die ein trainiertes Modell machen kann. Manche Anwendungen sind beispielsweise sehr tolerant bei Falsch-Positiv-Fehlern, aber Falsch-Negativ-Fehler sind äußerst unerwünscht. Die Servicekonsole von Amazon Machine Learning hilft Ihnen bei der Anpassung des Grenzwerts, um diese Anforderung zu erfüllen. Weitere Informationen finden Sie unter Evaluating ML Models im Amazon Machine Learning Developer Guide.

F: Kann ich meine Modelle aus Amazon Machine Learning exportieren?

Nein.

F: Kann ich vorhandene Modelle in Amazon Machine Learning importieren?

Nein.

F: Muss Amazon Machine Learning eine permanente Kopie meiner Daten anlegen, um Modelle für maschinelles Lernen zu erstellen?

Nein. Amazon Machine Learning benötigt nur Lesezugriff auf Ihre Daten, um die vorhandenen Muster zu finden und zu extrahieren sowie sie in ML-Modellen zu speichern. ML-Modelle sind keine Kopien Ihrer Daten. Beim Zugriff auf Daten, die in Amazon Redshift oder Amazon RDS gespeichert sind, exportiert Amazon Machine Learning die Abfrageergebnisse an einen S3-Speicherort Ihrer Wahl und liest dann diese Ergebnisse aus S3. Diese temporäre Datenkopie verbleibt vollständig in Ihrem Eigentum und Sie können sie löschen, nachdem Amazon Machine Learning beendet ist.

Zurück zum Seitenanfang >>

F: Wie erhalte ich Prognosen für meine Anwendungen, wenn mein Modell fertig ist?

Mit Amazon Machine Learning können Sie Prognosen auf zwei Arten abrufen: mit der Batch-API oder der Echtzeit-API. Die Batch-API wird verwendet, um Prognosen für eine große Anzahl von Eingabedatensätzen anzufordern. Die API arbeitet offline und liefert alle Prognosen auf einmal. Die Echtzeit-API wird verwendet, um Prognosen für einzelne Eingabedatensätze anzufordern. Die Prognosen werden sofort geliefert. Die Echtzeit-API kann bei hohem Durchsatz verwendet werden und sie generiert mehrere Prognosen gleichzeitig als Antwort auf parallele Anforderungen.

Jedes mit Amazon Machine Learning erstellte ML-Modell kann über die Batch-API oder die Echtzeit-API erstellt werden. Die Auswahl bleibt Ihnen überlassen und hängt nur von den Anforderungen Ihrer Anwendung ab. Normalerweise wird die Batch-API für Anwendungen, die mit einer großen Anzahl von Datensätzen arbeiten, und die Echtzeit-API für interaktive Web-, Mobil- oder Desktopanwendungen verwendet.

F: Wie schnell kann die Echtzeit-API von Amazon Machine Learning Prognosen generieren?

Die meisten Anforderungen für Echtzeitprognosen liefern innerhalb von 100 Millisekunden eine Antwort und sind damit schnell genug für interaktive Web-, Mobil- oder Desktopanwendungen. Wie viel Zeit die Echtzeit-API genau benötigt, um eine Prognose zu generieren, hängt vom Umfang der Eingabedatensätze und der Komplexität des Datenverarbeitungs-“Rezepts“ ab, das mit dem ML-Modell für die Prognosegenerierung verknüpft ist.

F: Wie viele gleichzeitige Echtzeit-API-Anforderungen unterstützt Amazon Machine Learning?

Jedem ML-Modell, das für Echtzeitprognosen eingerichtet ist, wird eine Endpunkt-URL zugewiesen. Sie können standardmäßig bis zu 200 Transaktionen pro Sekunde (TPS) von jedem Echtzeit-Prognoseendpunkt anfordern. Bitte wenden Sie sich an den Kunden-Support, wenn diese Obergrenze für Ihre Anwendung nicht ausreicht.

F: Wie schnell kann Amazon Machine Learning Batch-Prognosen liefern?

Die Batch-API für Prognosen ist schnell und effizient. Wie viel Zeit für die Batch-Prognoseergebnisse benötigt wird, hängt von mehreren Faktoren ab. Dazu gehören unter anderen: (a) Umfang der Eingabedaten, (b) Komplexität des Datenverarbeitungs-“Rezepts“, das mit dem ML-Modell für die Prognosegenerierung verknüpft ist, (c) Anzahl der anderen Batch-Aufträge (Datenverarbeitung, Modelltraining, Bewertung und sonstige Batch-Verarbeitungsanforderungen), die in Ihrem Konto ausgeführt werden. Amazon Machine Learning führt standardmäßig bis zu fünf Batch-Aufträge gleichzeitig durch. Bitte wenden Sie sich an den Kunden-Support, wenn diese Obergrenze für Ihre Anwendung nicht ausreicht.

F: Wie kann ich die Leistung meiner Prognosen überwachen?

Die Überwachung der Prognoseleistung geschieht hauptsächlich auf zwei Arten: (a) Überwachen des Umfangs des Datenverkehrs durch Batch- und Echtzeitprognosen, (b) Überwachen der Qualität der Prognosemodelle.

Sie können den Umfang des Prognose-Datenverkehrs überwachen, indem Sie die Kennzahlen von Amazon CloudWatch auswerten, die von Amazon Machine Learning in Ihr CloudWatch-Konto übertragen werden. Für jede ML-Modell-ID, die während des Überwachungszeitraums Batch- oder Echtzeitprognosen erhalten hat, veröffentlicht Amazon Machine Learning die Anzahl von Datensätzen, für die erfolgreich Prognosen erstellt wurden, und die Anzahl von ML-Datensätzen, deren Auswertung fehlgeschlagen ist, wodurch keine Prognose erstellt wurde.

Eine Best Practice zur Überwachung der Qualität Ihres ML-Modells im Zeitverlauf besteht darin, regelmäßig zufällig Datensätze auszuwählen, die von Ihrer Anwendung für eine Prognose eingereicht wurden, dann die echten Ergebnisse zu besorgen (auch als „Ziele“ benannt) und schließlich Amazon Machine Learning zu verwenden, um eine Bewertung der Ergebnisdatenmenge durchzuführen. Amazon Machine Learning vergleicht die Ziele mit den generierten Prognosen und berechnet daraus eine Kennzahl für die Modellqualität. Falls Sie feststellen, dass die Qualität der Prognosen im Zeitverlauf nachlässt, ist dies ein Anzeichen dafür, dass Sie wahrscheinlich ein neues Modell mit neuen Datenpunkten trainieren müssen, da die Daten zum ursprünglichen Trainieren des Modells nicht mehr mit der realen Welt übereinstimmen. Wenn Ihr ML-Modell beispielsweise zum Entdecken betrügerischer Transaktionen verwendet wird, könnten Sie möglicherweise feststellen, dass die Qualität im Lauf der Zeit nachlässt, weil neue Methoden beim Transaktionsbetrug eingesetzt werden, die zum Zeitpunkt des Modelltrainings noch nicht bekannt waren. Sie können diesem Trend entgegensteuern, indem Sie ein neues ML-Modell mit Beispielen der neuesten betrügerischen Transaktionen trainieren und Amazon Machine Learning damit in die Lage versetzen, die Muster zu erkennen, mit denen solche Transaktionen identifiziert werden.

Zurück zum Seitenanfang >>