Was ist Machine Learning?

Machine Learning ist die Wissenschaft der Entwicklung von Algorithmen und statistischen Modellen, welche Computersysteme nutzen, um Aufgaben ohne explizite Anweisungen auszuführen und sich stattdessen auf Muster und Schlussfolgerungen zu stützen. Computersysteme verwenden Machine-Learning-Algorithmen, um große Mengen an historischen Daten zu verarbeiten und Datenmuster zu erkennen. Dies ermöglicht ihnen eine genauere Vorhersage von Ergebnissen auf der Grundlage eines bestimmten Eingabedatensatzes. Zum Beispiel könnten Datenwissenschaftler eine medizinische Anwendung für die Diagnose von Krebs anhand von Röntgenbildern trainieren, indem sie Millionen von gescannten Bildern und die entsprechenden Diagnosen speichern.

Warum ist Machine Learning wichtig?

Machine Learning hilft Unternehmen, ihr Wachstum zu steigern, neue Einnahmequellen zu erschließen und schwierige Herausforderungen zu bewältigen. Daten sind die treibende Kraft bei der Entscheidungsfindung in Unternehmen, doch traditionell nutzen Unternehmen Daten aus verschiedenen Quellen, wie Kundenrückmeldungen, Mitarbeiter und Finanzen. Die Machine-Learning-Forschung automatisiert und optimiert diesen Prozess. Durch die Verwendung von Software, die sehr große Volumes mit hoher Geschwindigkeit analysiert, können Unternehmen schneller Ergebnisse erzielen.

Wo wird Machine Learning eingesetzt?

Werfen wir einen Blick auf die Anwendungen von Machine Learning in einigen wichtigen Branchen:

Fertigung

Machine Learning kann die prädiktive Wartung, die Qualitätskontrolle und innovative Forschung im Fertigungssektor unterstützen. Machine-Learning-Technologie hilft Unternehmen auch bei der Verbesserung von Logistiklösungen, einschließlich Anlagen-, Lieferketten- und Bestandsmanagement. Beispielsweise nutzt der Fertigungsriese 3M AWS Machine Learning, um Schleifpapier zu innovieren. Mithilfe von Machine-Learning-Algorithmen können die Forscher von 3M analysieren, wie geringfügige Änderungen von Form, Größe und Ausrichtung die Abriebfestigkeit und Haltbarkeit verbessern. Diese Vorschläge fließen in den Herstellungsprozess ein.

Gesundheitswesen und Biowissenschaften

Die wachsende Verbreitung von Sensoren und Geräten, die am Körper getragen werden können, hat ein großes Volume an Gesundheitsdaten erzeugt. Machine-Learning-Programme können diese Informationen analysieren und Ärzte bei der Diagnose und Behandlung in Echtzeit unterstützen. Die Forscher im Bereich Machine Learning entwickeln Lösungen zur Erkennung von Krebstumoren und zur Diagnose von Augenkrankheiten, was sich erheblich auf die menschliche Gesundheit auswirkt. Cambia Health Solutions zum Beispiel nutzte AWS Machine Learning zum Support von Startups im Gesundheitswesen, um die Behandlung für schwangere Frauen zu automatisieren und anzupassen.

Finanzdienstleistungen

Machine-Learning-Projekte im Finanzbereich verbessern die Risikoanalytik und die Regulierung. Machine-Learning-Technologien können es Investoren ermöglichen, durch die Analyse von Aktienmarktbewegungen, die Bewertung von Hedgefonds oder die Kalibrierung von Finanzportfolios neue Chancen zu erkennen. Darüber hinaus kann es helfen, risikoreiche Kreditkunden zu identifizieren und Anzeichen von Betrug zu verringern.  Intuit, der führende Anbieter von Finanzsoftware, nutzt das AWS Machine-Learning-System Amazon Textract, um ein personalisierteres Finanzmanagement zu schaffen und Endbenutzern zu helfen, ihre finanzielle Verfassung zu verbessern.

Einzelhandel

Der Einzelhandel kann Machine Learning nutzen, um den Kundenservice, die Lagerverwaltung, das Upselling und das kanalübergreifende Marketing zu verbessern. Beispielsweise senkte Amazon Fulfillment (AFT) seine Infrastrukturkosten um 40 Prozent, indem es ein Machine-Learning-Modell zur Erkennung von fehlgeleiteten Beständen einsetzte. Das hilft ihnen, Amazons Versprechen einzuhalten, dass ein Artikel für die Kunden sofort verfügbar ist und pünktlich ankommt, obwohl sie jährlich Millionen von Sendungen weltweit bearbeiten.

Medien und Unterhaltung

Unterhaltungsunternehmen setzen auf Machine Learning, um ihre Zielgruppen besser zu verstehen und fesselnde und personalisierte Inhalte on demand bereitzustellen. Machine-Learning-Algorithmen werden eingesetzt, um die Gestaltung von Trailern und anderen Werbemitteln zu unterstützen, Verbrauchern personalisierte Inhaltsempfehlungen zu geben und auch die Produktion zu optimieren. 

Zum Beispiel verwendet Disney AWS Deep Learning, um seine Medienbibliothek zu archivieren. Tools von AWS Machine Learning markieren, beschreiben und sortieren Medieninhalte automatisch, sodass Disney-Autoren und -Animateure schnell nach Disney-Figuren suchen und sich mit ihnen vertraut machen können.

Wie funktioniert Machine Learning?

Die Kernidee hinter Machine Learning ist eine bestehende mathematische Beziehung zwischen einer beliebigen Kombination von Eingabe- und Ausgabedaten. Das Machine-Learning-Modell kennt die Beziehung nicht im Voraus, aber es kann sie erraten, wenn es genügend Datensätze erhält. Das bedeutet, dass jeder Machine-Learning-Algorithmus auf einer modifizierbaren mathematischen Funktion basiert. Das zugrundeliegende Prinzip kann wie folgt verstanden werden:

  1. Wir "trainieren" den Algorithmus, indem wir ihm die folgenden Eingabe/Ausgabe-Kombinationen (i,o) geben – (2,10), (5,19) und (9,31)
  2. Der Algorithmus berechnet das Verhältnis zwischen Eingabe und Ausgabe wie folgt: o=3*i+4
  3. Dann geben wir ihm die Eingabe 7 und bitten ihn, die Ausgabe vorherzusagen. Es kann automatisch die Ausgabe als 25 ermitteln.

Während es sich hierbei um ein grundlegendes Verständnis handelt, konzentriert sich Machine Learning auf das Prinzip, dass alle komplexen Datenpunkte von Computersystemen mathematisch verknüpft werden können, solange sie über genügend Daten und Rechenleistung zur Verarbeitung dieser Daten verfügen. Somit steht die Genauigkeit der Ausgabe in direktem Zusammenhang mit der Größe der Eingabe.

Welche Arten von Machine-Learning-Algorithmen gibt es?

Algorithmen können in vier unterschiedliche Lernstile eingeteilt werden, die sich nach dem erwarteten Ergebnis und der Art der Eingabe richten.

  1. Supervised Machine Learning (überwachtes Machine Learning)
  2. Unsupervised Machine Learning (unüberwachtes Machine Learning)
  3. Semi-Supervised Machine Learning
  4. Reinforcement Machine Learning (Verstärkungs-Machine-Learning)

1. Supervised Machine Learning (überwachtes Machine Learning)

Datenwissenschaftler versorgen Algorithmen mit markierten und definierten Trainingsdaten, um sie auf Zusammenhänge zu prüfen. Die Beispieldaten spezifizieren sowohl die Eingabe als auch die Ausgabe des Algorithmus. Beispielsweise werden Bilder von handgeschriebenen Zahlen mit Anmerkungen versehen, die angeben, welcher Nummer sie entsprechen. Ein überwachtes Lernsystem könnte die Gruppen von Pixeln und Formen erkennen, die mit jeder Zahl verbunden sind, wenn es genügend Beispiele gibt. Früher oder später würde es handgeschriebene Zahlen erkennen und zuverlässig zwischen den Zahlen 9 und 4 oder 6 und 8 unterscheiden. 

Die Stärken des Supervised Learnings liegen in der Einfachheit und dem leichten Design. Er ist nützlich, wenn es darum geht, eine beschränkte Anzahl von möglichen Ergebnissen vorherzusagen, Daten in Kategorien einzuteilen oder Ergebnisse von zwei anderen Machine-Learning-Algorithmen zu kombinieren. Die Kennzeichnung von Millionen von nicht gekennzeichneten Datensätzen ist jedoch eine Herausforderung. Schauen wir uns das genauer an:

Was ist Datenbeschriftung?

Bei der Datenbeschriftung werden die Eingabedaten mit den entsprechend definierten Ausgabewerten kategorisiert. Für das Supervised Learning werden Markierte Trainingsdaten benötigt. Beispielsweise müssten Millionen Images von Äpfeln und Bananen mit den Wörtern „Apfel“ oder „Banane“ versehen werden. Mit diesen Trainingsdaten könnten dann Machine-Learning-Anwendungen den Namen der Frucht erraten, wenn sie ein Bild mit Obst erhalten. Die Kennzeichnung von Millionen neuen Daten kann jedoch eine zeitaufwändige und schwierige Aufgabe sein. Crowd-Working-Services wie Amazon Mechanical Turk können diese Einschränkung von Supervised-Learning-Algorithmen bis zu einem gewissen Grad überwinden. Diese Services bieten Zugang zu einem großen Pool an erschwinglichen Arbeitskräften, die über den ganzen Globus verteilt sind, was die Datenerfassung erleichtert.

2. Unsupervised Machine Learning (unüberwachtes Machine Learning)

Algorithmen für Unsupervised Learning (unüberwachtes Lernen) trainieren auf unmarkierten Daten. Sie durchsuchen neue Daten und versuchen, sinnvolle Verbindungen zwischen den Eingaben und den vorgegebenen Ergebnissen herzustellen. Sie können Muster erkennen und Daten kategorisieren. Beispielsweise könnten unüberwachte Algorithmen Nachrichtenartikel von verschiedenen Nachrichtenseiten in gemeinsame Kategorien wie Sport, Verbrechen usw. einteilen. Sie können natürliche Sprachverarbeitung nutzen, um die Bedeutung und die Emotionen des Artikels zu erfassen. Im Einzelhandel könnte das Unsupervised Learning Muster in den Käufen der Kunden erkennen und Datenanalyseergebnisse liefern, beispielsweise dass ein Kunde am ehesten Brot kauft, wenn er auch Butter kauft.

Unsupervised Learning ist nützlich für die Mustererkennung, die Erkennung von Anomalien und die automatische Gruppierung von Daten in Kategorien. Weil die Trainingsdaten nicht markiert werden müssen, ist die Einrichtung einfach. Diese Algorithmen können auch verwendet werden, um Daten automatisch für die weitere Modellierung zu bereinigen und zu verarbeiten. Die Einschränkung bei dieser Methode ist, dass sie keine genauen Vorhersagen machen kann. Außerdem kann sie bestimmte Arten von Datenergebnissen nicht unabhängig voneinander herausstellen.

3. Semi-Supervised Machine Learning

Wie der Name schon sagt, kombiniert diese Methode Supervised und Unsupervised Learning. Die Technik stützt sich auf die Verwendung einer kleinen Menge markierter Daten und einer großen Menge nicht markierter Daten zum Trainieren von Systemen. Zunächst werden die markierten Daten verwendet, um den Machine-Learning-Algorithmus teilweise zu trainieren. Anschließend markiert der teilweise trainierte Algorithmus die unmarkierten Daten selbst. Dieser Vorgang wird als Pseudo-Markierung bezeichnet. Das Modell wird dann auf dem resultierenden Datenmix erneut trainiert, ohne explizit programmiert zu werden.

Der Vorteil dieser Methode ist, dass Sie keine großen Mengen an markierten Daten benötigen. Dies ist praktisch bei der Arbeit mit Daten wie beispielsweise langen Dokumenten, die für Menschen zu zeitaufwändig zu lesen und zu markieren wären.

4. Reinforcement Learning

Reinforcement Learning (Verstärkungslernen) ist eine Methode mit Belohnungswerten für die verschiedenen Schritte, die der Algorithmus durchlaufen muss. Das Ziel des Modells ist es also, so viele Belohnungspunkte wie möglich zu sammeln und letztendlich ein Endziel zu erreichen. Die meisten praktischen Anwendungen des Reinforcement Learnings wurden in den letzten zehn Jahren im Bereich der Videospiele durchgeführt. Modernste Algorithmen des Reinforcement Learnings haben bei klassischen und modernen Spielen beeindruckende Ergebnisse erzielt und ihre menschlichen Gegenspieler oftmals deutlich übertroffen. 

Diese Methode funktioniert zwar bestens in unsicheren und komplexen Datenumgebungen, wird aber nur selten in geschäftlichen Kontexten eingesetzt. Sie ist nicht effizient für klar definierte Aufgaben und die Voreingenommenheit der Entwickler kann die Ergebnisse beeinflussen. Der Datenwissenschaftler gestaltet die Belohnungen und können so die Ergebnisse beeinflussen.

Sind Machine-Learning-Modelle deterministisch?

Wenn das Ergebnis eines Systems vorhersehbar ist, dann wird es als deterministisch bezeichnet. Die meisten Softwareanwendungen reagieren vorhersehbar auf die Aktionen des Benutzers, so dass man sagen kann: „Wenn der Benutzer dies tut, bekommt er das.“ Machine-Learning-Algorithmen hingegen lernen durch Beobachtung und Erfahrung. Daher sind sie von Natur aus probabilistisch, d. h. wahrscheinlichkeitsbasiert. Die Aussage ändert sich nun in: „Wenn der Benutzer dies tut, besteht eine Wahrscheinlichkeit von X %, dass dies geschieht.“

Im Machine Learning ist der Determinismus eine Strategie, die bei der Anwendung der oben beschriebenen Lernmethoden eingesetzt wird. Jede der überwachten, unüberwachten und anderen Trainingsmethoden kann je nach den gewünschten Ergebnissen des Unternehmens deterministisch gestaltet werden. Die Fragestellung, der Datenabruf, die Struktur und die Speicherentscheidungen bestimmen, ob eine deterministische oder nicht-deterministische Strategie angewendet wird.

Deterministischer vs. probabilistischer Ansatz

Der deterministische Ansatz konzentriert sich auf Genauigkeit und Menge der gesammelten Daten, so dass der Effizienz Vorrang vor der Unsicherheit eingeräumt wird. Andererseits ist der nicht-deterministische (oder probabilistische) Prozess darauf ausgelegt, den Zufallsfaktor zu bewältigen. In die Machine-Learning-Algorithmen sind integrierte Tools eingebaut, die dabei helfen, die Unsicherheit beim Lernen und Beobachten zu quantifizieren, zu identifizieren und zu messen.

Was ist Deep Learning?

Deep Learning ist eine Technik des Machine Learning, die dem menschlichen Gehirn nachempfunden wurde. Deep-Learning-Algorithmen analysieren Daten mit einer ähnlichen logischen Struktur wie die von Menschen eingesetzte. Deep Learning verwendet intelligente Systeme, die als künstliche neuronale Netzwerke bezeichnet werden, um Informationen in Schichten zu verarbeiten. Die Daten fließen von der Eingabeschicht durch mehrere „tiefe“, versteckte neuronale Netzwerkschichten, bevor sie zur Ausgabeschicht gelangen. Die ergänzenden verborgenen Schichten unterstützen ein Lernen, das weit über die Fähigkeiten von Standardmodellen des Machine Learning hinausgeht.

Was ist ein künstliches neuronales Netzwerk?

Die tiefen Lernschichten sind Knoten in einem künstlichen neuronalen Netzwerk (KNN), die wie die Neuronen des menschlichen Gehirns funktionieren. Knoten können eine Kombination aus Hardware und Software sein. Jede Schicht in einem Deep-Learning-Algorithmus besteht aus KNN-Knoten. Jeder Knoten, oder jedes künstliche Neuron, ist mit einem anderen verbunden und hat eine zugehörige Wertnummer und Schwellenwertnummer. Ein Knoten sendet seine Wertnummer als Eingabe an den Knoten der nächsten Schicht, wenn er aktiviert wird. Er wird nur aktiviert, wenn seine Ausgabe über dem angegebenen Schwellenwert liegt. Andernfalls werden keine Daten weitergegeben.

Was ist Computer Vision?

Computer Vision ist eine reale Anwendung von Deep Learning. So wie künstliche Intelligenz Computer zum Denken befähigt, befähigt Computer Vision sie zum Sehen, Beobachten und Reagieren. Selbstfahrende Autos verwenden Computer Vision, um Straßenschilder zu „lesen“. Die Kamera eines Autos nimmt ein Foto des Schildes auf. Dieses Foto wird an den Deep-Learning-Algorithmus im Auto gesendet. Die erste verborgene Schicht erkennt Kanten, die nächste unterscheidet Farben, während die dritte Schicht die Details des Alphabets auf dem Schild identifiziert. Der Algorithmus prognostiziert, dass auf dem Schild STOP steht, und das Auto reagiert mit einer Bremsung.

Sind Machine Learning und Deep Learning dasselbe?

Deep Learning ist ein Teilbereich von Machine Learning. Die Deep-Learning-Algorithmen können als eine hochentwickelte und mathematisch komplexe Weiterentwicklung der Machine-Learning-Algorithmen angesehen werden.

Sind Machine Learning und künstliche Intelligenz dasselbe?

Die Kurzantwort lautet nein. Die Begriffe Machine Learning und Künstliche Intelligenz (KI) können zwar austauschbar verwendet werden, sind aber nicht dasselbe. Künstliche Intelligenz ist ein Sammelbegriff für verschiedene Strategien und Techniken, die dazu dienen, Maschinen menschenähnlicher zu machen. KI umfasst alles von intelligenten Assistenten wie Alexa bis hin zu Staubsaugerrobotern und autonom fahrenden Autos. Machine Learning ist einer von vielen anderen Bereichen der Künstlichen Intelligenz. Machine Learning ist zwar KI, aber nicht alle KI-Aktivitäten können als Machine Learning bezeichnet werden.

Sind Machine Learning und Datenwissenschaft dasselbe?

Nein, Machine Learning und Datenwissenschaft sind nicht dasselbe. Die Datenwissenschaft ist ein Studienbereich, der einen wissenschaftlichen Ansatz verwendet, um aus Daten Bedeutung und Erkenntnisse zu gewinnen. Datenwissenschaftler verwenden eine Reihe von Tools für die Datenanalyse und Machine Learning ist eines dieser Tools. Datenwissenschaftler verstehen das Gesamtbild rund um die Daten, wie beispielsweise das Geschäftsmodell, den Bereich und die Datenerfassung, während Machine Learning ein Berechnungsprozess ist, der sich nur mit Rohdaten befasst.

Was sind die Vor- und Nachteile von Machine Learning?

Betrachten wir einige Dinge, die Machine Learning kann und nicht kann:

Vorteile von Machine-Learning-Modellen:

  • Können Datentrends und -Muster erkennen, die Menschen möglicherweise übersehen.
  • Können nach der Einrichtung ohne menschliches Zutun arbeiten. Beispielsweise kann Machine Learning in Cyber-Sicherheitssoftware den Netzwerkverkehr kontinuierlich überwachen und Unregelmäßigkeiten erkennen, ohne dass ein Administrator eingreifen muss.
  • Ergebnisse können mit der Zeit immer genauer werden.
  • Können eine Vielzahl von Datenformaten in dynamischen, hoch-Volume und komplexen Datenumgebungen verarbeiten.

Nachteile von Machine-Learning-Modellen:

  • Das anfängliche Training ist ein kostspieliger und zeitaufwändiger Prozess. Es kann schwierig sein, sie umzusetzen, wenn nicht genügend Daten zur Verfügung stehen.
  • Es ist ein computing-intensiver Prozess, der hohe Anfangsinvestitionen mit sich bringt, wenn die Hardware hausintern eingerichtet wird.
  • Ohne die Hilfe von Experten kann es schwierig sein, die Ergebnisse richtig zu interpretieren und Unsicherheiten zu beseitigen.          

Wie kann Amazon Machine Learning helfen?

AWS legt Machine Learning in die Hände von jedem Entwickler, Datenwissenschaftler und Geschäftsanwender. Services von Amazon Machine Learning bieten eine leistungsstarke, kosteneffiziente und skalierbare Infrastruktur, um den Anforderungen des Unternehmens gerecht zu werden.

Sie fangen gerade erst an?

Lernen Sie Machine Learning mit unseren praktischen Lerngeräten wie AWS DeepRacer, AWS DeepComposer und AWS DeepLens.

Haben Sie ein bestehendes Datenarchiv?

Nutzen Sie Amazon-SageMaker-Data-Labeling für integrierte Datenbeschriftungs-Workflows, die Video, Bilder und Text unterstützen.

Haben Sie bereits ein Machine-Learning-System?

Verwenden Sie Amazon SageMaker Clarify zur Erkennung von Abweichungen und Amazon SageMaker Debugger zur Überwachung und Optimierung der Leistung.

Möchten Sie Deep Learning implementieren?

Verwenden Sie Amazon SageMaker Distributed Training, um große Deep-Learning-Modelle automatisch zu trainieren. Melden Sie sich für ein kostenloses Konto an, um noch heute mit Machine Learning zu beginnen!

Die nächsten Schritte beim Machine Learning