Was ist Computer Vision?

Was ist eine Computervision?

Computer Vision ist eine Technologie, mit der Maschinen Bilder automatisch erkennen und sie genau und effizient beschreiben. Heute haben Computersysteme Zugriff auf eine große Menge an Bildern und Videodaten, die von Smartphones, Verkehrskameras, Sicherheitssystemen und anderen Geräten stammen oder von diesen erstellt wurden. Computer-Vision-Anwendungen verwenden künstliche Intelligenz und maschinelles Lernen (KI/ML), um diese Daten für die Objektidentifikation und Gesichtserkennung sowie für die Klassifizierung, Empfehlung, Überwachung und Erkennung genau zu verarbeiten.

Anwendungsfälle

Sicherheit und Schutz

Regierungen und Unternehmen nutzen Computer Vision, um die Sicherheit von Anlagen, Standorten und Einrichtungen zu verbessern. Kameras und Sensoren überwachen beispielsweise öffentliche Räume, Industriestandorte und Hochsicherheitsumgebungen. Sie senden automatische Benachrichtigungen, wenn etwas Ungewöhnliches passiert, z. B. wenn eine unbefugte Person einen Sperrbereich betritt.

In ähnlicher Weise kann Computer Vision die persönliche Sicherheit sowohl zu Hause als auch am Arbeitsplatz verbessern. Beispielsweise kann die Erkennungstechnologie eine Vielzahl sicherheitsrelevanter Probleme überwachen. Dazu gehören Echtzeit-Streams zu Hause, die Haustiere erkennen, oder Live-Kameras vor der Haustür, die Besucher oder zugestellte Pakete erkennen. Am Arbeitsplatz umfasst eine solche Überwachung das Tragen geeigneter persönlicher Schutzausrüstung durch die Arbeitnehmer, die Information von Warnsystemen oder die Erstellung von Berichten.

Operative Effizienz

Computer Vision kann Bilder analysieren und Metadaten für Business Intelligence extrahieren, wodurch neue Umsatzmöglichkeiten und betriebliche Effizienz entstehen. Zum Beispiel kann es:

Qualitätsmängel automatisch identifizieren, bevor Produkte das Werk verlassen
Wartungs- und Sicherheitsprobleme von Maschinen erkennen
Bilder aus sozialen Medien analysieren, um Trends und Muster im Kundenverhalten zu entdecken
Mitarbeiter mit automatischer Gesichtserkennung authentifizieren

Autonome Fahrzeuge

Die autonome Fahrzeugtechnologie nutzt Computer Vision, um Bilder in Echtzeit zu erkennen und 3D-Karten aus mehreren Kameras zu erstellen, die für den autonomen Verkehr vorgesehen sind. Es kann Bilder analysieren und andere Verkehrsteilnehmer, Verkehrszeichen, Fußgänger oder Hindernisse identifizieren.

In halbautonomen Fahrzeugen verwendet Computer Vision maschinelles Lernen (ML), um das Fahrerverhalten zu überwachen. Beispielsweise sucht es anhand der Kopfposition des Fahrers, der Blickverfolgung und der Bewegung des Oberkörpers nach Anzeichen von Ablenkung, Müdigkeit und Schläfrigkeit. Wenn die Technologie bestimmte Warnzeichen erkennt, warnt sie den Fahrer und verringert die Wahrscheinlichkeit eines Verkehrsunfalls.

Landwirtschaft

Von der Steigerung der Produktivität bis hin zur Kostensenkung durch intelligente Automatisierung verbessern Computer-Vision-Anwendungen das allgemeine Funktionieren des Agrarsektors. Satellitenbilder sowie UAV-Aufnahmen helfen dabei, riesige Landstriche zu analysieren und die landwirtschaftlichen Praktiken zu verbessern. Computer-Vision-Anwendungen automatisieren Aufgaben wie die Überwachung der Feldbedingungen, die Identifizierung von Pflanzenkrankheiten, die Überprüfung der Bodenfeuchte und die Vorhersage von Wetter und Ernteerträgen. Die Tierüberwachung mit Computer Vision ist eine weitere wichtige Strategie der intelligenten Landwirtschaft.

Gesundheitswesen

Das Gesundheitswesen ist eine der führenden Branchen, die Computer-Vision-Technologie anwenden. Insbesondere die medizinische Bildanalyse ermöglicht eine Visualisierung von Organen und Geweben, um medizinischen Fachkräften zu helfen, schnelle und genaue Diagnosen zu stellen, was zu besseren Behandlungsergebnissen und einer höheren Lebenserwartung führt. Zum Beispiel:

Erkennung von Tumoren durch Analyse von Muttermalen und Hautläsionen
Automatische Röntgenanalyse
Entdeckung von Symptomen anhand von MRT-Untersuchungen

Wie funktioniert Computer Vision?

Computer-Vision-Systeme verwenden Technologien der künstlichen Intelligenz (KI), um die Fähigkeiten des menschlichen Gehirns nachzuahmen, die für die Objekterkennung und Objektklassifizierung verantwortlich sind. Informatiker trainieren Computer darin, visuelle Daten zu erkennen, indem sie riesige Informationsmengen eingeben. Algorithmen für Machine Learning (ML) identifizieren häufig auftretende Muster in diesen Bildern oder Videos und wenden dieses Wissen an, um unbekannte Bilder genau zu identifizieren. Wenn Computer beispielsweise Millionen von Bildern von Autos verarbeiten, beginnen sie, Identitätsmuster aufzubauen, mit denen ein Fahrzeug in einem Bild genau erkannt werden kann. Computer Vision verwendet Technologien wie die unten angegebenen.

Deep Learning

Deep Learning ist eine Art von ML, die neuronale Netze verwendet. Neuronale Deep-Learning-Netzwerke bestehen aus vielen Schichten künstlicher Neuronen, die im Computer zusammenarbeiten. Sie verwenden mathematische Berechnungen, um verschiedene Aspekte von Bilddaten automatisch zu verarbeiten und nach und nach ein kombiniertes Verständnis des Bildes zu entwickeln.

Konvolutionale neuronale Netzwerke

Convolutional Neural Networks (CNNs) verwenden ein Kennzeichnungssystem, um visuelle Daten zu kategorisieren und das gesamte Bild zu erfassen. Sie analysieren Bilder als Pixel und geben jedem Pixel einen Kennzeichnungswert. Der Wert wird eingegeben, um eine mathematische Operation namens Konvolution durchzuführen und Vorhersagen über das Bild zu treffen. Wie ein Mensch, der versucht, ein Objekt aus der Ferne zu erkennen, identifiziert ein CNN zunächst Konturen und einfache Formen, bevor er zusätzliche Details wie Farbe, innere Formen und Textur einfügt. Schließlich wiederholt es den Vorhersageprozess über mehrere Iterationen, um die Genauigkeit zu verbessern.

Rekurrente Neuronale Netzwerke

Wiederkehrende neuronale Netzwerke (RNNs) ähneln CNNs, können jedoch eine Reihe von Bildern verarbeiten, um Verbindungen zwischen ihnen zu finden. Während CNNs für die Einzelbildanalyse verwendet werden, können RNNs Videos analysieren und die Beziehungen zwischen Bildern verstehen.

Was ist der Unterschied zwischen Computer Vision und Bildverarbeitung?

Die Bildverarbeitung verwendet Algorithmen, um Bilder zu verändern, einschließlich Schärfen, Glätten, Filtern oder Verbessern. Computer Vision ist anders, da es kein Bild verändert, sondern stattdessen das Gesehenen sinnvoll einordnet und eine Aufgabe ausführt, z. B. das Kennzeichnen. In einigen Fällen kann man Bildverarbeitung verwenden, um ein Bild zu modifizieren, sodass ein Computer-Vision-System es besser verstehen kann. In anderen Fällen verwenden Sie Computer Vision, um Bilder oder Teile eines Bildes zu identifizieren, und verwenden dann die Bildverarbeitung, um das Bild weiter zu modifizieren.

Was sind gängige Aufgaben, die Computer Vision ausführen kann?

Bildklassifizierung

Die Bildklassifizierung ermöglicht es Computern, ein Bild zu sehen und genau zu klassifizieren, in welche Klasse es fällt. Computer Vision versteht Klassen und kennzeichnet sie, zum Beispiel Bäume, Flugzeuge oder Gebäude. Ein Beispiel ist, dass eine Kamera Gesichter auf einem Foto erkennen und den Fokus auf sie richten kann.

Objekterkennung

Die Objekterkennung ist eine Computer-Vision-Aufgabe zum Erkennen und Lokalisieren von Bildern. Sie verwendet Klassifizierungen, um Bilder zu identifizieren, zu sortieren und zu organisieren. Die Objekterkennung wird in Industrie- und Fertigungsprozessen zur Steuerung autonomer Anwendungen und zur Überwachung von Produktionslinien eingesetzt. Hersteller und Dienstanbieter von vernetzten Heimkameras verlassen sich auch auf Objekterkennung, um Live-Videostreams von Kameras zu verarbeiten, Personen und Objekte in Echtzeit zu erkennen und ihren Endbenutzern umsetzbare Warnmeldungen zu geben.

Objektverfolgung

Die Objektverfolgung verwendet Deep-Learning-Modelle, um Elemente zu identifizieren und zu verfolgen, die zu Kategorien gehören. Sie hat mehrere reale Anwendungen in verschiedenen Branchen. Das erste Element der Objektverfolgung ist die Objekterkennung. Das Objekt wird von einem Begrenzungsrahmen umgeben, erhält eine Objekt-ID und kann über Frames verfolgt werden. Objektverfolgung kann beispielsweise für die Verkehrsüberwachung in städtischen Umgebungen, die Überwachung von Menschen und die medizinische Bildgebung verwendet werden.

Segmentierung

Die Segmentierung ist ein Algorithmus für Computer Vision, der ein Objekt identifiziert, indem er Bilder davon basierend auf den gesehenen Pixeln in verschiedene Bereiche aufteilt. Die Segmentierung vereinfacht auch ein Bild, indem sie beispielsweise eine Form oder einen Umriss eines Elements platziert, um festzustellen, um was es sich handelt. Auf diese Weise erkennt die Segmentierung auch, ob sich in einem Bild oder Rahmen mehr als ein Objekt befindet.

Befinden sich in einem Bild beispielsweise eine Katze und ein Hund, kann die Segmentierung verwendet werden, um die beiden Tiere zu erkennen. Im Gegensatz zur Objekterkennung, bei der ein Objekt in einem Rahmen angeordnet wird, werden bei der Segmentierung Pixel verfolgt, um die Form eines Objekts zu bestimmen, was die Analyse und Kennzeichnung erleichtert.

Wie hilft Ihnen AWS bei Ihren Computer-Vision-Aufgaben?

AWS bietet das breiteste und vollständigste Angebot an Services für künstliche Intelligenz und Machine Learning (KI/ML) in Verbindung mit einem umfassenden Satz von Datenquellen für Kunden aller Fachkenntnisse.

Für Kunden, die auf Frameworks aufbauen und ihre eigene Infrastruktur verwalten, optimieren wir Versionen der beliebtesten Deep-Learning-Frameworks, darunter PyTorch , MXNet und TensorFlow. AWS bietet ein breites und umfassendes Portfolio an ML-Services für die Rechen-, Netzwerk- und Speicherinfrastruktur mit einer Auswahl an Prozessoren und Beschleunigern, um den individuellen Leistungs- und Budgetanforderungen gerecht zu werden.

Für Kunden, die eine standardmäßige Computer-Vision-Lösung für ihr Unternehmen entwickeln möchten, erleichtert Amazon SageMaker die Vorbereitung von Daten und das Erstellen, Trainieren und Bereitstellen von ML-Modellen für jeden Anwendungsfall mit vollständig verwalteter Infrastruktur, Tools und Workflows, einschließlich No-Code-Angeboten für Geschäftsanalysten.

Für Kunden, denen es an ML-Kenntnissen mangelt und die eine schnellere Markteinführung benötigen oder einem bestehenden Prozess oder einer Anwendung Intelligenz hinzufügen möchten, bietet AWS eine Reihe von ML-basierten Computer-Vision-Services an. Mit diesen Services können KI-Anwendungen mithilfe vortrainierter APIs auf einfache Weise um Intelligenz erweitert werden. Amazon Rekognition automatisiert Ihre Bild- und Videoanalyse mit ML und analysiert Millionen von Bildern, Livestreams und gespeicherten Videos in Sekunden.

Beginnen Sie mit Computer Vision, indem Sie noch heute ein kostenloses AWS-Konto erstellen.