ASLens

Inspiration

ASLens nutzt die AWS DeepLens, um das Alphabet der amerikanischen Gebärdensprache in Sprache zu übersetzen.

Funktionsweise

Die AWS DeepLens fängt Videos auf und führt ein Modell für tiefes Lernen (erstellt mit AWS SageMaker) auf jedem Bild aus. Wenn ein Buchstabe aus dem ASL-Alphabet erkannt wird, spielt die AWS DeepLens eine Audiodatei von diesem Buchstaben ab (mit einer MP3-Datei, erstellt mit AWS-Polly).

ASLens wird lokal auf der AWS DeepLens ausgeführt, dadurch wird eine Internetverbindung nicht benötigt (was Probleme mit Datenübertragungsraten und erhöhter Geschwindigkeit beseitigt, durch Eliminierung von Wechseln zwischen Netzwerken).

Schöpfer: Chris Coombs

Erfahren Sie mehr über Chris und das ASLens-Projekt in diesem AWS Machine Learning-Blogbeitrag.

Überträgt das Alphabet der amerikanischen Zeichensprache in die gesprochene Sprache.

Entwicklung

Das ASLens Modell für tiefes Lernen wurde mit AWS SageMaker erstellt. Mit dem Lernbeispiel der Bildübertragung kam ich von meinen Trainingsdaten zu meinem ersten Modell in weniger als einer Stunde!

Die Lambda-Funktion optimiert zuerst das AWS SageMaker-Modell, das auf dem AWS-DeepLens-GPU ausgeführt werden soll, und beschneidet und skaliert dann jedes Bild. Sobald in der Größe verändert, wird jedes Videobild gegen das Modell geprüft und wenn ein ASL-Buchstabe erkannt wird, wird eine dazugehörige MP3-Datei abgespielt.

Herausforderungen

Da die Buchstaben J und Z Bewegung beinhalten, habe ich diese aus dem Trainingssatz ausgeschlossen.

Ich habe viel Zeit mit Ausprobieren verbracht, damit AWS Polly MP3s auf der AWS DeepLens abgespielt werden können. Für jeden, der sonst damit Probleme hat, in Zusammenfassung: Fügen Sie den ggc_user zu der Audio-Gruppe hinzu, fügen Sie Ressourcen zu der Greengras-Gruppe (und der enthaltenen Lambda-Gruppe) hinzu - wiederholen, nach jedem Einsatz!

Erfolge, die mich stolz machen

Ich kann immer noch nicht glauben, dass es funktioniert! Es ist wie Magie! Meine Frau hatte die Idee und ich dachte, es wäre zu viel Arbeit. Während ich Vertrauen darin hatte, dass ich die AWS DeepLens-Hardware beherrschen könnte, hatte ich Bedenken, dass mir die Erfahrung fehlte, das angemessene Modell zu erstellen. Glücklicherweise erledigt Amazon SageMaker die Schwerstarbeit des Machine Learning, was bedeutete, dass ich mich darauf konzentrieren konnte, Trainingsdaten zu sammeln (und Audios auf dem DeepLens-Gerät abspielen zu können).

Was ich gelernt habe

Da AWS DeepLens AWS Greengrass im Hintergrund nutzt, habe ich viel über diesen Dienst gelernt. Dieses Projekt hat mich auch inspiriert einen Online-Kurs für tiefes Lernen aufzunehmen, sodass ich meine Verwendung von Amazon SageMaker mit der Verwendung von benutzerdefinierten Algorithmen voranbringen kann.

Die Zukunft von DeepLens ASLens

ASLens ist derzeit auf das ASL-Alphabet beschränkt und lässt J und Z außen vor, da diese nicht statisch sind. Ich würde gerne meine Arbeit mit ASLens mit der Identifizierung von Wörtern, einschließlich Bewegung und Ausdruck voranbringen.

Erstellt mit

Amazon Web Services
SageMaker
Lambda
DEEPLENS
Polly

Jetzt testen

GitHub-Repository