ASLens

Inspiration

ASLens utilise AWS DeepLens pour traduire l’alphabet du langage des signes américain en paroles.

Fonctionnement

AWS DeepLens capture une vidéo et exécute un modèle Deep Learning (créé avec AWS SageMaker) sur chaque trame. En cas de reconnaissance d’une lettre de l’alphabet du langage des signes américain, AWS DeepLens lit le signal audio de ladite lettre (à l’aide d’un fichier MP3 généré via AWS Polly).

ASLens s’exécutant localement sur AWS DeepLens, aucune connexion Internet n’est requise, ce qui évite les problèmes de bande passante et de boucles interréseau et accroît la vitesse de lecture.

Créé par : Chris Coombs

En savoir plus sur Chris et le projet ASLens dans ce post du blog AWS Machine Learning.

Conversion de signes en parole pour l'alphabet du langage des signes américain.

Création

Le modèle de Deep Learning ASLens a été créé à l’aide d’AWS SageMaker. M’inspirant de l’exemple d’apprentissage du transfert d’images, il m’a fallu moins d’une heure pour passer de la formation de données à la création de mon premier modèle !

Dans un premier temps, la fonction Lambda optimise le modèle AWS SageMaker afin qu’il puisse s’exécuter sur le GPU d’AWS DeepLens, puis elle rogne et met à l’échelle chaque trame. Une fois redimensionnée, la trame vidéo s’exécute sur le modèle. Ainsi, en cas de détection d’une lettre de l’alphabet du langage des signes américain, la lecture du fichier MP3 correspondant démarre.

Défis à relever

Étant donné que les lettres J et Z s’accompagnent d’un mouvement, je les ai exclues de l’ensemble de formation.

Utilisant la méthodologie essais-erreurs, j’ai consacré beaucoup de temps pour parvenir à lire les fichiers MP3 AWS Polly sur AWS DeepLens. Pour quiconque s’y essaie également, voici le résumé des étapes à suivre : ajoutez ggc_user au groupe audio ; ajoutez les ressources au groupe Greengrass, y compris les fonctions Lambda intégrées ; répétez la procédure après chaque déploiement !

Les réalisations qui font ma fierté

Incroyable que cela fonctionne ! C’est tout simplement magique ! Quand ma femme a eu cette idée, j’ai pensé que cela était irréalisable. Autant j’étais convaincu de pouvoir prendre en charge les ressources matérielles d’AWS DeepLens, autant je me demandais si j’avais l’expérience nécessaire pour créer le modèle approprié. Heureusement, Amazon SageMaker s’occupe du plus dur pour ce qui est du Machine Learning, ce qui me permet de me concentrer sur la collecte des données de formation et sur les tâches permettant la lecture du fichier audio sur l’appareil AWS DeepLens.

Leçons apprises

AWS DeepLens utilisant AWS Greengrass en arrière-plan, j’en ai assez appris sur ce service. Ce projet m’a également poussé à réaliser un résumé de cours en ligne sur le Deep Learning afin de perfectionner mon utilisation d’Amazon Sagemaker concurremment à des algorithmes personnalisés.

Quelle est la prochaine étape pour DeepLens ASLens ?

ASLens est actuellement limité à l’alphabet du langage des signes américain, excepté J et Z, qui sont des lettres non statiques. J’aimerais continuer à travailler sur ASLens pour identifier des mots, des mouvements et des expressions.

Créé avec

amazon-web-services
sagemaker
lambda
deeplens
polly

Tester

Référentiel GitHub