deeplens-asl

Inspiration

L’avenir ne réside pas dans les claviers et les souris. Tout le monde est d’avis que dans les prochaines années, les interactions avec les ordinateurs seront essentiellement vocales. Siri, Cortana, Google Home, et, bien sûr, Alexa (et Alexa for Business) sont autant d’exemples du visage que pourrait prendre le futur. Même Werner Vogels pense que l'interaction vocale sera la nouvelle interaction traditionnelle (novembre 2017).

DeepLens peut les aider à comprendre ceux qui ne peuvent pas parler, grâce à l'American Sign Language (ou des variantes). Le traitement des flux vidéo et un modèle de Deep Learning peuvent utiliser DeepLens comme nouvelle interface, ce qui permet de traduire en temps réel le langage des signes américain en texte ou parole en anglais, et de faciliter les interactions avec les ordinateurs.

Fonctionnement

Notre participation au challenge AWS DeepLens a permis de montrer qu’il est possible de comprendre l’alphabet du langage des signes américain. Nous avons choisi l’alphabet car il est essentiellement composé de positions statiques des mains. Notre modèle est de type artisanal et basé sur le modèle de vision SageMaker. Il est adéquatement formé à partir d’un ensemble de données spécifique constitué durant le challenge. Nous avons supprimé les lettres « j » et « z », car elles ne sont pas statiques, et avons également ajouté des signes spéciaux. À vous de les trouver !

Créé par : Benjamin Meudre

Création

L’ensemble de données a été constitué à l’aide d’une fonction Lambda spécifique exécutée sur DeepLens (voir Sous-projet d’instantanés ci-dessous pour en savoir plus).
Nous avons pris plusieurs photos de plusieurs personnes pour chaque signe spécial et chaque lettre de l’alphabet, à l’exception de « j » et « z ».
La formation s’est faite à l’aide d’Amazon SageMaker, avec un transfert d’apprentissage sur un SqueezeNet à 18 couches. Elle a convergé en 4 époques vers des résultats satisfaisants.

Utilisation

Déploiement : le modèle est contenu dans un dossier de modèles, et le gestionnaire de la fonction Lambda dans le dossier Lambda. Pour l’utiliser, vous devez simplement suivre la même procédure décrite dans la documentation AWS, à partir de l’étape 4.
Une fois le modèle déployé sur DeepLens, vous devez ouvrir le Flux de projets pour consulter les résultats d’inférence et essayer de créer des phrases !

Interface : la lettre effectivement détectée s’affiche dans le coin supérieur gauche, avec le degré de confiance. Si rien ne s’affiche, cela signifie qu’aucune lettre n’a été détectée avec un degré de confiance supérieur à 40 %.
Dans la partie inférieure de l’image, votre message s’affiche au fur et à mesure sa rédaction. Chaque lettre apparaît si la même lettre est reconnue pendant un temps suffisant.
Pour insérer une espace, patientez quelques secondes sans aucune reconnaissance de caractères. Pour réinitialiser le message, patientez un peu plus longtemps.

Attention :

  • vous obtiendrez de meilleurs résultats si l’arrière-plan est blanchâtre et le champ de vision de DeepLens vide.
  • Essayez de faire les signes uniquement dans le champ de vision, sans les accompagner de votre visage, de votre corps, etc.
  • Il se produit un léger retard entre votre mouvement et le retour d’information de la caméra.

Sous-projet d’instantanés :
il consiste à utiliser DeepLens pour générer un ensemble de données. La caméra réagit au clic par l’utilisateur sur un bouton pour prendre un instantané et classifie immédiatement l’image.
Elle utilise une interface frontale hébergée sur S3, ainsi que Cognito et les rubriques IoT respectivement comme outil d’authentification et mécanisme de communication avec DeepLens. Lorsque les images arrivent dans S3, elles sont automatiquement optimisées pour les tâches de formation SageMaker.

Créé avec

python
amazon-web-services

Tester