Deuxième place :

Dee - DeepLens Educating Entertainer (Animateur éducatif DeepLens)

Inspiration

Les jeunes enfants, et d’autres plus âgés qui ont des besoins d'apprentissage spécifiques, peuvent éprouver des difficultés à interagir avec les appareils électroniques. Ils peuvent être dans l’incapacité de lire un écran de tablette, d'utiliser un clavier d'ordinateur ou de parler assez distinctement pour la reconnaissance vocale. La reconnaissance vidéo fait évoluer cette situation. En effet, la technologie peut maintenant avoir une compréhension de l’univers de l'enfant et détecter à quel moment celui-ci agit, par exemple quand il saisit un objet ou effectue une action. Et cela conduit à de tout nouveaux moyens d'interaction.

DeepLens est particulièrement attrayant en ce qui concerne les interactions des enfants car il peut exécuter ses modèles de deep learning hors connexion. Cela signifie que l'appareil peut fonctionner n'importe où, sans coût supplémentaire et sans aucun problème de confidentialité des données des enfants.

Ce qu’il fait

L’animateur éducatif Dee (DeepLens Educating Entertainer) pose des questions vocalement. Ses questions demandent au participant de montrer quelque chose. Les questions (dans un fichier JSON et facilement extensibles) ont pour réponse un de ces quatre animaux (oiseau, vache, cheval et mouton), ou un de ces quatre moyens de transport (avion, vélo, bus et moto). Certaines questions ont une seule bonne réponse (par ex. « Qu’est-ce qui fait meuh ? », et d’autres plusieurs (par ex. « Qu’est-ce qui a plusieurs roues ? » Les bonnes réponses reçoivent des félicitations ; en cas de mauvaise réponse, des indices simples sont donnés afin d’orienter vers la bonne réponse. (Il s'agit ici d'interaction et de renforcement positif, plutôt que d’un quiz dans un esprit de compétition.)

Le participant répond aux questions en montrant à Dee une image de l'animal ou de l’objet concerné. Le référentiel GitHub comprend un fichier PDF d’images qui peuvent être imprimées à cet effet.

Créé par : Matthew Clark

En savoir plus sur Matthew et le projet DEE dans ce post du blog AWS Machine Learning.

Comment je l’ai construit

Le modèle DeepLens prédéfini DeepLens-object-detection (détection d’objets DeepLens) s’est avéré performant et il n’a pas été nécessaire d’en créer un nouveau. Cela s’est traduit part plus de temps disponible pour la logique du Lambda.

Une fonction Lambda, exécutée sur le périphérique DeepLens (via GreenGrass, bien évidemment) gère les interactions. Elle choisit une question au hasard, la diffuse vocalement et analyse ensuite la réponse modèle pour voir comment l'utilisateur a répondu. De nombreux messages, tels que « Cherchons encore » ou « Excellent choix ! », aident le participant à avoir un sentiment positif et à se sentir impliqué dans le jeu.

Dee est conçu fonctionner sans WiFi (afin de garantir qu’il n’y a pas de problème de connexion, de coût ou de confidentialité). Cela a posé une difficulté pour la fonction vocale car Amazon Polly est utilisé. Pour remédier à cela, un script a été créé pour saisir toutes les phrases requises et les stocker localement. La conséquence est que le Lambda contient 69 fichiers MP3.

Les défis

Mon espoir initial était que, plutôt que des images, l'enfant puisse montrer des jouets à Dee. Choisir, par exemple, un avion jouet ou un mouton en peluche, aurait été plus amusant qu'un morceau de papier. Mais lors des tests, le modèle de détection d'objet ne considérait pas les jouets comme étant leurs équivalents réels. Un avion jouet est trop différent d'un avion réel, semble-t-il. Entraîner un modèle à travailler sur des jouets résoudrait ce problème, bien évidemment, mais je n’ai pas trouvé d’ensemble de données de formation adapté et suffisamment riche. C’est un domaine à travailler.

Les réalisations dont je suis fier

Je suis impressionné par les capacités de cette forme d'interaction. Comme vous pouvez le voir sur la vidéo YouTube, nous avons proposé à mon fils de trois ans de jouer avec Dee et cela lui a beaucoup plu. Il réclame maintenant de jouer avec. Il ne s’agit que d’un prototype mais il fonctionne suffisamment bien pour qu’il l’utilise.

Je suis également enthousiasmé par la manière dont la méthode du renforcement positif peut aider les enfants atteints d'autisme ou du syndrome d'Asperger.

Ce que j'ai appris

Ce projet m'a permis de me familiariser avec les concepts de deep learning et l'approche d'AWS pour leur gestion et leur exécution (via SageMaker et GreenGrass).

Outre la technologie, j’ai également découvert le potentiel de la technologie à comprendre de plus en plus le monde humain. La reconnaissance vidéo intelligente permet toutes sortes de nouvelles façons de jouer et d'apprendre de nouvelles choses.

Quelle est la prochaine étape pour Dee ?

Le potentiel de Dee est énorme. S’il pouvait reconnaître un plus large éventail de choses, un ensemble de questions beaucoup plus variées pourraient être posées. Par exemple :

« Peux-tu lever trois doigts ? », pour tester la capacité à compter.
« Montre-moi ton plus beau sourire ! »
« Peux-tu faire un saut avec écart ? »
« Laquelle est la lettre A ? »
« Montre-moi ton jouet favori ? »

L’entraînement de nouveaux modèles sera bien évidemment un élément clé. Et avec des services tels que SageMaker qui facilitent l’entraînement, les utilisateurs finaux ont de plus en plus la possibilité de former leurs propres modèles. Un enseignant pourrait, par exemple, entraîner Dee à reconnaître certains objets dans la classe. Ou un soignant pourrait entraîner Dee à réagir à des objets spécifiques qui sont importants pour une personne autiste.

Enfin, énormément d’améliorations pourraient être apportées à la logique. Dee pourrait-il suivre vos progrès au fil du temps et indiquer comment vous apprenez, par exemple, l'alphabet ? Pourrait-il reconnaître différentes personnes et leur proposer des défis différents ? Les possibilités sont infinies.

Construit avec

DeepLens
Lambda
Greengrass
Python
Polly

Essayez-le