Ganador en segundo puesto:

Dee - DeepLens Educating Entertainer

Inspiración

Es posible que los niños pequeños y algunos más grandes con necesidades especiales de aprendizaje tengan dificultades para interactuar con dispositivos electrónicos. Quizás no puedan leer la pantalla de una tablet, usar el teclado de una computadora ni hablar lo suficientemente claro para el reconocimiento de la voz. Pero con el reconocimiento de video, esto puede cambiar. La tecnología ahora puede comprender el mundo del niño y descubrir cuándo hace algo, p. ej., recoger un objeto o realizar una acción, y eso permite nuevas formas de interacción.

DeepLens es particularmente atractivo para las interacciones de los niños porque puede ejecutar sus modelos de aprendizaje profundo offline. Esto significa que el dispositivo puede funcionar en cualquier lugar, sin costos adicionales y sin necesidad de preocuparse por la privacidad de los datos de los niños.

Qué hace

Dee (the DeepLens Educating Entertainer) formula preguntas habladas. Sus preguntas piden al participante que muestre algo. Las preguntas (en un archivo JSON y fácilmente ampliables) tienen respuestas que hacen elegir uno de cuatro animales (aves, vacas, caballos y ovejas) de cuatro medios de transporte (avión, bicicleta, autobús y motocicleta). Algunas preguntas solo tienen una respuesta correcta (por ejemplo, "¿Quién dice muuuu?") y algunas pueden tener varias (por ejemplo, "¿Qué tiene ruedas?"). Las respuestas correctas son elogiadas y las incorrectas reciben sugerencias para que logren responder bien. (Se trata de una interacción y un refuerzo positivo, en lugar de ser un cuestionario desafiante).

El participante responde las preguntas mostrando a Dee una imagen del objeto relevante. El repositorio de GitHub incluye un archivo PDF de imágenes que se pueden imprimir para este fin.

Creado por: Matthew Clark

Obtenga más información sobre Matthew y el proyecto DEE en esta publicación del blog de AWS Machine Learning.

Cómo lo desarrollé

El modelo predefinido de DeepLens deeplens-object-detection funcionó bien, por lo que no fue necesario crear uno nuevo. Esto significaba que pude dedicar más tiempo a la lógica en la función Lambda.

Una función Lambda, que se ejecuta en el dispositivo DeepLens (a través de GreenGrass, por supuesto) maneja la interacción. Escoge una pregunta al azar, la dice en voz alta y luego analiza la respuesta del modelo para ver cómo respondió el usuario. Muchos mensajes como "¡Vamos por más!" y "¡Buena elección!" ayudan al participante a sentirse positivo y comprometido con la experiencia.

Dee está diseñado para que no sea necesario acceder a WiFi (y garantizar que no haya problemas de conexión, costo o privacidad). Esto fue una complicación en lo que respecta al habla, ya que se usó Amazon Polly. Para superar este problema, se hizo un script para capturar todas las frases requeridas y almacenarlas localmente, lo que significa que la Lambda incluye 69 archivos MP3.

Desafíos

Lo que yo esperaba inicialmente era que, en lugar de imágenes, el niño pudiera mostrarle juguetes a Dee. Por ejemplo, que recogiera un avión de juguete o una ovejita, lo que sería más emocionante que tomar un pedazo de papel. Pero en las pruebas, el modelo de detección de objetos no veía a los juguetes como iguales a sus contrapartes reales. Aparentemente, un avión de juguete es demasiado diferente de un avión real. La formación de un modelo para trabajar con juguetes solucionaría esto, por supuesto, pero no pude encontrar un conjunto de datos de formación lo suficientemente bueno y lo suficientemente grande. Esto es algo en lo que hay que trabajar.

Logros de los que estoy orgulloso

Estoy impresionado porque esta forma de interacción realmente funciona. Como verá en el video de YouTube, probamos Dee con mi hijo de tres años, y le encantó. Pide jugar con él otra vez. Es un prototipo, pero es lo suficientemente bueno para que lo use.

También estoy entusiasmado por la forma en que los aspectos del refuerzo positivos pueden ayudar a los niños con autismo o Asperger.

Lo que aprendí

Este proyecto me ha puesto al día con los conceptos de aprendizaje profundo y el enfoque de AWS para administrarlos y ejecutarlos (a través de SageMaker y GreenGrass).

Además de la tecnología en sí, también he conocido el potencial de la tecnología que comprende cada vez más el mundo humano. El reconocimiento de video inteligente permite todo tipo de formas nuevas de jugar y aprender cosas.

El futuro de Dee

El potencial de Dee es enorme. Si pudiera reconocer una gama más amplia de cosas, se podría hacer un conjunto de preguntas mucho más variado. Por ejemplo:

"¿Puedes mostrar tres dedos?" (para probar habilidades de conteo)
"¡Muéstrame tu mejor sonrisa!"
"¿Puedes hacer un salto de tijeras?"
"¿Cuál es la letra A?"
"¿Me puedes mostrar tu juguete favorito?"

Por supuesto, la formación de nuevos modelos será una parte clave de esto. Y con servicios como SageMaker que hacen que la formación sea más sencilla, surge la posibilidad de que los usuarios finales puedan formar sus propios modelos. Un profesor podría, por ejemplo, entrenar a Dee para reconocer ciertos objetos en el aula. O un cuidador podría entrenar a Dee para responder a objetos específicos que son importantes para alguien con autismo.

Finalmente, hay muchas más mejoras en la lógica que también podrían hacerse. ¿Dee podría realizar un seguimiento de su progreso a lo largo del tiempo e informar sobre el nivel de aprendizaje del alfabeto, por ejemplo? ¿Podría reconocer a diferentes personas y plantearles diferentes retos? Las posibilidades son infinitas.

Desarrollado con

deeplens
lambda
greengrass
python
polly