ASLens

Inspiración

ASLens usa AWS DeepLens para traducir el alfabeto del lenguaje de señas estadounidense (ASL) a voz.

Qué hace

AWS DeepLens registra videos y ejecuta un modelo de aprendizaje profundo (creado con AWS SageMaker) en cada fotograma. Cuando se reconoce una letra del alfabeto ASL, AWS DeepLens reproduce el audio correspondiente (con un archivo MP3 que se genera con AWS Polly).

ASLens se ejecuta localmente en AWS DeepLens, por lo que no es necesario contar con una conexión de Internet (de esta manera, desaparecen los problemas de ancho de banda y se aumenta la velocidad, ya que se elimina el traspaso de una red a otra).

Autor: Chris Coombs

Obtenga más información sobre Chris y el proyecto ASLens en esta publicación del blog de AWS sobre aprendizaje automático.

Cómo se desarrolló

El modelo de aprendizaje profundo de ASLens se creó con AWS SageMaker. Con el ejemplo de aprendizaje sobre transferencia de imágenes pude pasar de los datos de entrenamiento a mi primer modelo en menos de una hora.

Primero, la función de Lambda optimiza el modelo de AWS SageMaker para poder ejecutarlo en la GPU de AWS DeepLens y, a continuación, recorta cada fotograma y le ajusta la escala. Una vez que se ajusta el tamaño, el fotograma del video se ejecuta en el modelo y, si se detecta una letra de ASL, se reproduce el archivo MP3 correspondiente.

Desafíos

Como las letras J y Z incluyen movimiento, las excluí del conjunto de entrenamiento.

Pasé un tiempo considerable, mediante prueba y error, para lograr que los archivos MP3 de AWS Polly se reprodujesen en AWS DeepLens. Para otras personas que estén luchando con esto, en resumen: agreguen ggc_user al grupo de audio, agreguen recursos al grupo de Greengrass (y las funciones de Lambda contenidas) y repitan la secuencia después de cada implementación.

Logros de los que estoy orgulloso

¡Aún no puedo creer que funcione! ¡Es increíble! Mi esposa me propuso la idea y yo pensé que era un trabajo demasiado grande. Si bien confiaba en que podía ocuparme del hardware AWS DeepLens, me preocupaba no contar con la experiencia suficiente para crear el modelo idóneo. Afortunadamente, Amazon SageMaker se ocupa de las tareas arduas de aprendizaje automático, lo que me permitió enfocarme en recopilar datos de entrenamiento (y en lograr que el audio se reprodujese en el dispositivo AWS DeepLens).

Lo que aprendí

Como AWS DeepLens usa AWS Greengrass en segundo plano, aprendí muchísimo sobre ese servicio. El proyecto también me incentivó a retomar un curso online sobre aprendizaje profundo para potenciar el uso de Amazon SageMaker y poder incluir algoritmos personalizados.

Futuros planes para DeepLens ASLens

Actualmente, ASLens está limitado al alfabeto ASL y omite las letras J y Z porque no son estáticas. Me gustaría continuar mi trabajo en ASLens para poder identificar palabras, incluidos los movimientos y las expresiones.

Desarrollado con

amazon-web-services
sagemaker
lambda
deeplens
polly

Probar