DeepLens Family Assistant

Inspiración

Al pensar en ideas de desafíos para DeepLens, decidimos rápidamente que queríamos crear algo que pudiera ayudar a personas con necesidades. Queríamos usar la tecnología para unir a las personas y no como un objetivo en sí misma. Después de considerar muchas de las aplicaciones del dispositivo DeepLens, reconocimos que la capacidad de reconocer rostros sería invaluable para ayudar a aquellos que tenían dificultades para reconocer a otras personas. Las pacientes diagnosticados con demencia tienen dificultades en reconocer a sus amigos e incluso sus familiares, lo que puede causar que se desorienten y se confundan cuando hablan con sus seres queridos.

Qué hace

Los pacientes que sufren pérdida de memoria pueden usar nuestra aplicación que los ayuda a recordar a sus seres queridos. La cámara del dispositivo DeepLens configurada con nuestra aplicación puede actuar como asistente. Reconoce a los familiares y a los amigos en frente de la cámara y el audio reproduce su nombre con una breve biografía. Esto beneficia y ayuda conectar los cabos sueltos para aquellas personas con pérdida de memoria.

Las imágenes de familiares y amigos con una breve información se configuran previamente y se cargan en un almacén de datos. Cualquier miembro de la familia del paciente puede cargarlo a través de la interfaz de usuario web simple de la aplicación.

Los pacientes también pueden utilizar la cámara y la aplicación del dispositivo DeepLens en su casa para hacer ejercicios de memoria. Los estudios demuestran que estos ejercicios pueden retardar la pérdida de la memoria. Los pacientes pueden mostrar imágenes de familiares y amigos, las cuales se almacenan en sus teléfonos inteligentes y se envían a la cámara. Se reconoce la imagen y se reproduce el audio del nombre con la biografía de la persona. También las pueden utilizar los médicos y los cuidadores del paciente.

Cómo la desarrollamos

Se utilizaron los siguientes servicios de AWS para crear la aplicación: modelo predeterminado de detección de rostros provisto con DeepLens, Elastic Beanstalk, Rekognition, Polly, Lambda, S3.

Interfaz de usuario: se utiliza Elastic Beanstalk para crear una aplicación web simple y fácil de usar a fin de cargar fotos maestras de miembros de la familia o amigos con su biografía respectiva. La biografía contendrá información breve sobre la persona, lo que ayudará a establecer las conexiones para el paciente. Toda la información se almacena en un bucket maestro S3.

Modelo de aprendizaje automático: el modelo predeterminado de detección de rostros provisto con DeepLens se usa tal como está dentro de la aplicación. La función lambda asociada con este modelo, que se ejecuta dentro del servicio Greengrass en el dispositivo, se personalizó para cargar marcos de imagen en S3 y reproducir audio.

Reconocimiento facial: el servicio de reconocimiento de AWS se utiliza para reconocer los rostros cargados mediante marcos que captura el dispositivo.

Texto a voz: utilizamos la funcionalidad synthesizeSpeech de AWS Polly para convertir el recuerdo de los usuarios sobre un amigo, en un archivo de audio que involucra interactivamente al usuario.

Flujo de extremo a extremo: los buckets S3 y la función lambda se usan para asociar todo de manera asíncrona para el flujo de extremo a extremo. Los marcos de imágenes que se dejan en el bucket s3 activan una función lambda que se conecta a AWS Rekognition para reconocer a la persona. La información de la persona almacenada en el bucket maestro S3 se recupera y se sintetiza en voz utilizando AWS Polly. El audio de la voz luego se coloca en un bucket de audio S3 que capta la función lambda y que que se ejecuta en el dispositivo para reproducirlo.

Desafíos

La mayoría de los desafíos estaban relacionados con el dispositivo DeepLens. Agradecemos la ayuda del equipo de AWS que responde con paciencia las consultas en los foros y en el canal de slack. Los horarios de oficina realmente ayudaron a un formato casi personalizado de expertos que resuelven problemas específicos. Estos fueron algunos de los desafíos relacionados con el dispositivo:

  • Registro del dispositivo: se hicieron varios intentos para configurarlo y hubo problemas, como la URL predeterminada que estaba en conflicto con la subred wifi.
  • Reproducción de audio: se necesitó mucha ayuda del equipo de AWS y de otros participantes para obtener un flujo de extremo a extremo y reproducir el audio desde el dispositivo. Los pasos importantes para que funcionara fueron el cambio manual del archivo group.json con cada implementación de proyecto y la configuración de los módulos de Python Boto a los cuales ggc_user puede acceder.

Logros de los que estamos orgullosos

Estamos realmente orgullosos de haber creado algo que ayudará a personas con necesidades. Nuestra aplicación y solución ayudará a aquellos que sufren de pérdida de memoria a ser más sociables y a ser parte de su círculo de familiares o amigos. La aplicación proporciona una herramienta que pueden utilizar ellos mismos de forma independiente.

Lo que aprendimos

  1. Trabajamos muy bien con varios servicios de AWS, incluso Rekognition, Polly.
  2. Configuramos el dispositivo DeepLens, lo instalamos para ejecutar modelos de aprendizaje automático y lo ampliamos para tomar acción sobre las inferencias.

El futuro de DeepLens Family Assistant

  1. Ejecutar la aplicación Assistant sin conexión a Internet o a la nube. Esto requerirá crear modelos de aprendizaje automático para detectar rostros y reconocerlos con SageMaker y MXNet. Subirlo al dispositivo para que la inferencia de reconocimiento facial ocurra en el propio dispositivo. Esta será una actualización importante que hará que el dispositivo sea portátil. El enfoque básico y el código lambda podrían reutilizarse con el dispositivo DeepLens actual o cualquier dispositivo similar que pueda actuar como un verdadero compañero.
  2. Mejorar el rendimiento integral del reconocimiento de rostros y reproducir la biografía de audio correspondiente. El punto n.º 1 debería ayudar significativamente con esto.
  3. Seguridad para poder asociar un dispositivo a un paciente y su familia en particular.

Desarrollado con

amazon-web-services
lambda
s3
python
rekognition
deeplens
polly