ASLens

Ispirazione

ASLens impiega AWS DeepLens per tradurre il linguaggio dei segni americano in un messaggio vocale.

Cosa fa

AWS DeepLens cattura il video ed esegue un modello di apprendimento approfondito (realizzato con AWS SAgeMaker) per ogni frame. Quando una lettera dell’alfabeto della lingua dei segni è riconosciuto, AWS DeepLens riproduce l’audio corrispondente (utilizzando un file MP3, generato con AWS Polly).

ASLens è eseguito in locale su AWS DeepLens, per questo non è necessaria una connessione Internet (il che evita di avere problemi legati alla banda larga e aumenta la velocità, così che il sistema non debba muoversi da una rete all’altra).

Creato da: Chris Coombs

Per ulteriori informazioni su Chris e il progetto ASLens, consulta questo post sul blog del machine learning di AWS.

Riconosce l'alfabeto della lingua dei segni americana e riproduce l'audio corrispondente.

Come l’ho realizzato

Il modello di apprendimento approfondito di ASLens è stato creato con AWS SageMaker. Utilizzando un esempio di apprendimento per il trasferimento di un’immagine ho potuto trasferire i dati di addestramento al mio primo modello in meno di un’ora!

La funzione Lambda prima ottimizza il modello di AWS SageMaker per eseguire la GPU di AWS DeepLens e poi taglia e scala ciascun frame. Una volta ridimensionato, il frame video è eseguito contro il modello e se viene riconosciuta una lettera dell’alfabeto della lingua dei segni, viene riprodotto il file MP3 corrispondente.

Difficoltà

Se una lettera dalla J alla Z include un movimento, ho dovuto escluderlo dal set di addestramento.

Ho speso molto tempo, tra tentativi ed errori, per far sì che il file MP3 venisse riprodotto su AWS DeepLens. Per chiunque stia riscontrando la stessa difficoltà, ecco in breve la soluzione: aggiungi il ggc_user al gruppo audio, aggiungi le risorse al gruppo Greengrass (e la funzione Lambda all’interno) e ripeti queste azioni per ogni distribuzione!

Risultati di cui vado fiero

Non riesco ancora a credere che funzioni davvero! È come se fosse magia! Mia moglie ha avuto l’idea e io ho pensato che fosse un lavoro troppo impegnativo. Sebbene sapessi che avrei potuto gestire bene l’hardware del DeepLens AWS, temevo di non avere abbastanza esperienza per creare il modello appropriato. Fortunatamente Amazon SageMaker si prende cura di tutti gli aspetti più complicati del machine learning, così che io potessi concentrarmi a raccogliere dati per l’addestramento (e far riprodurre audio sul dispositivo AWS DeepLens).

Cosa ho imparato

Dal momento che AWS DeepLens utilizza AWS Greengrass, ho imparato molto circa questo servizio. Questo progetto mi ha anche spinto a riprendere un corso online sull’apprendimento approfondito così che potessi utilizzare meglio Amazon SageMaker per includere algoritmi personalizzati.

Il futuro di DeepLens ASLens

Al momento ASLens funziona solo per il linguaggio dei segni ed omette la J e la Z poiché non sono statiche. Vorrei continuare a lavorare su ASLens per identificare parole, inclusi movimenti ed espressioni.

Creato con

Amazon-Web-Services
SageMaker
Lambda
DeepLens
Polly

Fai una prova

Repository GitHub