Amazon Web Services ブログ

ASLens について学ぶ – AWS DeepLens を使用してアメリカ手話の英字を音声に変換するディープラーニングプロジェクト

Chris Coombs は、オーストラリアのメルボルンから AWS re:Invent 2017 に出席しました。彼は、AWS DeepLens に手を差し伸べる幸運な一人になれて喜んでいました。彼は、AWS DeepLens Challenge ハッカソンに参加して、AWS DeepLens を有効活用しました。多くの才能を持つ彼は夫であり、2 人の小さな子供の父であり、元弁護士からソフトウェアエンジニア/クラウドアーキテクトになりました。AWS DeepLens Challenge ハッカソンのために、彼は ASLens と呼ばれるプロジェクトを作りました。

ASLens は、AWS DeepLens を使用して、アメリカ手話 (ASL) にサインインしている人のビデオをキャプチャします。次に、各フレームに対してディープラーニングモデル (Amazon SageMaker で構築) を実行します。ASL アルファベットの文字が認識されると、AWS DeepLens はその文字の音声を再生します (Amazon Polly を使用して生成される MP3 ファイルを使用)。ASLens は AWS DeepLens でローカルに実行されるため、インターネット接続は不要で、帯域幅の問題がなくなり、速度が向上します。

Chris は、AWS に精通しています。彼は、AWS メルボルンユーザグループの共同主催者であり、Datacom の AWS APN Cloud Warrior として働いています。彼は、AWS DeepLens を使用して機械学習を実践することでスキルをさらに磨くことに熱心でした。Amazon SageMaker、AWS Lambda、Amazon Polly、もちろん AWS DeepLens など、さまざまな AWS サービスを活用して ASLens を構築しました。

AWS DeepLens の経験について詳しく知るために、私たちは Chris にインタビューを行い、ASLens の作成についてもう少し詳しく教えてくれるようにお願いしました。

実際の ASLens

機械学習を始める

Chris は、モデルトレーニングを開始する機会として AWS DeepLens をとらえたのです。

「私は AI サービス (Amazon Lex など) を使ってチャットボットを作成した経験はありましたが、スタンフォードのオンライン AI コースを受講した後、AI アルゴリズムと自分のモデルを練習する実用性を手に入れたいと思っていました。」

知らないうちに、Chris は、機械学習トラックの一般セッションとしてカタログに登録された、re:Invent の前に AWS DeepLens ワークショップの事前登録を行っていたのです。

「re:Invent へ向かう数週間前に、AI ワークショップの 1 つにスペースを確保していたのですが、これが DeepLens のセッションの 1 つになったのは偶然でした。」

シリコンバレーとオーストラリアの「ソーセージシズル」のファンとして、彼はワークショップで多くの楽しさを味わい、オーストラリアに帰って「Hot Dog Not Hot Dog」モデルをテストしました!

「ワークショップ自体はとても楽しいものでした。シリコンバレーの Uber のファンである私は特に「Not Hot Dog」の例を楽しみました。メルボルンから来た人の隣に座ったことが判明したとき、「ソーセージシズル」がホット・ドッグとして登録されるかどうか冗談で尋ねました。気づいていない人にとっては、「ソーセージシズル」は、オーストラリアの伝統的なホットドッグ (パンにチキンソーセージとケチャップ) であり、社会行事の定番品です。オーストラリアに戻ったすぐ後、私はをユーザグループで DeepLens のデモを行い、オーストラリアの「ソーセージシズル」がホットドッグではないことをきっぱりと (そして「Not Hot Dog」プロジェクトを使って) 決定しました!うわっ!」

ASLens のインスピレーション

Chris はハッカソンへの挑戦に動機付けられ、それを「新しくてエキサイティングな何かを作る大きな理由」と考えました。

プロジェクト自体のインスピレーションは、彼の家族から得られました。

「私の妻 (子供たちに「赤ちゃんのサイン」を教えていた) から、ASLens のアイデアを思いついたのです。正直に言うと、アイデアは達成するにはあまりに複雑すぎると思いました。挑戦を恥ずかしがることは一度もなく、それを行ったら、うまく行ったのです!」

Chris は始めるのが簡単だと分かったので、彼の娘を学習プロセスに参加させたところ、娘は機械学習を上手に早く進められたのです。

「DeepLens を使い始めることは、朝飯前でした。私の娘と私はすべてのデモプロジェクトを行いました。結局、娘は彼女のおもちゃのすべてを「オブジェクト検出」プロジェクトに対してテストしたと思います。」

AWS DeepLens による構築

Chris が、DeepLens にあらかじめパッケージ化されているサンプルプロジェクトのテストから、Amazon SageMaker を使用して独自のモデルを初めて構築しトレーニングするまで、家族の協力は続きました。

「DeepLens モデルのトレーニングは、新しい SageMaker サービスを使用する初めての機会でした。まず、手話データを収集しなければなりませんでした。これは家族の努力でした。インターネットでアメリカ手話の画像を見つけて、集めるよう、妻に依頼したのです。トレーニングデータをアップロードした後、SageMaker から完全に機能するモデルを手に入れるのに 1 時間もかかりませんでした!」

機能のすべてを稼働させることがすべてスムーズに実行できたわけではありませんでしたが、同僚の開発者の助けを借りてフォーラムに参加しました。

「実際、DeepLens に音声を再生させるのには本当に苦労し、ほとんど自動化されたショッピングリストジェネレータに方向転換しました。DeepLens が内部で Greengrass を活用するにつれて、最終的に私の問題に対する答えを Greengrass フォーラムで見つけることができました。」

Chris による ASLens の構築の詳細を読み、GitHub レポートにアクセスするには、ASLens コミュニティのプロジェクトページをご覧ください。

プロジェクトを公開して以来、Chris は自分の経験を共有するようにアプローチしています。

「おそらく、ASLens を構築する上で最も重要な部分は、独自のバージョンの ASLens の構築に関する助言で手を差し伸べてくれた人の数です。私は自分が学んだことを分かち合い、みなさんのプロジェクトが成果を上げるのを楽しみにしています。」

ASLens の今後

Chris は、ASLens の機能を広げる機会を待っています。

「ASLens は、現在 ASL アルファベットに限定されており、静的ではないので J と Z は省略しています。私は、動きと表現を含む言葉を特定することによって、ASLens に関する研究を続けたいと思っています。」

結論として

Chris と彼の家族がこの素晴らしいプロジェクトを作成したことをお祝いします!

Chris のストーリーが AWS DeepLens についてより詳しく学ぶきっかけになれば幸いです。AWS DeepLens Challenge のすべてのプロジェクトは、DeepLens コミュニティのプロジェクトページをご覧ください。一般的な情報については、AWS DeepLens ウェブサイトをご覧いただくか、AWS Machine Learning ブログで AWS DeepLens 記事をお読みください。

AWS DeepLens Challenge は、AWS と Intel が開発者に AWS DeepLens に関する創造を促すための仮想ハッカソンでした。コンテストの詳細については、AWS DeepLens Challenge ウェブサイトをご覧ください。現在、申し込みは終了しています。


今回のブログ投稿者について

Sally Revell は AWS DeepLens のプリンシパル製品マーケティングマネージャーです。Sally は人々の生活に良い影響をもたらす革新的な製品に取り組むことに強い関心を持っています。仕事以外では、ヨガ、乗馬、そして自然の中で太平洋岸北西の美しさに囲まれることが好きです。