Amazon Web Services ブログ

Category: Artificial Intelligence

Bewgle が AWS を原動力にして、非構造化テキストをインサイトに変える

SAP.iO および Techstars の資金提供を受ける企業である Bewgleは、AWS のサービスを使用してユーザー側で生成されたテキストや音声ストリームからインサイトを浮上させます。同社はインサイトの生成により、美容器具や電子機器といったさまざまな製品において、顧客満足度やエンゲージメントの向上を目指すプロダクトマネージャーのサポートを行っています。  AWS の技術を原動力とする Bewgle の支援を受けて顧客の声に耳を傾けると、プロダクトマネージャーは製品の売り上げの増大が実現できるようになります。 平均的な人間が 1 分間に読める文字数は約 250 字にすぎません。そのため、1000 件のカスタマーレビューをまとめるには、8 時間あまりかかってしまいます。すると、こうしたレビューすべてに加え、フォーラム投稿やブログ投稿のようなその他のテキスト、そしてアンケート結果の逐語的記録や音声ストリームを分析することなど実行できるはずがありません。 AI、特に natural language processing (NLP) と呼ばれる機械学習 (ML) が優れているのはまさにこの分野です。Bewgle の中心的なソリューションは AWS 上ですべてが開発された AI プラットフォームで、数百万規模のコンテンツを分析し、キートピックおよびその背後に潜む感情を抽出します。Amazon Machine Learning および AWS テックスタック全体では、通常なら数年かかる作業をわずか数分で完了できます。 Bewgle のソリューションはまさに、幅広い AWS のサービスを活用しているのです。Bewgle のデータ処理パイプラインが依存する AWS Lambdaおよび Amazon DynamoDB は以下の ML タスクのコアを形成します。 大規模な分析データを保存する。 データのクリーンアップする。 さまざまな処理機能をダイナミックに活用して分析を生成する。 チームは、システムのスケーリング、大まかに結合されたさまざまなワークフローを組織するために、革新的でサーバーレスな ML ワークフローを開発しました。チームはこれにより、さまざまなアプローチを評価、選択するにあたって驚異的な俊敏性および柔軟性を得て、スピーディーなイノベーションを推進することが可能になりました。 Bewgle のワークフローは通常、大規模かつオンデマンドのデータの収集、タグ付けを行うAmazon […]

Read More

AWS DeepRacer League: 最初の仮想サーキットチャンピオンが王者になってから、6 月のレースが始まります!

AWS DeepRacer League は、誰に対しても開かれている、世界初のグローバル自走型レーシングリーグです。DeepRacer コンソールを使用して、世界中の 21 のイベントで競い合い、賞品と栄誉を掴みましょう。あらゆるスキルレベルの開発者が楽しく刺激的な方法で機械学習を活用することができます。4 月末に仮想サーキットが開始され、開発者はコンソールを通して世界中のどこからでも競い合うことができます。毎月の大会 6 つのうちの 1 つでポイントを獲得してリーダーボードの上位に進出できます。車やトラックは必要ありません。 肝心な 6 月のレースにご注目ください! 6 月 3 日にクモトラックチャレンジが開催され、6 月 30 日の深夜 (太平洋標準時) までレースが続きます。日本の鈴鹿サーキットから始まったこのトラックは、あらゆるスキルレベルの開発者がモデルをテストし、機械学習の知識と実践経験を向上させるのに役立ちます。コンソールにログインするだけで十分です。モデルを起動して実行する簡単なステップをいくつか実行して、レースを始めることができます。AWS 無料利用枠では、最初の 30 日間の使用で最長 10 時間のトレーニングを受けることができるので、AWS DeepRacer League に無料で参加できます。 基本学習が終わったら、リーダーボードへの提出準備が整うまで、AWS DeepRacer オンラインシミュレーターに熱中し、モデルのトレーニングを見ることができます。ヘアピンカーブを回って富士山の景色を眺めてみますか? モデルが曲線を通るように速度や方向を最適化しますか? ポールポジションになるようにモデルを調整できますか? 本日のレースにご参加ください。複数のオンラインレースに出場すると、より多くのポイントを獲得し、仮想サーキットの賞品に当たる可能性が高まります。 AWS DeepRacer League は誰にでも開かれています。仮想サーキットはコンソールからでも参加でき、AWS DeepRacer の車を購入したり、対戦機会を得るために対人レースに参加したりする必要はありません。エンジンを始動させてください、6 月のレースが始まります! AWS DeepRacer 3D オンラインシミュレーターから、クモトラックのフルラップをご覧ください。 鈴鹿サーキットと新しいクモトラックの仮想レーストラック クモトラックの新機能は何ですか? 風景を楽しむ以外にも、秒速 8 メートルの最高速度でモデルをトレーニングすることができます。しかし、クモトラックには狭いコーナーがあり、最高速度で走る車は曲線コースをうまく回ることができない恐れがあります。ご注意ください。モデルが一点に集まるまでには時間がかかる場合があります。スロットルを大きくするとトレーニング時間が長くなる可能性があるため、成功するためには報酬機能で速度をお試しください。re:Invent 2019 […]

Read More

Amazon Textract を使用したドキュメントからのテキストと構造化データの自動抽出

ドキュメントは、金融、医療、法律、および不動産などの数多くの業界全体における記録管理、コミュニケーション、コラボレーション、そして取引のための主な手段です。毎年処理される何百万もの住宅ローン申請、そして何億もの W2 納税申告書は、そのようなドキュメントの数例にすぎません。多くの情報は、非構造化ドキュメントに閉じ込められています。これらのドキュメントの検索と検出、ビジネスプロセスの自動化、およびコンプライアンス管理を可能にするには、時間がかかる複雑なプロセスが必要になるのが通常です。 この記事では、Amazon Textract を利用して、機械学習 (ML) の経験がなくてもスキャンされたドキュメントからテキストとデータを自動的に抽出することができる方法を説明します。AWS が可用性に優れたスケーラブルな環境での高度な ML モデルの構築、トレーニング、およびデプロイメントを処理するので、皆さんには簡単に使用できる API アクションでこれらのモデルを活用していただきます。この記事で取り上げるユースケースは以下のとおりです。 ドキュメントからのテキスト検出 複数の列の検出と読み順 自然言語処理とドキュメント分類 医療ドキュメントのための自然言語処理 ドキュメント翻訳 検索と検出 フォームの抽出と処理 ドキュメント編集によるコンプライアンス管理 表の抽出と処理 PDF ドキュメントの処理 Amazon Textract ユースケースについての説明を始める前に、コア機能をいくつか見直して、ご紹介したいと思います。Amazon Textract は、シンプルな光学文字認識 (OCR) という枠を超えて、フォーム内のフィールドのコンテンツや、表に格納された情報も識別します。これにより、Amazon Textract を使用して、手動での工数やカスタムコードを必要とすることなく、実質上どのようなタイプのドキュメントでも瞬時に「読み取り」、テキストとデータを正確に抽出することが可能になります。 以下の画像は、サンプルドキュメントと、AWS マネージメントコンソールにある Amazon Textract を使用して抽出したドキュメントのテキスト、フォーム、および表のデータです。 以下の画像は、ドキュメントから未処理のテキストとして抽出された行です。 以下の画像は、抽出されたフォームフィールドとそれらに対応する値です。 以下の画像は、抽出された表、セル、およびこれらのセル内のテキストです。 出力を含む zip ファイルをすばやくダウンロードするには、[結果をダウンロードする] をクリックします。フォームと表については、未処理の JSON、テキスト、および CSV ファイルなどのさまざまな形式を選択できます。 検出された内容の他にも、Amazon Textract は検出された要素の信頼度スコアとバウンドボックスといった追加情報も提供し、抽出されたコンテンツをどのように利用して、さまざまなビジネスアプリケーションに統合させるかをコントロールできるようにしてくれます。 Amazon Textract は、ドキュメントテキストを抽出し、ドキュメントテキストのデータを分析するために、同期および非同期両方の API […]

Read More

【開催報告】AWS DeepRacer リーグ テクニカル・ワークショップ

皆さん、こんにちは。アマゾン ウェブ サービス ジャパン株式会社 (AWS) アソシエイトソリューションアーキテクトの小田桐昂史です。暑い日が続いておりますが、いかがお過ごしでしょうか。 5/30 (木) AWS Loft Tokyo において、AWS DeepRacer リーグ テクニカル・ワークショップが開催され、満席となる非常に多くの方にご参加いただきました。今回は、AWS DeepRacer カー実機の登場によって、毎日の暑さにも負けないほどに盛り上がったこのイベントの様子についてお伝えしたいと思います。次回 6/6 (木) のお申し込みも受け付けております(内容は今回とほぼ同様となります)。 まずはじめに、AWS DeepRacer リーグの開催概要について説明いたしました。AWS DeepRacer リーグは、実際のサーキットで行う「Summit サーキット」と「バーチャル サーキット」の2つのタイプがあります。Summit サーキットは、世界各地で行われるAWS Summitの会場に設置され、日本では、6/12 (水) 〜 14 (金) 幕張メッセで行われるAWS Summit Tokyo 2019にて3日間、開催されます。 Summit サーキットでは、学習したモデルをお持ちいただき、AWS DeepRacer カーにインストールし、レースを行なってもらいます。1人あたり4分の持ち時間が与えられ、周回したうちベストラップを記録とします。各AWS Summitでの優勝者には、re:Invent 2019にご招待します。また、1位から10位の入賞者にはAWS DeepRacer カーを贈呈いたします。 バーチャル サーキットは、AWS DeepRacer コンソールを使い世界中のどこからでも参加できるレースで、毎月新しいコースが公開され、月ごとの優勝者にはSummit サーキット同様にre:Invent 2019へ招待される権利が贈呈されます。 続いて、AWS 機械学習ソリューションアーキテクトの宇都宮よりAWS DeepRacerについて、その概要から構成要素、リーグのためのモデルを学習する方法,シミュレーション環境やコンソールの利用方法について説明いたしました。AWS DeepRacerの学習には、強化学習が利用されています。車の動きや環境を記述する、シミュレータとの相互作用を通して、最適な方策を学習していきます.報酬関数が重要な役割をもっており、学習に利用できる車からの情報(位置情報や速度等)と、観測結果であるカメラ画像を元にした方策を効果的に学習することで、モデルはセンターラインに沿って走ったり、コーナーを曲がったりすることができるようになります。AWS […]

Read More

Amazon SageMaker による検索エンジンの強化

この記事は、Ibotta 社の機械学習マネージャー、Evan Harris 氏によるゲスト投稿です。Ibotta 社によると、「Ibotta は、単一のスマートフォンアプリを通じて消費者が簡単に普段の買い物に対するキャッシュバックを獲得できるようにすることでショッピング体験を変革しており、食料品、電子機器、衣料、ギフト、家庭および事務用品、レストランでの食事などに対する特典を提供するために、一流のブランドおよび小売業者と提携してる」とのことです。 急成長するミドルステージの企業間における技術面での隔たりは、ユニークな課題を生みがちです。  このような企業の多くで重要視されるのは、高品質アプリケーションを迅速かつ効率的に構築することです。 普段の買い物に対するキャッシュバックを何百万ものユーザーに提供するモバイルアプリ、Ibotta の機械学習 (ML) チームは、このトピックについてかなりの考察と実験を行ってきました。  今日は、Amazon SageMaker を使った検索など、コア機能を実現するために当社が AWS を活用する方法についてお話したいと思います。 この記事では、Ibotta の検索エンジンのアーキテクチャ、そしてリアルタイムの ML を当社のモバイルアプリケーションの検索経験に統合するために Amazon SageMaker とその他の AWS サービスを使用する方法について説明します。この記事が、皆さんの組織の規模に関わらず、組織内における同じような課題に対する実行可能なソリューションを探す期間を短縮するために役立てば幸いです。 包括的で使いやすい検索フローを備える能率化されたモバイルアプリ経験を生み出すことは、私たちのビジネスにとって必要不可欠です。買い物前にお買い得情報を探すお客様は、価値ある情報をすばやく見つける必要があり、そうでなければあきらめてしまう傾向があります。 検索関連性エンジニア、ML エンジニア、設計者、およびモバイル開発者の専属チームを持つ当社では、検索関連性に対する新しくクリエイティブな改善を迅速に開発し、テストするために出来る限り多くの最新テクノロジーを使用しています。Ibotta はデータ主導のインテリジェンスを検索エンジンに投入するための ML の使用を優先しており、これは私たちを従来の情報取得手法を超えたレベルに押し進めます。 基礎を成す検索インフラストラクチャ Ibotta での検索のコアインフラストラクチャは、アプリの幅広いマイクロサービスを土台としています。インデックス化されたドキュメントは Amazon Elasticsearch Service に保存され、これにはモバイルクライアントが任意の時点で利用できるコンテンツのすべてが収められています。リクエストに応じて社内のコンテンツサービスがこのドキュメントストアと通信し、リクエストを行っているユーザーが利用できるコンテンツのみが返されることを確実にするための、追加のルールベースのフィルタリング機能を提供します。 このコンテンツサービスは入力検索クエリを受け取り、他の文脈上の考慮事項を計算に入れながら、関連するコンテンツで応答することができます。コンテンツサービスは典型的な lucene スタイルの検索関連性手法を使用して Elasticsearch ドキュメントストア内の適切なコンテンツを取得します。 ML で強化された検索インフラストラクチャ 基礎となる検索インフラストラクチャには、大きな改善の余地があります。Ibotta の検索問題領域には、特にコンテンツに関してユニークな課題があり、ある週に特定ブランドのための特典がアプリ内にあっても、別の週にはその特典がなくなっているという場合があります。これは、私たちが提携する小売業者によるものです。小売業者は、限定された期間だけアイテムを宣伝したいということが多々あるからです。 これに加えて、当社のアプリでは全く利用できないブランドと製品のカテゴリもあります。これは、当社がまだこれらの小売業者と連携していないからですが、私たちは、ユーザーの検索クエリがアプリ内のコンテンツに完全に一致しない場合でも、それらのユーザーに関連するコンテンツを表示したいと考えています。例えば、取り扱っていないブランドのコーヒーに対する検索は、重要な属性 (フレーバー、サイズ、価格など) 全体に一致する他のコーヒーブランドを返すべきです。 これに対するソリューションがクエリ拡大です。これは、データストアをクエリする前に、ユーザーの検索クエリにコンテンツを追加する一般的な検索手法です。ある状況では、リアルタイムで検索クエリをカテゴリ別に分類することによって価値を付加し、コンテンツ取得とソートアルゴリズムを強化します。別の状況では、カテゴリに分類した後、予測されたカテゴリを専門とするオンライン小売業者を検索してソートし、それらを提案としてユーザーに返します。 Ibotta では、これらのオンデマンドのカテゴリ推論をリアルタイムで行うために Amazon […]

Read More

【開催報告】第5回 Amazon SageMaker 事例祭り

アマゾン ウェブ サービス ジャパン株式会社 (AWS Japan) アソシエイトソリューションアーキテクトの針原 (Twitter: @_hariby) です。AWS Japan 目黒オフィスでは「Amazon SageMaker 事例祭り」(Twitter: #sagemaker_fes) を毎月開催しています。2019年5月21日に開催された第5回 Amzon SageMaker 事例祭りでは、AWS Japan のソリューションアーキテクトによるサービス紹介と、Amazon SageMaker をご利用いただいているお客様をゲストスピーカーにお招きした具体的な導入・運用事例紹介をさせて頂きました。各セッションの様子を以下にまとめます。

Read More

AWS DeepRacer League のストックホルムの入賞者からレースのヒントをもらい、さらに AWS DeepRacer TV のご紹介をします!

AWS DeepRacer League は、世界初のグローバル自走型レーシングリーグです。世界各地で 21 の AWS Summits レースと Amazon の厳選されたイベントが開かれているほか、オンラインで毎月仮想レースが開催され、レースが行われています。世界のどこにいようと、そしてスキルレベルに関係なく、リーグに参加することができます。AWS DeepRacer のレーシングカーをゲットし、レースで優勝して re:Invent 2019 旅行を勝ち取りましょう (費用は全額こちらで負担いたします)。そして AWS DeepRacer チャンピオンカップで競い合いましょう。 AWS DeepRacer レーサーになる 今週、Summit Circuit がスウェーデンで開かれ、シーズンも折り返し地点に突入し、競争はヒートアップしています。AWS Summit Stockholm でのレースも刺激的でした。表彰台に上った 3 人のレーサーがリーグに参加するためにサミットにやって来たのです。 第 3 位は Charlie で、5 月 8 日にロンドンで開催された AWS Summit にも参戦しました。トップ 10 でフィニッシュしたことで AWS DeepRacer レーシングカーを勝ち取りましたが、ストックホルムに来てもう一度勝利してみたかったのです。ロンドンでは彼は 9.7 秒のタイムで、首位からわずか 0.8 秒遅れただけでした。自分のモデルにもう少しトレーニングを行ったことで、彼は 9.5 秒のタイムをたたき出し、ストックホルムで第 3 位を獲得することができました。2 […]

Read More

機械学習と Amazon SageMaker ノートブックを使用したデータウェアハウステーブルの探索

あなたは、機械学習 (ML) 環境で探索したいデータウェアハウステーブルを持つデータサイエンティストですか? もしそうなら、読んでください。 この記事では、データウェアハウスに保存され、Amazon SageMaker ノートブックから AWS Glue データカタログでカタログ化されている大規模データセットに対して探索的分析を実行する方法を紹介します。Amazon SageMaker で実行されている Jupyter ノートブックから企業データウェアハウス内のデータセットを特定して探索する方法について詳しく説明します。Amazon Redshift から Amazon EMR に興味深い情報を抽出し、そこでさらに変換する方法を示します。そうすると、すべてシームレスな体験として、ノートブックのデータを分析して視覚化し続けることができます。 この記事は、以下の以前の記事を基にしていますので、最初にその記事を確認することをお勧めします。 Amazon EMR で Spark によってサポートされる Amazon SageMaker ノートブックを作成する Amazon S3 のデータを AWS Glue データカタログで管理し、Amazon SageMaker ノートブックから利用する方法 Amazon SageMaker の概要 Amazon SageMaker は、フルマネージド ML サービスです。Amazon SageMaker を使用することで、データサイエンティストや開発者は、ML モデルを迅速かつ容易に構築、トレーニングすることができます。また、用意したモデルを実稼動も可能なホステッド環境に直接デプロイすることもできます。Amazon SageMaker には Jupyter のオーサリング環境が統合されており、データサイエンティストの初期のデータ探索や分析、モデル構築に便利です。 課題は、対象となるデータセットを見つけることです。データがデータウェアハウスにある場合は、関連する情報のサブセットを抽出し、それを Jupyter ノートブックにロードして詳細な探索やモデリングを行います。個々のデータセットが大きくなり、数が増えるにつれて、対象となる可能性があるすべてのデータセットを抽出し、ノートブックにロードしてマージすると、実用的ではなくなり生産性が低下します。こうした種類のデータの組み合わせや探索に、データサイエンティストは最大 80% […]

Read More

AWS DeepRacer League の仮想サーキットが進行中。re:Invent 2019 への参加旅行を獲得しよう!

誰でも参加できる、世界初のグローバル自走型レーシングリーグ、AWS DeepRacer League がますますヒートアップしています。ファーストラウンドは、現在ほぼ中間地点をむかえ、Summit サーキットのスケジュールの 21 レースのうち 9 レースが終了しています。開発者が継続的に新しい機械学習のスキル向上を目指し、ラップタイムをリーダーボードに投稿します。こちらで、今週の動きからのニュースをまとめました。

Read More

Amazon SageMaker と Apache Airflow でエンドツーエンドの機械学習ワークフローを構築する

機械学習 (ML) ワークフローは、データの収集と変換を可能にすることによって、一連の ML タスクを調整して自動化します。続いて、成果を達成する ML モデルのトレーニング、テスト、および評価が行われます。たとえば、Amazon SageMaker でモデルをトレーニングし、そのモデルを本番環境にデプロイして推論呼び出しを行う前に、Amazon Athena でクエリを実行するか、AWS Glue でデータ集約の準備を行うことがあります。これらのタスクを自動化し、複数のサービスにわたって調整を行うことで、繰り返し可能で再現可能な ML ワークフローを構築することができます。これらのワークフローは、データエンジニアとデータサイエンティストの間で共有できます。 概要 ML ワークフローは、モデルの精度を向上させ、より良い結果を得るために、循環的かつ反復的なタスクで構成されています。私たちは、最近、Amazon SageMaker との新しい統合を発表しました。統合により、これらのワークフローを構築および管理できます。 AWS Step Functions は、エンドツーエンドのワークフローで Amazon SageMaker 関連のタスクを自動化および調整します。  Amazon S3 への公開データセットの自動化、Amazon SageMaker でデータの ML モデルのトレーニング、予測にモデルのデプロイすることができます。AWS Step Functions は、Amazon SageMaker およびその他のジョブが成功または失敗するまでモニタリングし、ワークフローの次のステップへ移行するか、ジョブを再試行します。それには内蔵エラー処理、パラメータ渡し、状態管理、実行中のMLワークフローの監視可能なビジュアルコンソールが含まれています。 現在、多くのお客様が Apache Airflow を使用しています。これは、複数ステージにわたるワークフローの作成、スケジューリング、およびモニタリングを行うための一般的なオープンソースフレームワークです。この統合により、モデルのトレーニング、ハイパーパラメータの調整、モデルのデプロイメント、バッチ変換など、複数の Amazon SageMaker 演算子が Airflow を利用できます。これにより、同じ調整ツールを使用して、Amazon SageMaker で実行されているタスクで ML ワークフローを管理できます。 このブログ記事では、Amazon Sagemaker と Apache […]

Read More