Amazon Web Services ブログ

Localization Team

Author: Localization Team

Amazon Comprehend が構文解析をサポート

Amazon Comprehend が、Syntax API をサポートするようになりました。 これにより、テキストを (たとえば、単語の境界を抽出するために) トークン化し、対応する品詞 (PoS) を単語毎にトークン化することができます。 本日、Amazon Comprehend は、顧客のコメントが否定的であるか肯定的であるかを知ることや、たとえば「Amazon」を「組織」として固有名詞を分類して特定することなど、ユースケースの分析を可能にします。この新しい Syntax API を使用すると、顧客は最も詳細なレベルのテキストとその単語自体の構文的な意味を分析できるため、より幅広いユースケースをカバーするテキスト文書をより細かく分析することができます。 たとえば、キッチンブレンダー製品を発売したばかりで、お客様のコメントを分析して、どの色が最も多く話題に挙げられているかを調べたいとします。 API に対して次の文字列を送信します。 「I love my new red kitchen blender」 応答は、それぞれの単語、トークン ID、単語自体、オフセット (テキスト内でのその単語の位置)、品詞タグ (形容詞、名詞、動詞など)、信頼度スコア (サービスが、正しい品詞タグであると確信できる度合) を返します。 以下は、応答の例です。 { “SyntaxTokens”: [ { “Text”: “It”, “EndOffset”: 2, “BeginOffset”: 0, “PartOfSpeech”: { “Tag”: “PRON”, “Score”: 0.8389829397201538 }, “TokenId”: 1 }, { “Text”: “is”, […]

Read More

Amazon SageMaker を使用して画像を分類する

イメージ分類と画像内の物体検出が最近注目されてきていますが、アルゴリズム、データセット、フレームワーク、およびハードウェアの機能の向上が組み合わさった結果です。こうした改良のおかげで技術が一般大衆化し、イメージ分類のためのソリューションが独自で作成できるようになったのです。 画像内の物体検出は、以下の画像が示すように、こうしたアクティビティを実行するアプリケーションの中でも最も重要な機能です。 人の進路と物体追跡 実際の店舗で、商品の再配置を警告する 視覚的な検索 (画像を入力して検索する) イメージ分類および物体検出に使う技術は、深層学習 (DL) に基づいているのが現状です。DL は、多層のニューラルネットワーク (NN) あるいはディープニューラルネットワークを処理するためのアルゴリズムに焦点を当てた機械学習 (ML) のサブ領域です。一方、ML は人工知能 (AI) のサブ領域で、コンピューターサイエンスの分野です。 誰でもこれらの技術にアクセスできますが、実際のビジネスプロセスをサポートするエンドツーエンドのソリューションとして、これらの要素をつなぎ合わせて使うことはまだ難しい状況です。Amazon Rekognition は、非常に正確な顔分析と画像や動画の顔認識ができるシンプルな API を装備しており、すぐに利用できるサービスなので、最初に選ぶならよい選択肢かもしれません。さらに、顔を検出、分析、比較することができるため、多岐にわたるユーザー検証、人数計算、公共の安全といったユースケースにも利用できます。Amazon Rekognition のドキュメントを読めば、シンプルな API 呼び出しでこれらの機能全てをアプリケーションに簡単に追加できることが分かります。 ただし、ビジネス上でカスタムでのイメージ分類が必要な場合は、機械学習モデルを作成するためのパイプライン全体をサポートするプラットフォームが必要です。Amazon SageMaker は、そのためのものです。Amazon SageMaker は、ML モデル開発の全ての手順、つまりデータ検索と構築、トレーニング、および ML モデルのデプロイをサポートする、完全マネージド型のサービスです。Amazon SageMaker を使用すると、どんなビルトインアルゴリズムでも選択でき使用することができるので、市場投入までの時間と開発コストを削減できます。詳細は、「Amazon SageMaker でビルトインアルゴリズムを使用する」をご参照ください。 カスタムの画像識別子を作成する このブログ記事は、服装品やアクセサリーを識別するための画像識別子の作成を目標としています。これらのアイテムの画像がいくつかあり、それらを見て、何の物体が各画像に含まれているかを言う (予測する) モデルが必要だとしましょう。Amazon SageMaker はすでにビルトインのイメージ分類アルゴリズムを装備しています。これで、データセット (画像コレクションと各オブジェクトのそれぞれのラベル) を準備し、モデルのトレーニングを開始するだけです。 公開データセットを使用します。これは Fashion-MNIST と呼ばれる ML アルゴリズムをベンチマークするための新しい画像データセットです。データセットは、6 万例のトレーニングセットと 1 万例のテストセットで構成されています。各例は、ラベルまたはクラスに関連付けられた、28×28 のグレースケール画像です。データセットには、T […]

Read More

AWS クラウドの GPU を使用した、スケーラブルなマルチノードの深層学習トレーニング

産業規模のデータセットでディープニューラルネットワークを幅広く採用する際、大きな障壁となるのは、それらをトレーニングするのに必要な時間とリソースです。AlexNet は、2012 年の ImageNet Large Scale Visual Recognition Competition (ILSVRC) を受賞し、現在のディープニューラルネットワークのブームを打ち立てましたが、120 万個の画像、1000 カテゴリのデータセット全体をトレーニングするのに約 1 週間かかっていました。機械学習モデルの開発と最適化は、反復的なプロセスです。新しいデータでモデルを頻繁に再トレーニングし、モデルとトレーニングのパラメータを最適化することで、予測精度を向上します。2012 年以降 GPU のパフォーマンスが大幅に向上し、トレーニング時間は数週間から数時間に短縮しましたが、機械学習 (ML) の専門家は、モデルトレーニング時間をさらに短縮しようと努力しています。 同時に、予測精度を向上させるために、モデルはますます大きくなり複雑化し、よって、計算リソースの需要も増加しています。 クラウドがディープニューラルネットワークをトレーニングするためのデフォルトオプションとなったのは、オンデマンドでの拡張が可能で、俊敏性が向上しているためです。さらに、クラウドを使用することで簡単に始めることができ、プリペイド使用モデルもあるからです。 このブログ記事では、分散 / マルチノード同期トレーニングを使用して、深層学習トレーニング時間をさらに最小限に抑えるため、AWS インフラストラクチャを最適化する方法をご紹介します。ImageNet データセットでは ResNet-50 を、NVIDIA Tesla V100 GPU では Amazon EC2 P3 インスタンスを使用して、トレーニング時間をベンチマークします。90 エポックの標準的なトレーニングスケジュールを使ったモデルを、わずか 8 つの P3.16xlarge インスタンス (64 V100 GPU) を使用して、約 50 分で 75.5% を超える最上位の検証精度になるようトレーニングします。 ML 専門家はモデルの構築とトレーニングに様々な機械学習フレームワークを使用するため、Apache MXNet と Horovod を装備した […]

Read More

AWS 深層学習 AMI が、最適化された TensorFlow 1.9 および Keras 2 サポートの Apache MXNet 1.2 で、Amazon EC2 インスタンスでの深層学習を高速化

Ubuntu および Amazon Linux 用の AWS Deep Learning AMI には、ソースから直接構築され、Amazon EC2 インスタンス全体で高性能のトレーニングが可能となるように微調整されている、最適化された TensorFlow 1.9 のカスタムビルドが付属しています。さらに、この AMI には、パフォーマンスとユーザビリティが何点か改善されている最新の Apache MXNet 1.2、高性能のマルチ GPU トレーニングをサポートする新しい Keras 2-MXNet バックエンド、MXNet モデルのトレーニング向けにデバッグと可視化が改善された新しい MXBoard ツールが搭載されています。 最適化された TensorFlow 1.9 と Horovod によるより高速なトレーニング Amazon Machine Images (AMI) には、ソースから直接構築され、インテル Xeon Platinum プロセッサ搭載の Amazon EC2 C5 インスタンスでのトレーニングを高速化できる、コンピューティングに最適化された TensorFlow 1.9 のカスタムビルドが付属しています。C5.18xlarge インスタンスタイプ上で、合成 ImageNet データセットに対し、当社の TensorFlow 1.9 カスタムビルドを使用して […]

Read More

Amazon SageMaker が、バッチ変換機能と TensorFlow コンテナ向けのパイプ入力モードを追加

数日前のニューヨーク Summit で、Amazon SageMaker の 2 つの新しい機能が始まりました。ペタバイトのデータに対して非リアルタイムシナリオで予測を行うことができるバッチ変換と呼ばれる新しいバッチ推論機能と、TensorFlow コンテナのためのパイプ入力モードのサポートです。SageMaker は大好きなサービスの 1 つであり、このブログや機械学習のブログで幅広く取り上げてきました。実際、SageMaker チームのインベーションの速いペースは、追いつくのが少し難しいです。SageMaker のハイパーパラメータ最適化による自動モデルチューニングに関する最後の記事以降に、このチームは 4 つの新しい組み込みアルゴリズムと多数の新機能を発表しています。それでは、新しいバッチ変換機能を見てみましょう。 バッチ変換 バッチ変換機能は、データを変換して推論を生成するための高性能かつ高スループットの方法です。これは、大量のバッチデータを扱う場合、1 秒未満のレイテンシーを必要としない場合、あるいはトレーニングデータを前処理して変換する必要がある場合に理想的です。何よりもよい点は?この機能を利用するために、わずか 1 行のコードを追加する必要さえありません。既存のモデルをすべて使用して、それらに基づいてバッチ変換ジョブを開始することができます。この機能は追加料金なしで利用でき、基盤となるリソースについてのみ支払うことになります。 物体検出アルゴリズムでこれをどうやって行うのかを見てみましょう。サンプルのノートブックに従って、物体検出モデルのトレーニングを行いました。それでは、SageMaker コンソールに移動し、バッチ変換サブコンソールを開きます。 そこから、新しいバッチ変換ジョブを開始することができます。 ここで、自分の変換ジョブに名前をつけ、使用するモデルを選択し、使用するインスタンスの数とタイプを選択することができます。さらに、同時に推論に送信するレコードの数とペイロードのサイズに関する詳細を設定することができます。これらを手動で指定しないと、SageMaker がいくつかの適切なデフォルトを選択します。 次に、入力の場所を指定する必要があります。マニフェストファイルを使用するか、S3 の場所にあるすべてのファイルをロードするだけです。ここでは画像を扱っているので、入力のコンテンツタイプを手動で指定しました。 最後に、出力の場所を設定してジョブを開始します! ジョブが実行されると、ジョブの詳細ページを開いて、Amazon CloudWatch のメトリクスとログへのリンクをたどることができます。 ジョブが実行中であることがわかります。S3 で結果を確認すると、それぞれの画像について予測されるラベルが表示されます。 変換は、検出した物体を含む入力ファイルごとに 1 つの出力 JSON ファイルを生成しました。 ここから、AWS Glue でバケットのテーブルを作成し、Amazon Athena で結果を照会するか、Amazon QuickSight で視覚化するのは簡単です。 もちろん、これらのジョブを SageMaker API からプログラムで開始することも可能です。 自分のコンテナでバッチ変換を使用する方法についての詳細は、ドキュメントに説明があります。 TensorFlow のためのパイプ入力モード パイプ入力モードでは、高度に最適化されたマルチスレッドバックグラウンドプロセスを使用して、Amazon Simple Storage […]

Read More

Amazon SageMaker を使用して、整形外科的病理を予測するためのモデルを作成する

人工知能 (AI) および機械学習 (ML) の分野は、ヘルスケア産業、特に医用画像化において、勢いを増しつつあります。ML に対する Amazon SageMaker のアプローチは、ヘルスケア分野において将来有望であると言えます。ML は、産業間全体のどの分野においても、適用可能であると考えられています。ヘルスケア分野の範囲で言えば、ML は最終診断を下すための重要な要素として、放射線検査または検査報告のような役割を果たすことが可能なのです。 このブログ投稿では、UCI ML Dataset を使用して、整形外科における ML の使用について説明し、脊椎の病状予測を自動化することを目指します。この技術は、診断時間を短縮し、ML を用いた拒絶選択肢技術を促すことによって、診察訪問数および / または処方数を最小限に抑える対策について考えるよい機会となるでしょう。 この技術により、難しい症例は整形外科医などの専門家に委ねられることになるでしょう。データセットの 2 つの診断である、椎間板ヘルニアおよび脊椎すべり症は、筋骨格疼痛障害を引き起こしうる脊髄病変の 1 つです。疼痛障害のためのオピオイド処方を最小限に抑えるため、リスクにさらされている患者を客観的かつ効果的に特定し治療を行うことのできる ML 技術を駆使することで、コンピュータ支援診断システムに可能性を見出すことができるのです。 このブログの記事では、これらのデータセットをダウンロードして、脊柱の特徴または特性に基づいて、正常または異常な整形外科的あるいは脊髄の病状 (ヘルニアまたは脊椎すべり症) を有するかどうかを予測するための例を提示しています。これらの病状の特性を考慮する予備診断ツールは、高い偽陽性率を有します。MRI は、腰椎椎間板ヘルニアの抑制を検出するのに使用しますが、この技法では ~ 33% の偽陽性率を有します。診断に用いる脊髄ブロック (注射) は、22% から 47% の偽陽性率があります。(注: これを ML モデルを評価する際のベースラインとして使用します)。 これらのデータセットは、マルチクラスおよびバイナリ分類問題の両方を提示します。 病理予測のための Amazon SageMaker での ML モデルの作成 この投稿では、マルチクラスのカテゴリ分類モデルとバイナリ分類モデルという 2 つのモデルを作成し、両方を評価します。マルチクラスのカテゴリ分類は、正常、椎間板ヘルニア、または脊椎すべり症の病状を有するかどうかを予測します。バイナリ分類はバイナリ応答を予測します。0 – 正常、または 1 – […]

Read More

Amazon EC2 インスタンスの最新情報 – より高速なプロセッサーとより多くのメモリ

先月、私は Nitro システムについて語り、これがどのように EC2 インスタンスの選択肢を広げ、コンピューティング、ストレージ、メモリ、ネットワークオプションの選択肢を拡大することでペースを速めることができるかを説明しました。これによって最新テクノロジーへのアクセスが非常に迅速に可能になり、アプリケーションに最適なインスタンスタイプを選択することができます。 本日は、現在準備中で、間もなく利用できるようになる新しい 3 つのインスタンスタイプを紹介します。 Z1d – 持続するオールコア Turbo Boost を搭載した最大 4.0 GHz で動作する計算集約型インスタンス。これらは EDA (Electronic Design Automation) やリレーショナルデータベースワークロードに最適であり、複数の HPC ワークロードにも適しています。 R5 – 持続するオールコア Turbo Boost を搭載した最大 3.1 GHz で動作するメモリ最適化されたインスタンスで、R4 インスタンスと比べて最大 50% 増加した vCPU と 60% 多くのメモリを搭載しています。 R5d – ローカル NVMe ストレージ (最大の R5d インスタンスでは最大 3.6 TB) を持つメモリ最適化されたインスタンスで、R5 インスタンスと同じサイズ、同じ性能で利用できます。 また、R5 ベアメタル、R5d ベアメタル、Z1d […]

Read More

新機能 – AWS Snowball Edge 用 EC2 コンピューティングインスタンス

私は工場が大好きで、見学ツアーがあれば必ず参加するほどです。これまでも運良く、原材料や組み立て部品が、車、機関車、メモリチップ、連結式バスといったものに変化するのを見れる機会がありました。スピード、精度、再現性、そして可能な限り全ての生産段階をオートメーション化しようとする努力に、いつも感心するのです。最近参加したツアーで、EC2 インスタンスや他のクラウドリソースと同じくらい簡単かつ効率的に、機械装置をモニタリングするオンプレミスの工業用 PC のグローバルコレクションを設定し、集中管理できるようにしたいと、IT マネージャーが言うのを耳にしました。 そして今日、AWS Snowball Edge デバイス上で作動する EC2 インスタンスの導入により、彼の夢が実現しようとしています。100 TB のローカルストレージを備え、耐久性を持つこのデバイスを使うと、限定したまたは存在しないインターネット接続といった厳しい環境においてデータを収集および処理した後、処理済みデータを保存、集約、詳細分析するために AWS に戻すことが可能となります。インスタンスのスペックは次をご覧ください。 インスタンス名 vCPU メモリ sbe1.small 1 1 GiB sbe1.medium 1 2 GiB sbe1.large 2 4 GiB sbe1.xlarge 4 8 GiB sbe1.2xlarge 8 16 GiB sbe1.4xlarge 16 32 GiB 各 Snowball Edge デバイスは、Intel ® Xeon ® D プロセッサを 1.8 GHz で実行でき、インスタンスのどんな組合わせもサポートすることで、最大 24 […]

Read More

Amazon Translate が、日本語、ロシア語、イタリア語、繁体字中国語、トルコ語、およびチェコ語のサポートを追加しました。

本日、Amazon Translate が、日本語、ロシア語、イタリア語、繁体字中国語、トルコ語、さらにチェコ語のサポートを追加しました。Amazon Translate は、高速で高品質な言語翻訳を、お手ごろな価格で提供する翻訳 API です。Amazon Translate は元々、2017 年開催の AWS re:Invent でのプレビューでリリースしました。同僚の Tara が、このサービスの詳細について書いています。 最初のプレビュー時から、Amazon Comprehend 、 Amazon CloudWatch の指標、および各 TranslateText 内にある膨大なテキストを使った自動ソース言語推論のような機能を追加しようと、お客様とのやり取りを続けてきました。4 月にはこのサービスが一般に利用可能となり、機能のリクエストやフィードバックをお客様から引き続きいただいています。 Amazon Translate との連携 Amazon Translate コンソールにある API エクスプローラーを使って、今すぐ新しい言語を試してみてください。 任意の SDK を使用することもできます。以下に、簡単な Python のサンプルを書いてみました。 import boto3 translate = boto3.client(“translate”) lang_flag_pairs = [(“ja”, “????”), (“ru”, “????”), (“it”, “????”), (“zh-TW”, “????”), (“tr”, “????”), (“cs”, […]

Read More

AWS ヒーロー – 新しいカテゴリを追加

AWS ヒーローの新しいカテゴリーを立ち上げ 2014 年より AWS コミュニティヒーロープログラムを開始し、AWS エキスパートたちが運営する活気あふれたグループを認定しています。優秀な開発者がその幅広い知識を駆使し、いろんな媒体にわたり AWS 製品とサービスに関して顧客や技術者を教育しています。AWS が成長するにつれ、ヒーローの新たなグループがどんどん生まれています。 今日、優れたコミュニティリーダーを認定しましたが、AWS ヒーロープログラムが拡大してきている証拠です。コミュニティ内で AWS サービスを幅広く推奨することを目的とするコミュニティヒーローとは異なり、今回の新しいカテゴリーのヒーローは特定のテクノロジーの開発に努力し、その推奨に取り組むスペシャリストたちです。新しいヒーローとして最初に立ち上げたカテゴリーは、AWS サーバーレスヒーローと AWS コンテナヒーローです。テクニカルコミュニティでは、AWS のナレッジ共有へのあふれる情熱がますます大きくなっています。ぜひ、新しいヒーローたちの登場を歓迎してあげてください。 AWS サーバーレスヒーロー サーバレスヒーローは、AWS サーバレスエコシステムを早期に取り入れた熱意あふれるパイオニアたちです。GitHub や AWS Serverless Application Repository のオープンソース化に対する貢献だけでなく、AWS サーバーレステクノロジーをオンラインや対面で普及させる活動を行っています。こうしたサーバーレスヒーローは、開発者、企業、コミュニティなどが最新鋭のアプリケーションを構築する際、その発展に一役買っている人たちです。サーバーレスヒーローとして最初に選ばれたコホートは、下記の人たちです。 Yan Cui Aleksandar Simovic Forrest Brazeal Marcia Villalba Erica Windisch Peter Sbarski Slobodan Stojanović Rob Gruhl Michael Hart Ben Kehoe Austen Collins AWS コンテナヒーローのご紹介 AWS コンテナヒーローは、AWS […]

Read More