Amazon Web Services ブログ

Julien Simon

Author: Julien Simon

As an Artificial Intelligence & Machine Learning Evangelist for EMEA, Julien focuses on helping developers and enterprises bring their ideas to life.

Amazon Translate が Office ドキュメントのサポートを開始

  組織が多くの国で展開する多国籍企業であろうと、グローバルな成功を渇望している小さな新興企業であろうと、コンテンツを現地の言語に翻訳する課題にいつまでも悩まされることがあります。実際、テキストデータには多くの形式があり、それらを処理するにはさまざまなツールが必要になる場合があります。また、これらのツールはすべて同じ言語ペアをサポートしていない場合があるため、特定のドキュメントを中間形式に変換するか、手動翻訳に頼らざるを得ないこともあります。このような問題はすべて追加のコストを発生させ、一貫性のある自動翻訳ワークフローを構築することが不必要に複雑になってしまいます。 Amazon Translate は、こういった問題をシンプルで費用効果の高い方法で解決することを目指しています。Amazon Translate は、AWS コンソールまたは 1 回の API 呼び出しのいずれかを使用して、AWS のお客様が苦労することなくテキストを 55 の異なる言語と変異形に迅速かつ正確に翻訳できるようにします。 今年前半、Amazon Translate は、プレーンテキストと HTML ドキュメント用のバッチ翻訳を導入しました。本日、バッチ翻訳が Office Open XML 標準で定義されている Office ドキュメント、つまり、.docx、.xlsx、および .pptx ファイルもサポートするようになったことを発表します。 Office ドキュメント向けの Amazon Translate のご紹介 プロセスは非常に簡単です。ご想像のとおり、ソースドキュメントは Amazon Simple Storage Service (S3) バケットに保存する必要があります。20 メガバイトを超えるドキュメントや 100 万文字を超えるドキュメントは保存できません。 各バッチ翻訳ジョブは、単一のファイルタイプと単一のソース言語を処理します。したがって、S3 で論理的にドキュメントを整理し、各ファイルタイプと各言語に独自のプレフィックスを付けて保存することをお勧めします。 次に、AWS コンソールを使用するか、いずれかの AWS 言語 SDK で StartTextTranslationJob API を使用して、以下を渡して翻訳ジョブを起動できます。 S3 […]

Read More

新機能 – Amazon SageMaker Ground Truth による動画のラベル付け

AWS re:Invent 2018 で提供を開始した Amazon Sagemaker Ground Truth は、機械学習データセットに簡単に注釈を付けることができる Amazon SageMaker の 1 機能です。お客様は、画像やテキストおよび 3D ポイントクラウドデータには組み込みのワークフローを、また他のデータタイプにはカスタムワークフローを使用して、効率的かつ正確なラベルを付け実施することができます。データサンプルは自動的に作業担当者(社内、サードパーティー、または MTurk)に配布されます。また、注釈は Amazon Simple Storage Service (S3) に保存されます。オプションの自動データラベル付けを有効にすると、データセットのラベル付けに必要な時間と関連するコストの両方を削減することもできます。 現在、モデルの精度が向上するにつれ、AWS のお客様が動画コンテンツの予測に機械学習を適用する機会もますます増えています。自律運転は、安全性の面から、道路状況や移動する物体を正確に検知しリアルタイムで追跡することが求められるということで、おそらく最も知られたユースケースと言えるでしょう。動画の予測はスポーツの分野にも普及しているアプリケーションです。ここでは、プレーヤーやレースカーを追跡し、ファンを喜ばせるための、あらゆる種類の統計情報を計算しています。医療機関においても、医療画像内の解剖学的対象を特定および追跡するために、動画予測技術を利用しています。製造業では、組み立てライン上の物体、出荷する荷物、その他の対象に対し、同様な技術を適用しています。こういった実例の枚挙にはいとまがありませんし、また、他の多くの業界においても素晴らしい応用例が登場し続けているのです。 もちろん、これらには動画データセットの構築とラベル付けが必要であり、追跡の対象には手動でのラベル付けが行われます。毎秒 30 フレームとしても、動画 1 分間では 1,800 個の個別画像が転送されることになり、そのための作業は即座に手に余る量に達してしまいます。さらに言えば、画像へのラベル付けやワークフローの管理、さらにその他の目的で、専用ツールを構築する必要もあるのです。これらの作業は、コアビジネスに向けるべき相当量の時間とリソースを、組織から奪い去ってしまいます。 AWS では、このためのより良いソリューションのご要望をお客様からいただいてきました。そして本日、Amazon Sagemaker Ground Truth が動画のラベル付け機能をサポートすることを発表できるようになりました。 お客様でのユースケース例: National Football League National Football League (NFL) では、この機能が既に稼働しています。NFL のプレーヤーヘルスとイノベーション担当 SVP である、Jennifer Langton 氏によれば、「National Football League (NFL) […]

Read More

Amazon EKS が EC2 Inf1 インスタンスのサポートを開始

Amazon Elastic Kubernetes Service (EKS) は、短期間で機械学習ワークロードのための主要な選択肢になりました。開発者の俊敏性と Kubernetes のスケーラビリティを組み合わせており、AWS で利用可能な Amazon Elastic Compute Cloud (EC2) インスタンスタイプの幅広い選択肢 (C5、P3、G4 ファミリーなど) からお選びいただけます。 モデルがより高度になるにつれ、高スループットで予測を素早く提供するためにハードウェアアクセラレーションがますます求められています。本日より、AWS のお客様は、Amazon Elastic Kubernetes Service で Amazon EC2 Inf1 インスタンスを使用できるようになりました。これにより、クラウドでの高いパフォーマンスを最小限の予測コストで実現できます。 EC2 Inf1 インスタンス入門 Inf1 インスタンスは、AWS re:Invent 2019 でリリースされました。これらは AWS が一から構築したカスタムチップの AWS Inferentia を使用しており、機械学習の推論ワークロードが加速します。 Inf1 インスタンスは複数のサイズで利用可能で、1、4、または 16 の AWS Inferentia チップがあり、最大 100 Gbps のネットワーク帯域幅と最大 19 Gbps の EBS […]

Read More

新機能 – Amazon SageMaker Ground Truth で 3D ポイントクラウドにラベルを付ける

 AWS re:Invent 2018 で開始された Amazon Sagemaker Ground Truth は、機械学習データセットに簡単に注釈を付けることができる Amazon SageMaker の機能です。顧客は、組み込みのワークフローを使用して画像およびテキストデータ、またはカスタムワークフローを使用して他のタイプのデータに効率的かつ正確にラベルを付けることができます。データサンプルは自動的に従業員 (プライベート、サードパーティー、または MTurk) に配布され、注釈は Amazon Simple Storage Service (S3) に保存されます。オプションで、自律型データラベル付けを有効にして、データセットのラベル付けに必要な時間と関連するコストの両方を削減することもできます。 約 1 年前に、自律型運転用の 3 次元 (3D) データセットのラベル付けに関心を示した自動車業界のお客様にお会いしました。LIDAR センサーによってキャプチャされたこれらのデータセットは、特に複雑で大きいです。データは、通常 5 万〜500 万個のポイントを含むフレームに保存され、それぞれ最大数百メガバイトになることがあります。フレームは個別に、または移動するオブジェクトの追跡を容易にするシーケンスで保存されます。 ご想像のとおり、従業員は複雑な 3D シーンをナビゲートし、さまざまなオブジェクトクラスに注釈を付ける必要があるため、これらのデータセットのラベル付けには非常に時間がかかります。多くの場合、これには非常に複雑なツールの構築と管理が必要です。Ground Truth チームは、お客様がよりシンプルで効率的なワークフローを構築できるよう常に支援することを目指しており、より多くのフィードバックを収集して、仕事に取り掛かりました。 本日、Amazon Sagemaker Ground Truth に、組み込みのエディタと最新の支援ラベル機能を使用して 3D ポイントクラウドにラベルを付けられるようになったことをお知らせいたします。 3D ポイントクラウドラベル付けの紹介 他の Ground Truth タスクタイプと同様に、3D ポイントクラウドの入力データは S3 バケットに保存する必要があります。また、S3 フレームの場所とその属性の両方を含む […]

Read More

エンタープライズ検索の再発明 - Amazon Kendra が一般発売されました

2019年末には、機械学習を活用した非常に正確で使いやすいエンタープライズ検索サービス Amazon Kendra のプレビューエディションをリリースしました。本日、Amazon Kendra が一般販売されることになりました。 過去数十年間の驚くべき成果のすべてを用いても、情報技術は、必要とする情報をすばやく簡単に見つけ、皆が日々直面している問題を解決するには至っていません。会社の出張規定の最新版を探す場合でも、「エポキシ接着剤の引張強度は?」などのより技術的な質問をする場合でも、すぐに正いい回答を得られれそうにはありません。全く回答を得られない時もあります。 こうした問題はユーザーにとってストレスとなるだけでなく、生産性の大幅な低下にもつながります。IDCの調査によると、非効率的な検索のコストは、従業員 1 人当たり年間 5,700 USD です。従業員 1,000 人の企業では、年間 570 万 USD が蒸発することになります。しかも、これには、精度の低い検索によって発生する責任やコンプライアンスリスクは含まれていません。 この問題にはいくつかの原因があります。第 1 に、ほとんどの企業データは構造化されておらず、必要な情報を特定することが困難なことです。第 2 に、多くの場合、データは組織のサイロに分散し、ネットワーク共有、リレーショナルデータベース、サードパーティアプリケーションなどの異種バックエンドに保存されていることです。最後に、キーワードの検索システムでは、適切なキーワードの組合せを見つける必要があり、通常は多数のヒットを返し、ほとんどのヒットはクエリとは無関係なものです。 これらの問題点を考慮して、Amazonは、お客様が適切な検索機能を構築できるように支援することにしました。この取り組みの結果が、Amazon Kendra です。 Amazon Kendra のご紹介 Amazon Kendra を使えば、数回クリックするだけで、ファイルシステム、アプリケーション、イントラネット、リレーショナルデータベースなど、さまざまなバックエンドに保存された構造化データと非構造化データのインデックスを作成できます。予想される通り、すべてのデータは HTTPS を使用して処理中に暗号化され、また、保存中にAWS Key Management Service (KMS) で暗号化することもできます。 Amazon Kendra は、ドメインから受けとる複雑な言語を理解するように最適化されています。IT関連ドメイン(例: 「 VPNの設定方法を教えてください。」)、医療およびライフサイエンス関連ドメイン(例: 「ALSの遺伝子マーカーとは何ですか。」)およびその他の多くのドメイン領域からの質問を受け取ることになります。このマルチドメインの専門知識により、Kendra はより正確な回答を見つけることができるのです。また、開発者は、信頼できるデータソースやドキュメントの鮮度などの基準を使用して、結果の関連性を明示的に調整することができます。 Kendra 検索は、AWS コンソールまたは API で利用可能なコードサンプルを使用して、任意のアプリケーション (検索ページ、チャットアプリ、チャットボットなど) に迅速に展開できます。お客様は、Kendara の最新のセマンティック検索を数分で実行できます。 […]

Read More

PyTorch のオープンソースモデルサーバー、TorchServe を発表

PyTorch は、ディープラーニングで最も人気のあるオープンソースライブラリの 1 つです。開発者と研究者は、モデルの構築とトレーニングにおいて享受できる柔軟性を特に重宝しています。しかし、これはストーリーの半分にすぎず、本番環境でのモデルのデプロイと管理は、機械学習プロセスの最も困難な部分であることが多々あります。オーダーメイドの予測 API の構築、それらのスケーリング、保護などがその厄介な部分です。 モデルのデプロイプロセスを簡略化する 1 つの方法は、モデルサーバー、つまり、本番環境で機械学習予測を行うために特別に設計された既製のウェブアプリケーションを使用することです。モデルサーバーを使用すると、1 つまたは複数のモデルを簡単に読み込むことができ、スケーラブルなウェブサーバーに基づく予測 API が自動的に作成されます。また、予測リクエストに対して前処理と後処理のコードを実行することもできます。最後に忘れてならないのが、モデルサーバーは、ログ記録、モニタリング、セキュリティなどの生産に不可欠な機能も提供している点です。一般的なモデルサーバーには、TensorFlow Serving と Multi Model Server があります。 今日、TorchServe を発表できることをとても嬉しく思います。これは、カスタムコードを記述することなく、トレーニングされた PyTorch モデルを大規模かつ簡単にデプロイできる PyTorch のモデルサービングライブラリです。 TorchServe のご紹介 TorchServe は AWS と Facebook 間のコラボレーションであり、PyTorch オープンソースプロジェクトの一部として利用できます。プロジェクトの開始方法に興味がある場合は、Github で初期の RFC を読むことができます。 TorchServe を使用すると、PyTorch ユーザーは、カスタムコードを記述することなく、モデルをより迅速に本番環境に導入できるようになります。低レイテンシーの予測 API の提供に加えて、TorchServe は、オブジェクト検出やテキスト分類などの最も一般的なアプリケーションのデフォルトハンドラーも埋め込んでいます。さらに、TorchServe には、アプリケーション統合のためのマルチモデルの提供、A/B テストのモデルバージョン管理、モニタリング指標、RESTful エンドポイントが含まれます。ご想像のとおり、TorchServe は、Amazon SageMaker、コンテナサービス、Amazon Elastic Compute Cloud (EC2) などの機械学習環境をサポートしています。 一部のお客様はすでに TorchServe のメリットを享受しています。 […]

Read More

高性能でコスト効率の高い機械学習推論を実現する Inf1 インスタンスが Amazon SageMaker でご利用可能に

完全マネージドサービスの Amazon SageMaker は、あらゆる開発者やデータサイエンティストが機械学習 (ML) モデルを迅速に構築、トレーニング、デプロイできるように支援します。Intuit、Voodoo、ADP、Cerner、Dow Jones、Thompson Reuters をご利用の数万人におよぶお客様が、Amazon SageMaker を使って ML の各プロセスで発生する負担の大部分を取り除いています。 リアルタイム予測に ML モデルをデプロイする場合、Amazon SageMaker には、小さな CPU インスタンスからマルチ GPU インスタンスに至る幅広い AWS のインスタンスタイプがあります。そのため、予測インフラストラクチャに適したコストとパフォーマンスの割合を見つけることができます。本日より、Amazon SageMaker で Inf1 インスタンスがご利用いただけるようになりました。これで、高いパフォーマンス、低いレイテンシー、コスト効率の高い推論を実現できます。 Amazon EC2 Inf1 インスタンス入門 Amazon EC2 Inf1 インスタンスは AWS re:Invent 2019 でリリースしました。Inf1 インスタンスは AWSが一から構築したカスタムチップの AWS Inferentia を使用しており、機械学習の推論ワークロードが加速します。G4 インスタンスと比較した場合、Inf1 インスタンスでは、推論のスループットが最大 3 倍となり、推論あたりのコストが最大 45% 削減します。 Inf1 インスタンスは、1 個、4 個、または […]

Read More

AWS DeepComposer – 新機能付きで一般提供開始

AWS DeepComposer は、機械学習を始めるための独創的な方法で、AWS re:Invent 2019 のプレビューでローンチされました。本日、すべての AWS ユーザーが DeepComposer を利用できるようになり、新しい機能で拡張されたことをお知らせできることを大変嬉しく思います。 AWS DeepComposer 入門 AWS DeepComposer を初めて使用する場合は、以下の手順に従ってください。 AWS DeepComposer コンソールにログインします。 このサービスと、生成 AI の使用方法について学びます。 コンソールの仮想キーボード、または Amazon.com で注文可能な物理キーボードのいずれかを使用して、短い楽曲を録音します。 お気に入りのジャンルの事前トレーニング済みモデルを選択します。 このモデルを使用して、曲に基づいて新しいポリフォニックコンポジションを生成します。 コンソールでコンポジションを再生し、 コンポジションをエクスポートするか、SoundCloud で共有します。 次に、生成 AI をさらに簡単に使用開始できるようにする新機能を見てみましょう。 ラーニングカプセル DeepComposer は、既存のデータセットから新しいサンプルを生成するために特別に構築されたニューラルネットワークアーキテクチャである Generative Adversarial Networks (別名 GAN、研究論文) を利用しています。GAN は、2 つの異なるニューラルネットワークを互いに対比させて、サンプル入力に基づいてオリジナルのデジタル作品を生成します。DeepComposer では、GAN モデルをトレーニングおよび最適化して、オリジナルの音楽を作成できます。 これまで、GAN のスキルの向上に関心のある開発者は、簡単に始める方法がありませんでした。ML や音楽のバックグラウンドに関係なくそういった開発者を支援するために、AWS は主要な概念を紹介する簡単な学習カプセルのコレクションと、GAN のトレーニングと評価の方法を構築しています。これには、ハンズオンラボと、GAN モデルを構築するためのステップバイステップの説明とコードが含まれます。 GAN に慣れたら、独自のモデルのトレーニングに進む準備が整います。 コンソール内トレーニング […]

Read More

Redis 向け Amazon ElastiCache グローバルデータストアが利用可能に

インメモリデータストアは、アプリケーションのスケーラビリティのために広く使用されており、開発者は、頻繁にアクセスされる (揮発性または永続的) データを保存することの恩恵を長年にわたって享受しています。Redis のようなシステムは、データベースとバックエンドを着信トラフィックから疎結合化し、本来ならそれらに到達するはずだったほとんどのトラフィックを排し、ユーザーのアプリケーションレイテンシーを削減するのに役立ちます。 これらのサーバーを管理することが重要なタスクであることは明白で、何が起きようとも、それらを維持し、実行し続けるために細心の注意を払わなければなりません。以前の業務において、私のチームは、物理キャッシュサーバーのクラスターをホスティングスイート間で移動する必要がありました。1 つずつ外部バッテリーに接続し、外部電源プラグを抜き、それらをラックから取り出し、オフィス用の台車 (!) で他のスイートまで運び、再びそれらをラックに入れていたのです! サービスを中断することなく実行できましたが、これが完了すると私たち全員は安堵のため息をつきました。高トラフィックのプラットフォームでキャッシュデータを失うと、大変なことになるからです。そのことを考えれば羨ましい限りです。幸いなことに、クラウドインフラストラクチャはより柔軟です! インシデントが発生した場合のサービスの中断を最小限に抑えるために、Memcached および Redis のマネージドインメモリデータストアである Amazon ElastiCache に、クラスターモード、自動フェールオーバーを備えたマルチAZなど、多くの高可用性機能を追加しました。 Redis は多くの場合、低レイテンシートラフィックをグローバルユーザーに提供するために使用されることから、お客様は、AWS リージョンをまたいで Amazon ElastiCache クラスターをレプリケートできるようになることを望んでいます。当社はこれらに耳を傾け、解決に向けて動きました。そして本日、このレプリケーション機能が Redis クラスターで利用可能になったことをお知らせできることを大変嬉しく思います。 Amazon ElastiCache Global Datastore For Redis の紹介 簡単に言えば、Amazon ElastiCache Global Datastore for Redis を使用すると、1 つのリージョンのクラスターを最大 2 つの他のリージョンのクラスターに複製できます。お客様は、通常、次の目的でこれを行います。 ネットワークレイテンシーを削減し、アプリケーションの応答性を向上させるために、キャッシュされたデータをユーザーの近くに置く。 リージョンの一部または全部が完全に利用できない場合に備えた災害復旧機能を構築する。 グローバルデータストアのセットアップは非常に簡単です。最初に、アプリケーションから書き込みを受信するプライマリクラスターとしてのクラスターを選択します。これは、新しいクラスター、または Redis 5.0.6 以降を実行する既存のクラスターのいずれかにすることができます。次に、他のリージョンにプライマリから更新を受信する最大 2 つのセカンダリクラスターを追加します。 このセットアップは、単一ノードクラスターを除くすべての Redis 設定で使用できます。もちろん、単一ノードクラスターをレプリケーショングループクラスターに変換し、それをプライマリクラスターとして使用できます。 最後に重要なことですが、グローバルデータストアの一部であるクラスターは、通常どおりに変更およびサイズ変更できます (ノードの追加または削除、ノードタイプの変更、シャードの追加または削除、レプリカノードの追加または削除)。 簡単なデモを見てみましょう。 […]

Read More

Amazon Transcribe で、個人情報の自動編集機能を提供開始

AWS re:Invent 2017 でローンチされた Amazon Transcribe は自動音声認識 (ASR) サービスで、AWS のお客様が音声テキスト変換機能をアプリケーションに簡単に追加できるようにします。この記事の執筆時点では、 は 31 の言語をサポートしており、そのうち 6 つについてリアルタイムで文字起こしを行うことができます。 の一般的な使用例は、お客様のコール (コールセンター、テレマーケティングなど) の自動トランスクリプションで、ダウンストリーム分析や、感情分析などの自然言語処理タスク用のデータセットを構築します。したがって、プライバシーを保護し、現地の法律や規制を遵守するためにあらゆる個人情報 (PII) を削除する必要があります。 ご想像のとおり、これを手動で行うのは非常に面倒で時間がかかり、間違いが起こりやすいため、Amazon Transcribe が PII の自動リダクションをサポートするようになったことを発表できることを大変嬉しく思います。 Amazon Transcribe でのコンテンツ編集のご紹介 そう指示した場合、 は次の PII を自動的に識別します。 社会保障番号、 クレジットカード/デビットカード番号、 クレジットカード/デビットカードの有効期限、 クレジットカード/デビットカードの CVV コード、 銀行の口座番号、 銀行ルーティング番号、 デビット/クレジットカードの PIN、 名前、 E メールアドレス、 電話番号 (10 桁)、 郵送先住所。 これらは、文字起こしされたテキストの中で「[PII]」タグに置き換えられます。また、開始と終了のタイムスタンプだけでなく、(通常の ASR スコアの代わりに) 編集信頼度スコアも取得します。これらのタイムスタンプは、オーディオファイル内の PII を見つけるのに役立ちます。これにより、ストレージと共有を安全に行い、追加のオーディオ処理をしてソースで編集できるようにします。 […]

Read More