Amazon Web Services ブログ

Julien Simon

Author: Julien Simon

As an Artificial Intelligence & Machine Learning Evangelist for EMEA, Julien focuses on helping developers and enterprises bring their ideas to life.

エンタープライズ検索の再発明 - Amazon Kendora が一般発売されました

2019年末には、機械学習を活用した非常に正確で使いやすいエンタープライズ検索サービス Amazon Kendra のプレビューエディションをリリースしました。本日、Amazon Kendra が一般販売されることになりました。 過去数十年間の驚くべき成果のすべてを用いても、情報技術は、必要とする情報をすばやく簡単に見つけ、皆が日々直面している問題を解決するには至っていません。会社の出張規定の最新版を探す場合でも、「エポキシ接着剤の引張強度は?」などのより技術的な質問をする場合でも、すぐに正いい回答を得られれそうにはありません。全く回答を得られない時もあります。 こうした問題はユーザーにとってストレスとなるだけでなく、生産性の大幅な低下にもつながります。IDCの調査によると、非効率的な検索のコストは、従業員 1 人当たり年間 5,700 USD です。従業員 1,000 人の企業では、年間 570 万 USD が蒸発することになります。しかも、これには、精度の低い検索によって発生する責任やコンプライアンスリスクは含まれていません。 この問題にはいくつかの原因があります。第 1 に、ほとんどの企業データは構造化されておらず、必要な情報を特定することが困難なことです。第 2 に、多くの場合、データは組織のサイロに分散し、ネットワーク共有、リレーショナルデータベース、サードパーティアプリケーションなどの異種バックエンドに保存されていることです。最後に、キーワードの検索システムでは、適切なキーワードの組合せを見つける必要があり、通常は多数のヒットを返し、ほとんどのヒットはクエリとは無関係なものです。 これらの問題点を考慮して、Amazonは、お客様が適切な検索機能を構築できるように支援することにしました。この取り組みの結果が、Amazon Kendra です。 Amazon Kendora のご紹介 Amazon Kendra を使えば、数回クリックするだけで、ファイルシステム、アプリケーション、イントラネット、リレーショナルデータベースなど、さまざまなバックエンドに保存された構造化データと非構造化データのインデックスを作成できます。予想される通り、すべてのデータは HTTPS を使用して処理中に暗号化され、また、保存中にAWS Key Management Service (KMS) で暗号化することもできます。 Amazon Kendra は、ドメインから受けとる複雑な言語を理解するように最適化されています。IT関連ドメイン(例: 「 VPNの設定方法を教えてください。」)、医療およびライフサイエンス関連ドメイン(例: 「ALSの遺伝子マーカーとは何ですか。」)およびその他の多くのドメイン領域からの質問を受け取ることになります。このマルチドメインの専門知識により、Kendra はより正確な回答を見つけることができるのです。また、開発者は、信頼できるデータソースやドキュメントの鮮度などの基準を使用して、結果の関連性を明示的に調整することができます。 Kendra 検索は、AWS コンソールまたは API で利用可能なコードサンプルを使用して、任意のアプリケーション (検索ページ、チャットアプリ、チャットボットなど) に迅速に展開できます。お客様は、Kendara の最新のセマンティック検索を数分で実行できます。 […]

Read More

PyTorch のオープンソースモデルサーバー、TorchServe を発表

PyTorch は、ディープラーニングで最も人気のあるオープンソースライブラリの 1 つです。開発者と研究者は、モデルの構築とトレーニングにおいて享受できる柔軟性を特に重宝しています。しかし、これはストーリーの半分にすぎず、本番環境でのモデルのデプロイと管理は、機械学習プロセスの最も困難な部分であることが多々あります。オーダーメイドの予測 API の構築、それらのスケーリング、保護などがその厄介な部分です。 モデルのデプロイプロセスを簡略化する 1 つの方法は、モデルサーバー、つまり、本番環境で機械学習予測を行うために特別に設計された既製のウェブアプリケーションを使用することです。モデルサーバーを使用すると、1 つまたは複数のモデルを簡単に読み込むことができ、スケーラブルなウェブサーバーに基づく予測 API が自動的に作成されます。また、予測リクエストに対して前処理と後処理のコードを実行することもできます。最後に忘れてならないのが、モデルサーバーは、ログ記録、モニタリング、セキュリティなどの生産に不可欠な機能も提供している点です。一般的なモデルサーバーには、TensorFlow Serving と Multi Model Server があります。 今日、TorchServe を発表できることをとても嬉しく思います。これは、カスタムコードを記述することなく、トレーニングされた PyTorch モデルを大規模かつ簡単にデプロイできる PyTorch のモデルサービングライブラリです。 TorchServe のご紹介 TorchServe は AWS と Facebook 間のコラボレーションであり、PyTorch オープンソースプロジェクトの一部として利用できます。プロジェクトの開始方法に興味がある場合は、Github で初期の RFC を読むことができます。 TorchServe を使用すると、PyTorch ユーザーは、カスタムコードを記述することなく、モデルをより迅速に本番環境に導入できるようになります。低レイテンシーの予測 API の提供に加えて、TorchServe は、オブジェクト検出やテキスト分類などの最も一般的なアプリケーションのデフォルトハンドラーも埋め込んでいます。さらに、TorchServe には、アプリケーション統合のためのマルチモデルの提供、A/B テストのモデルバージョン管理、モニタリング指標、RESTful エンドポイントが含まれます。ご想像のとおり、TorchServe は、Amazon SageMaker、コンテナサービス、Amazon Elastic Compute Cloud (EC2) などの機械学習環境をサポートしています。 一部のお客様はすでに TorchServe のメリットを享受しています。 […]

Read More

高性能でコスト効率の高い機械学習推論を実現する Inf1 インスタンスが Amazon SageMaker でご利用可能に

完全マネージドサービスの Amazon SageMaker は、あらゆる開発者やデータサイエンティストが機械学習 (ML) モデルを迅速に構築、トレーニング、デプロイできるように支援します。Intuit、Voodoo、ADP、Cerner、Dow Jones、Thompson Reuters をご利用の数万人におよぶお客様が、Amazon SageMaker を使って ML の各プロセスで発生する負担の大部分を取り除いています。 リアルタイム予測に ML モデルをデプロイする場合、Amazon SageMaker には、小さな CPU インスタンスからマルチ GPU インスタンスに至る幅広い AWS のインスタンスタイプがあります。そのため、予測インフラストラクチャに適したコストとパフォーマンスの割合を見つけることができます。本日より、Amazon SageMaker で Inf1 インスタンスがご利用いただけるようになりました。これで、高いパフォーマンス、低いレイテンシー、コスト効率の高い推論を実現できます。 Amazon EC2 Inf1 インスタンス入門 Amazon EC2 Inf1 インスタンスは AWS re:Invent 2019 でリリースしました。Inf1 インスタンスは AWSが一から構築したカスタムチップの AWS Inferentia を使用しており、機械学習の推論ワークロードが加速します。G4 インスタンスと比較した場合、Inf1 インスタンスでは、推論のスループットが最大 3 倍となり、推論あたりのコストが最大 45% 削減します。 Inf1 インスタンスは、1 個、4 個、または […]

Read More

AWS DeepComposer – 新機能付きで一般提供開始

 AWS DeepComposer は、機械学習を始めるための独創的な方法で、AWS re:Invent 2019 のプレビューでローンチされました。本日、すべての AWS ユーザーが DeepComposer を利用できるようになり、新しい機能で拡張されたことをお知らせできることを大変嬉しく思います。 AWS DeepComposer 入門 AWS DeepComposer を初めて使用する場合は、以下の手順に従ってください。 AWS DeepComposer コンソールにログインします。 このサービスと、生成 AI の使用方法について学びます。 コンソールの仮想キーボード、または Amazon.com で注文可能な物理キーボードのいずれかを使用して、短い楽曲を録音します。 お気に入りのジャンルの事前トレーニング済みモデルを選択します。 このモデルを使用して、曲に基づいて新しいポリフォニックコンポジションを生成します。 コンソールでコンポジションを再生し、 コンポジションをエクスポートするか、SoundCloud で共有します。 次に、生成 AI をさらに簡単に使用開始できるようにする新機能を見てみましょう。 ラーニングカプセル DeepComposer は、既存のデータセットから新しいサンプルを生成するために特別に構築されたニューラルネットワークアーキテクチャである Generative Adversarial Networks (別名 GAN、研究論文) を利用しています。GAN は、2 つの異なるニューラルネットワークを互いに対比させて、サンプル入力に基づいてオリジナルのデジタル作品を生成します。DeepComposer では、GAN モデルをトレーニングおよび最適化して、オリジナルの音楽を作成できます。 これまで、GAN のスキルの向上に関心のある開発者は、簡単に始める方法がありませんでした。ML や音楽のバックグラウンドに関係なくそういった開発者を支援するために、AWS は主要な概念を紹介する簡単な学習カプセルのコレクションと、GAN のトレーニングと評価の方法を構築しています。これには、ハンズオンラボと、GAN モデルを構築するためのステップバイステップの説明とコードが含まれます。 GAN に慣れたら、独自のモデルのトレーニングに進む準備が整います。 […]

Read More

Redis 向け Amazon ElastiCache グローバルデータストアが利用可能に

インメモリデータストアは、アプリケーションのスケーラビリティのために広く使用されており、開発者は、頻繁にアクセスされる (揮発性または永続的) データを保存することの恩恵を長年にわたって享受しています。Redis のようなシステムは、データベースとバックエンドを着信トラフィックから疎結合化し、本来ならそれらに到達するはずだったほとんどのトラフィックを排し、ユーザーのアプリケーションレイテンシーを削減するのに役立ちます。 これらのサーバーを管理することが重要なタスクであることは明白で、何が起きようとも、それらを維持し、実行し続けるために細心の注意を払わなければなりません。以前の業務において、私のチームは、物理キャッシュサーバーのクラスターをホスティングスイート間で移動する必要がありました。1 つずつ外部バッテリーに接続し、外部電源プラグを抜き、それらをラックから取り出し、オフィス用の台車 (!) で他のスイートまで運び、再びそれらをラックに入れていたのです! サービスを中断することなく実行できましたが、これが完了すると私たち全員は安堵のため息をつきました。高トラフィックのプラットフォームでキャッシュデータを失うと、大変なことになるからです。そのことを考えれば羨ましい限りです。幸いなことに、クラウドインフラストラクチャはより柔軟です! インシデントが発生した場合のサービスの中断を最小限に抑えるために、Memcached および Redis のマネージドインメモリデータストアである Amazon ElastiCache に、クラスターモード、自動フェールオーバーを備えたマルチAZなど、多くの高可用性機能を追加しました。 Redis は多くの場合、低レイテンシートラフィックをグローバルユーザーに提供するために使用されることから、お客様は、AWS リージョンをまたいで Amazon ElastiCache クラスターをレプリケートできるようになることを望んでいます。当社はこれらに耳を傾け、解決に向けて動きました。そして本日、このレプリケーション機能が Redis クラスターで利用可能になったことをお知らせできることを大変嬉しく思います。 Amazon ElastiCache Global Datastore For Redis の紹介 簡単に言えば、Amazon ElastiCache Global Datastore for Redis を使用すると、1 つのリージョンのクラスターを最大 2 つの他のリージョンのクラスターに複製できます。お客様は、通常、次の目的でこれを行います。 ネットワークレイテンシーを削減し、アプリケーションの応答性を向上させるために、キャッシュされたデータをユーザーの近くに置く。 リージョンの一部または全部が完全に利用できない場合に備えた災害復旧機能を構築する。 グローバルデータストアのセットアップは非常に簡単です。最初に、アプリケーションから書き込みを受信するプライマリクラスターとしてのクラスターを選択します。これは、新しいクラスター、または Redis 5.0.6 以降を実行する既存のクラスターのいずれかにすることができます。次に、他のリージョンにプライマリから更新を受信する最大 2 つのセカンダリクラスターを追加します。 このセットアップは、単一ノードクラスターを除くすべての Redis 設定で使用できます。もちろん、単一ノードクラスターをレプリケーショングループクラスターに変換し、それをプライマリクラスターとして使用できます。 最後に重要なことですが、グローバルデータストアの一部であるクラスターは、通常どおりに変更およびサイズ変更できます (ノードの追加または削除、ノードタイプの変更、シャードの追加または削除、レプリカノードの追加または削除)。 簡単なデモを見てみましょう。 […]

Read More

Amazon Transcribe で、個人情報の自動編集機能を提供開始

AWS re:Invent 2017 でローンチされた Amazon Transcribe は自動音声認識 (ASR) サービスで、AWS のお客様が音声テキスト変換機能をアプリケーションに簡単に追加できるようにします。この記事の執筆時点では、 は 31 の言語をサポートしており、そのうち 6 つについてリアルタイムで文字起こしを行うことができます。 の一般的な使用例は、お客様のコール (コールセンター、テレマーケティングなど) の自動トランスクリプションで、ダウンストリーム分析や、感情分析などの自然言語処理タスク用のデータセットを構築します。したがって、プライバシーを保護し、現地の法律や規制を遵守するためにあらゆる個人情報 (PII) を削除する必要があります。 ご想像のとおり、これを手動で行うのは非常に面倒で時間がかかり、間違いが起こりやすいため、Amazon Transcribe が PII の自動リダクションをサポートするようになったことを発表できることを大変嬉しく思います。 Amazon Transcribe でのコンテンツ編集のご紹介 そう指示した場合、 は次の PII を自動的に識別します。 社会保障番号、 クレジットカード/デビットカード番号、 クレジットカード/デビットカードの有効期限、 クレジットカード/デビットカードの CVV コード、 銀行の口座番号、 銀行ルーティング番号、 デビット/クレジットカードの PIN、 名前、 E メールアドレス、 電話番号 (10 桁)、 郵送先住所。 これらは、文字起こしされたテキストの中で「[PII]」タグに置き換えられます。また、開始と終了のタイムスタンプだけでなく、(通常の ASR スコアの代わりに) 編集信頼度スコアも取得します。これらのタイムスタンプは、オーディオファイル内の PII を見つけるのに役立ちます。これにより、ストレージと共有を安全に行い、追加のオーディオ処理をしてソースで編集できるようにします。 […]

Read More

Amazon Linux AMI のサポート期間終了に関する更新情報

Amazon Linux AMI は 2010 年 9 月の提供開始以来、数多くのお客様の Amazon Elastic Compute Cloud (EC2) による Linux ベースのアプリケーションのビルドを支援してきました。2017 年には、お客様にさらなるセキュリティ、安定性、生産性をもたらすために Amazon Linux 2 を導入しました。新機能を多数追加搭載しながら、当社では Amazon Linux 2 を長期的にサポートしてまいりました。お客様の新しいアプリケーションに役立てていただきたいと願っています。 よくある質問 でも申し上げたとおり、Amazon Linux AMI (2018.03) の最新バージョンは 2020 年 6 月 30 日にセキュリティアップデートの提供が終了します。お客様のご要望もあって、終了期日を延長し、メンテナンスサポート期間を設けます。 終了期日の延長 Amazon Linux AMI は 2020 年 12 月 31 日まで延長され、引き続きセキュリティアップデートおよびパッケージの更新版を必要に応じて提供することになりました。 メンテナンスサポート 2020 年 12 月 31 日を過ぎると […]

Read More

Amazon SageMaker Processing – 完全マネージド型のデータ処理とモデル評価

本日、フルマネージドインフラストラクチャで前処理、後処理、およびモデル評価のワークロードを簡単に実行できる、Amazon SageMaker の新機能、Amazon SageMaker Processing をリリースいたしました。 高精度な機械学習 (ML) モデルをトレーニングするにはさまざまな手順を踏む必要がありますが、中でもデータセットの前処理が最も重要となるでしょう。たとえば: 使用中の ML アルゴリズムに合う入力形式にデータセットを変換する、 既存の特徴をより表現力のある表現 (one-hot エンコーディングカテゴリ別特徴など) に変換する、 数値特徴を再スケーリングまたは正規化する、 高レベル特徴量エンジニアリングを行う (例: 住所を GPS 座標に置き換える)、 自然言語処理アプリケーションのテキストをクリーニングし、トークン分割する、 などなど! これらのタスクは、(とても大変な) データセットに対する特注スクリプトの実行と、後でトレーニングジョブで使用する処理済みバージョンの保存を伴います。ご想像のとおり、それらを手動で実行したり、オートメーションツールを構築およびスケールしたりする必要があることを考えると、ML チームは気が重くなります。後処理ジョブ (フィルタリングや照合など) やモデル評価ジョブ (さまざまなテストセットに対するモデルのスコアリング) についても同じことが言えます。 この問題を解決するために、私たちは Amazon SageMaker Processing を構築しました。それでは、詳細を説明しましょう。 Amazon SageMaker Processing のご紹介 Amazon SageMaker Processing には、データサイエンティストと ML エンジニアが Amazon SageMaker で前処理、後処理、およびモデル評価ワークロードを簡単に実行できる新式の Python SDK が導入されています。 この SDK では […]

Read More

Deep Graph Library が Amazon SageMaker で利用可能に

本日ここに、グラフニューラルネットワークを簡単に実装できるよう構築されたオープンソースライブラリ、Deep Graph Library が、Amazon SageMaker で利用可能になったことをお知らせします。 近年、自由形式のテキスト、画像、動画など、複雑なデータから詳細なパターンを抜き出すことができる、驚異的な性能の深層学習が世界に旋風を巻き起こしています。しかし、多くのデータセットはこれらのカテゴリーに当てはまらないため、グラフの方がわかりやすく表すことができます。 畳み込みニューラルネットワークや再帰型ニューラルネットワークのような、従来のニューラルネットワークのアーキテクチャは、そのようなデータセットに適していないことは直感的にも感じられ、新しいアプローチが必要となります。 グラフニューラルネットワークの初歩 グラフニューラルネットワーク (GNN) は、今日の機械学習におけるもっとも画期的な発展事項です。手始めに、これらの参考資料をご覧になるとよいでしょう。 GNN は、以下のような予測モデルのトレーニングに使用されています。 ソーシャルネットワーク。関連する利用者同士のつながりをグラフ化 推奨システム。顧客とアイテムの間のやり取りをグラフ化 化学分析。原子や結合をグラフ化して化合物のモデルを作成 サイバーセキュリティ。発信元と発信先の IP アドレスの接続状況をグラフ化で説明 その他多数のモデル ほとんどの場合、これらのデータセットは非常に大きく、部分的なラベル付けしかできません。ある個人から既知の不正を行う者への接続状況を分析することで、その個人が不正を行っている可能性を予測する、不正行為検出シナリオを考えてみましょう。この問題は、グラフノードの一部のみがラベル付けされる (「不正」か「正当」)、半教師あり学習タスクとして定義できます。これは大きなデータセットを手作業のラベル付けにより構築し、「線形化」して従来の機械学習アルゴリズムに適用するよりも良いソリューションになるはずです。 これらの問題に対処するためには、分野の専門知識 (小売、財務、化学など)、コンピューターサイエンスの知識 (Python、深層学習、オープンソースツール)、インフラストラクチャの知識 (トレーニング、デプロイ、モデルのスケーリング) が必要です。これらのスキルをすべてマスターしている人はごくわずかです。それが Deep Graph Library や Amazon SageMaker のようなツールが必要とされる理由です。 Deep Graph Library の紹介 2018 年 12 月に Github で初めてリリースされた Deep Graph Library (DGL) は Python のオープンソースライブラリーで、研究者や科学者がデータセットの GNN を迅速に構築、トレーニング、評価するのに役立ちます。 DGL は、PyTorch […]

Read More

AWS DeepComposer – 生成的な機械学習モデルを使用して音楽を作成する

本日、世界初の機械学習対応のミュージカルキーボードである AWS DeepComposer を発表します。読み間違えではありません。 機械学習 (ML) には、数学、コンピューターサイエンス、コード、およびインフラストラクチャの知識がかなり必要です。これは非常に重要なことですが、意欲的な ML 開発者の多くは圧倒され、時には (あえて言うと) 退屈に感じさえするでしょう。 誰もが実用的な ML について学び、それを楽しんでいただけるように、ML を搭載したデバイスをいくつか導入しました。AWS re:Invent 2017 では、世界初の深層学習対応カメラである AWS DeepLens を導入し、開発者がコンピュータービジョンの ML について学習できるようにしました。昨年は、AWS DeepRacer を発売しました。これは強化学習によって駆動する完全に自立型の 1/18 スケールのレーシングカーです。今年、当社はそのバー (水準) をババッと引き上げます (駄洒落をお許しください)。 AWS DeepComposer の紹介 AWS DeepComposer は、開発者が事前トレーニング済みのモデルまたは独自のモデルで Generative AI を使用できるように設計された 32 キー、2 オクターブのキーボードです。 デバイスが入手できるようになったときに E メールを受信するリクエストを行うことも、AWS コンソールで仮想キーボードを使うこともできます。 以下はその詳細な説明です。 DeepComposer コンソールにログインし、 短い曲を録音するか、あらかじめ録音された曲を使用し、 お気に入りのジャンルの生成モデルを選択し (事前トレーニング済みまたは独自のもの)、 このモデルを使用して、新しいポリフォニックコンポジションを生成し、 コンソールでコンポジションを再生し、 コンポジションをエクスポートするか、SoundCloud […]

Read More