Amazon Web Services ブログ

Category: AWS Inferentia

【お客様事例】株式会社 NTTPC 様 Amazon EC2 Inf1 インスタンス、姿勢推定推論サービスのコストパフォーマンス最適化の取り組み

2021 年 10 月 14 日にAmazon EC2をテーマとしたイベント「Amazon EC2 大活用 ~最新ラインナップ、コストパフォーマンス最適化、先進顧客事例などご紹介~」を開催いたしました。2006 年の EC2 サービス開始から 15 年という節目を迎え、AWS が提供する EC2 インスタンスの種類は多岐にわたっておりますが、コストパフォーマンスを最適化する上で、AWS では独自設計の ARM プロセッサ AWS Graviton2 や AWS Inferentia 推論チップを搭載したインスタンスを提供しています。本イベントでは Graviton2、Inferentia をご活用頂いたお客様の事例として、株式会社サイバーエージェント様、株式会社 NTTPC コミュニケーションズ様にそれぞれご登壇いただきました。

Read More

Amazon SageMaker でコンピュータビジョン推論に最適な AI アクセラレータとモデルコンパイルを選択

この記事は、2021 年 10 月 19 日に Davide Gallitelli 、 Hasan Poonawala によって投稿された Choose the best AI accelerator and model compilation for computer vision inference with Amazon SageMaker を翻訳したものです。 AWS のお客様では、コンピュータビジョンモデルによる予測で強化されたアプリケーションを構築するケースが増えています。例えば、フィットネスアプリケーションでは、カメラの前で運動しているユーザーの体の姿勢を監視し、ユーザーにライブフィードバックと定期的なインサイトを提供します。同様に、大規模な倉庫の在庫検査ツールでは、ネットワーク全体で何百万もの画像をキャプチャして処理し、本来あるべき場所にない在庫を発見します。 モデルの学習後、機械学習 (ML) チームは、モデルを本番環境にデプロイするための適切なハードウェアおよびソフトウェア構成を選択するために最大数週間かかることがあります。コンピューティングインスタンスタイプ、AI アクセラレータ、モデルサービングスタック、コンテナパラメータ、モデルコンパイル、モデル最適化など、いくつかの選択肢があります。これらの選択肢は、スループットやレイテンシーなどアプリケーションのパフォーマンス要件、およびコストの制約によって異なります。ML チームは、ユースケースに応じて、低い応答レイテンシー、高いコスト効率、高いリソース使用率、またはこれらの特定の制約の組み合わせを最適化する必要があります。コストパフォーマンスを最適化するために、ML チームはさまざまな組み合わせをチューニングし、負荷テストを行い、与えられた入力データとモデル出力データで比較可能なベンチマークを用意する必要があります。

Read More

【開催報告】「 Amazon EC2 大活用 ~ 最新ラインナップ、コストパフォーマンス最適化、先進顧客事例などご紹介~」セミナー

ソリューションアーキテクトの松尾です。2021年10月14日に「Amazon EC2 大活用 ~ 最新ラインナップ、コストパフォーマンス最適化、先進顧客事例などご紹介~」をオンライン開催しました。当日は200名超のお客様にご参加いただき、Amazon EC2の歴史、Amazon EC2最新情報、機械学習用インスタンスについて、AWSから発表し、さらに、Graviton2インスタンスご利用事例、Inf1インスタンスご利用事例を、2社のお客様からご発表いただきました。 本記事では、発表内容の概要と、発表資料のご紹介に加え、当日のQ&Aについても記載します。

Read More

AWS Inferentiaを使用して Amazon EKS で 3,000種類のディープラーニングモデルを 1 時間あたり 50 USD 以下で提供

この記事は、2021年9月30日に Alex Iankoulski、Joshua Correa、Mahadevan Balasubramaniam、Sundar Ranganathan によって投稿された Serve 3,000 deep learning models on Amazon EKS with AWS Inferentia for under $50 an hour を翻訳したものです。 より多くのお客様が、より大規模でスケーラブルで、より費用対効果の高い機械学習 (ML) 推論パイプラインをクラウドに構築する必要性を感じています。これらの基本前提条件以外では、本番環境の ML 推論パイプラインの要件は、ビジネスユースケースによって異なります。レコメンデーションエンジン、感情分析、広告ランキングなどのアプリケーションの典型的な推論アーキテクチャでは、古典的な ML モデルとディープラーニング(DL)モデルを組み合わせて、多数のモデルを提供する必要があります。各モデルは、アプリケーションプログラミングインターフェイス(API)エンドポイントを介してアクセスでき、リクエストを受けてから事前に定義されたレイテンシー要件内で応答できなければなりません。

Read More

機械学習と AWS Inferentia を使用した広告検証のスケーリング

Amazon Advertising は、15 を超える国々のウェブサイト、アプリケーション、ストリーミング TV コンテンツなど、Amazon のストア内外の両方で表示される広告を通じて、企業がブランドを構築し、お買い物をするお客様とつながるのをサポートします。Amazon Marketplace の登録販売者、ベンダー、書籍ベンダー、Kindle ダイレクトパブリッシング (KDP) の著者、アプリケーションデベロッパー、代理店など、あらゆる規模の企業やブランドが、独自の広告クリエイティブをアップロードできます。これには、画像、動画、音声のほか、Amazon で販売されている商品ももちろん含まれます。正確、安全、快適なショッピング体験を促進するために、これらの広告はコンテンツガイドラインに準拠している必要があります。 ここでは簡単な例を挙げます。次の広告のうち 2 つが準拠していない理由がおわかりでしょうか?

Read More

AWS Inferentia上のPyTorch自然言語処理アプリケーションにおいて、12倍のスループットと最小のレイテンシーを実現

この記事は、2021年5月4日に Fabio Nonato de Paula、Mahadevan Balasubramaniam によって投稿された Achieve 12x higher throughput and lowest latency for PyTorch Natural Language Processing applications out-of-the-box on AWS Inferentia を翻訳したものです。2021年6月25日に発表された Amazon EC2 Inf1 インスタンスで新機能、パフォーマンスの向上、値下げを実現 の記事も併せてご参照下さい。 Snap、Alexa、Autodesk などの AWS のお客様は、 AWS Inferentia を使用して、さまざまな機械学習 (ML) デプロイで最高のパフォーマンスと最小のコストを達成しています。自然言語処理 (NLP) モデルは、リアルタイムおよびオフラインのバッチ処理のユースケースで人気が高まっています。当社のお客様は、サポートチャットボット、検索、ランキング、ドキュメントの要約、自然言語理解など、多くのアプリケーションにこれらのモデルをデプロイしています。AWS Inferentia を使うことで、オープンソースの NLP モデルをカスタマイズ無しですぐに実行でき、かつ最高のパフォーマンスと最小のコストを実現できます。

Read More
Media Seminar Q1 Asahi Shimbun

【お客様事例】株式会社朝日新聞社様 自然言語処理の取り組みとEC2 Inf1インスタンスの検証

2021 年 3 月 18 日にメディア業界のお客様向けに Analytics & AI/ML をテーマとしたセミナーを開催いたしました。テレビ・動画配信・新聞・雑誌などのメディア企業では、デジタル変革の中でデータを活用する重要性が高まっています。本セミナーではメディア企業がいかにデータを活用し、新たなビジネスを展開していくかに焦点をあてた機械学習の活用方法をご紹介し、お客様に事例をご説明いただきました。

Read More

2021Q1 メディア企業向け Analytics & AI/ML セミナー : メディア企業での機械学習の活用

2021 年 3 月 18 日にメディア業界のお客様向けに Analytics & AI/ML をテーマとしたセミナーを開催いたしました。テレビ・動画配信・新聞・雑誌などのメディア企業では、デジタル変革の中でデータを活用する重要性が高まっています。本セミナーではメディア企業がいかにデータを活用し、新たなビジネスを展開していくかに焦点をあてた機械学習の活用方法をご紹介し、お客様に事例をご説明いただきました。

Read More

AWS Inferentia を搭載した Inf1インスタンスが東京リージョンで Amazon SageMaker に対応しました

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、シニアエバンジェリストの亀田です。 AWS Inferentiaを搭載した Inf1インスタンスが東京リージョンにおいて、SageMaker で利用可能になりましたのでお知らせいたします。 AWS Inferentia と Inf1 インスタンスとは? 一般的に機械学習のビジネス利用は、データ準備、学習と推論の 3 つのフェーズに分かれます。このうち学習環境は高価な GPU を搭載した専用 Amazon EC2インスタンスが用いられるケースが多くありその金額が課題となりえます。Amazon SageMaker を使うと高価な学習用インスタンスは、学習が終了した時点で学習用インスタンスを自動で停止させることで無駄な課金を抑えることができ、さらに、Managed Spot Training 機能を使うことで、スポットインスタンスをベースとした安価な学習を行うことが可能です。その学習の結果として推論モデルが生成され、さらに API が生成され商用環境に組み込まれることとなります。 概して、推論環境は高価な GPU 搭載インスタンスが必要な学習環境よりそのコストは安いものとなりますが、一時的かつ反復的に行われる学習環境とことなり、常時起動が前提となることが多く、そのコストは時間とともに積みあがります。さらに、ビジネスが順調に成長した場合、学習環境は中央集権型で構築されるのに対して、推論環境は多くの環境に組み込まれそのコストが課題となっていきます。

Read More

Alexa の大部分で、より高速でコスト効率の高い Amazon EC2 Inf1 インスタンスによる実行を開始

本日、Amazon Alexa チームが、GPU ベースの機械学習推論ワークロードの大部分を、 AWS Inferentiaを搭載した Amazon Elastic Compute Cloud (EC2) Inf1 インスタンスに移行したことを発表しました。これにより、Alexa のテキスト読み上げワークロードで使用している GPU ベースのインスタンスに比べて、エンドツーエンドのレイテンシーが 25% 短縮し、コストは 30% 削減しました。レイテンシーがより低くなったことにより、Alexa のエンジニアはより複雑なアルゴリズムを使った革新が可能となり、お客様の Alexa の使用感を全体的に向上させることが可能となりました。 AWS はAWS Inferentiaのチップを1から開発し、クラウドの中でも最も低コストでの機械学習 (ML) 推論を提供しています。このチップは、AWS re: Invent 2019 で発表した Inf1 を増強します。Inf1 インスタンスは、GPU ベースの G4 インスタンスと比較して、最大で 30% 高いスループットを実現し、推論あたりのコストを最大 45% 削減しています。Inf1 以前は、G4インスタンス が ML 推論のクラウドの中で最も低コストのインスタンスでした。 Alexaは Amazon のクラウドベースの音声サービスで、Amazon Echoデバイスや、スマートスピーカー、ライト、プラグ、スマートテレビ、カメラの 14 万種類以上のモデルに対応しています。今日、Alexa には 1 億台以上のデバイスが接続されています。毎月、数千万人のお客様が […]

Read More