Amazon Web Services ブログ

Category: AWS Inferentia

Media Seminar Q1 Asahi Shimbun

【お客様事例】株式会社朝日新聞社様 自然言語処理の取り組みとEC2 Inf1インスタンスの検証

2021 年 3 月 18 日にメディア業界のお客様向けに Analytics & AI/ML をテーマとしたセミナーを開催いたしました。テレビ・動画配信・新聞・雑誌などのメディア企業では、デジタル変革の中でデータを活用する重要性が高まっています。本セミナーではメディア企業がいかにデータを活用し、新たなビジネスを展開していくかに焦点をあてた機械学習の活用方法をご紹介し、お客様に事例をご説明いただきました。

Read More

2021Q1 メディア企業向け Analytics & AI/ML セミナー : メディア企業での機械学習の活用

2021 年 3 月 18 日にメディア業界のお客様向けに Analytics & AI/ML をテーマとしたセミナーを開催いたしました。テレビ・動画配信・新聞・雑誌などのメディア企業では、デジタル変革の中でデータを活用する重要性が高まっています。本セミナーではメディア企業がいかにデータを活用し、新たなビジネスを展開していくかに焦点をあてた機械学習の活用方法をご紹介し、お客様に事例をご説明いただきました。

Read More

AWS Inferentiaを搭載した Inf1インスタンスが東京リージョンでAmazon SageMakerに対応しました

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、シニアエバンジェリストの亀田です。 AWS Inferentiaを搭載した Inf1インスタンスが東京リージョンにおいて、SageMakerで利用可能になりましたのでお知らせいたします。 AWS Inferentia と Inf1インスタンスとは? 一般的に機械学習のビジネス利用は、データ準備、学習と推論の3つのフェーズに分かれます。このうち学習環境は高価なGPUを搭載した専用 Amazon EC2インスタンスが用いられるケースが多くありその金額が課題となりえます。Amazon SageMaker を使うと高価な学習用インスタンスは、学習が終了した時点で学習用インスタンスを自動で停止させることで無駄な課金を抑えることができ、さらに、Managed Spot Training機能を使うことで、スポットインスタンスをベースとした安価な学習を行うことが可能です。その学習の結果として推論モデルが生成され、さらにAPIが生成され商用環境に組み込まれることとなります。 概して、推論環境は高価なGPU搭載インスタンスが必要な学習環境よりそのコストは安いものとなりますが、一時的かつ反復的に行われる学習環境とことなり、常時起動が前提となることが多く、そのコストは時間とともに積みあがります。さらに、ビジネスが順調に成長した場合、学習環境は中央集権型で構築されるのに対して、推論環境は多くの環境に組み込まれそのコストが課題となっていきます。 AWS Inferentiaはこの課題を解決するためにAWSが開発した高パフォーマンスの機械学習推論チップです。高性能の推論を提供し、推論の総コストを削減し、デベロッパーが機械学習をビジネスアプリケーションに簡単に統合できるように設計されています。また、Inferentia のワークロードのパフォーマンスを最適化するのに役立つコンパイラ、ランタイム、およびプロファイリングツールから構成される AWS Neuron ソフトウェア開発キット (SDK) は、AWS Inferentia ベースの 環境で TensorFlow、PyTorch、および MXNet などの一般的なフレームワークで作成およびトレーニングされた複雑なニューラルネットモデルを実現します。推論の高速化によるコスト削減は、Neuron Cores と呼ばれる Inferentia のプロセッシングコアにより実現されます。コアはオンチップメモリに格納され、帯域幅によって制限されないモデルに高速でアクセスすることが可能です。 そして、このInferentiaチップを搭載したEC2インスタンスがAWS Inf1 インスタンスになります。単一のチップで最大 128 TOPS (1 秒あたり数兆回の操作) のパフォーマンスをサポートし、EC2 Inf1 インスタンスごとに最大 16 個の Inferentia チップを有することができます。 Inf1インスタンスはEC2、または、Amazon Elastic Kubernetes Service […]

Read More

Alexa の大部分で、より高速でコスト効率の高い Amazon EC2 Inf1 インスタンスによる実行を開始

本日、Amazon Alexa チームが、GPU ベースの機械学習推論ワークロードの大部分を、 AWS Inferentiaを搭載した Amazon Elastic Compute Cloud (EC2) Inf1 インスタンスに移行したことを発表しました。これにより、Alexa のテキスト読み上げワークロードで使用している GPU ベースのインスタンスに比べて、エンドツーエンドのレイテンシーが 25% 短縮し、コストは 30% 削減しました。レイテンシーがより低くなったことにより、Alexa のエンジニアはより複雑なアルゴリズムを使った革新が可能となり、お客様の Alexa の使用感を全体的に向上させることが可能となりました。 AWS はAWS Inferentiaのチップを1から開発し、クラウドの中でも最も低コストでの機械学習 (ML) 推論を提供しています。このチップは、AWS re: Invent 2019 で発表した Inf1 を増強します。Inf1 インスタンスは、GPU ベースの G4 インスタンスと比較して、最大で 30% 高いスループットを実現し、推論あたりのコストを最大 45% 削減しています。Inf1 以前は、G4インスタンス が ML 推論のクラウドの中で最も低コストのインスタンスでした。 Alexaは Amazon のクラウドベースの音声サービスで、Amazon Echoデバイスや、スマートスピーカー、ライト、プラグ、スマートテレビ、カメラの 14 万種類以上のモデルに対応しています。今日、Alexa には 1 億台以上のデバイスが接続されています。毎月、数千万人のお客様が […]

Read More