投稿日: Dec 15, 2022

最新の AWS Graviton3E プロセッサーを搭載した Amazon EC2 Hpc7g インスタンスは、Amazon EC2において、 HPC ワークロード向けに最も高い価格パフォーマンスを提供

Amazon EC2 C7gn インスタンスはネットワーク機能を強化した最新の AWS Nitro カードを搭載、Amazon EC2 ネットワーク最適化インスタンスとして最高のネットワーク帯域幅とパケット処理性能を実現

最新の AWS Inferentia2 プロセッサーを搭載したAmazon EC2 Inf2 インスタンスは、Amazon EC2 上で、コストとレイテンシーを最小化しながら、最大規模のディープラーニングモデルを大規模にスケール可能に 

※本プレスリリースは、現地時間 2022 年 11 月 29 日に米国で発表されたプレスリリースの抄訳版です。

(ラスベガス、2022 年 11 月 29 日発表)Amazon.com, Inc.(NASDAQ:AMZN)の関連会社である Amazon Web Services, Inc.(AWS)は 11 月 29 日、AWS re:Invent にて、自社設計チップを搭載した 3 つの Amazon Elastic Compute Cloud(Amazon EC2)インスタンスを発表しました。これらのインスタンスを活用することで、AWS のお客様は幅広いワークロードに、これまで以上のコンピューティング性能をより低いコストでご利用いただくことが可能となります。AWS の最新プロセッサー Graviton3E を搭載した Hpc7g インスタンスは、浮動小数点演算性能を現行世代の C6gn インスタンスの最大 2 倍に向上、パフォーマンスでは現行世代の Hpc6a インスタンスに比べて 20% 向上し、AWS 上のハイパフォーマンスコンピューティング(HPC)ワークロード向けに最も高い価格パフォーマンスを実現します。C7gn インスタンスは最新の AWS Nitro カードを搭載し、現行世代のネットワーク最適化インスタンスに比べ、最大 2 倍のネットワーク帯域、2 倍のパケット処理性能(pps)の実現を特徴とし、ネットワーク負荷の高いワークロード向けに、最高のネットワーク帯域幅とパケット処理性能を最高の価格パフォーマンスで提供します。AWS Inferentia2 プロセッサーを搭載した Inf2 インスタンスは、最大 1,750 億のパラメータの大規模なディープラーニングモデルを実行できるよう設計され、現行の Inf1 インスタンスに比べて最大 4 倍のスループットと 10 分の 1 の低レイテンシーを提供し、Amazon EC2 上の機械学習(ML)にとって最小のレイテンシーと低コストを実現します。

Amazon EC2 C7gn インスタンス

AWS は、これまで 10 年にわたり、低コストながらもクラウドにおけるパフォーマンスと拡張性を高めるためのチップを独自に設計してきました。その間、AWS は目的別に特化した性能を持つチップ設計を導入することで、高速処理、高メモリー容量、高速ストレージ I/O、高ネットワーク帯域幅を要する、さまざまな特性を持つ要求の厳しいワークロードの実行を可能としてきました。2013 年に AWS Nitro System を導入して以来、自社設計によるさまざまなシリコン分野におけるイノベーションを実現してきました。これには、第 5 世代の Nitro System、幅広いワークロードに合わせて性能やコストを最適化した第 3 世代の Graviton チップ、第 2 世代の機械学習推論用チップ Inferentia、機械学習モデルのトレーニング用の Trainium チップなどが含まれます。AWS では、AWS 自社設計シリコンのデザインとその検証のためにアジャイルな開発サイクルを確立しており、その一環としてクラウドベースの電子設計自動化(electronic design automation, EDA)も採用しています。この手法により、画期的なスピードでイノベーションを行い、チップをより迅速にお客様に提供できるようになりました。AWS は、よりモダンで電力効率に優れたシリコンプロセスをベースとした新しいチップを、予測可能な、かつ極めて速いペースで開発できることを実証しました。このようにして開発されたチップは、その世代を重ねるごとに段階的に機能の改善を続け、これらのチップを基盤にして提供される Amazon EC2 インスタンスのパフォーマンスやコスト、効率を改善し、企業の持つ独自のワークロード要件に最適化したチップとインスタンスの組み合わせの選択肢は広がり続けています。

Amazon Web Services, Inc. Amazon EC2 担当バイスプレジデントである David Brown は、次のように述べています。「Graviton から Trainium、Inferentia といったチップから Nitro カードまで、AWS 自社設計によるシリコンは、お客様の多様なワークロードに対応できるよう、開発を重ねるごとにパフォーマンスレベルを高め、コストを下げ、電力効率を高めています。そうした安定的な開発能力と、AWS のチップを利用して優れた価格パフォーマンスを実現しようとするお客様の力が合わさり、私たちは継続してイノベーションを生み出せています。本日発表した Amazon EC2 インスタンスは、HPC、ネットワークインテンシブ、機械学習推論向けの性能を大幅に向上させ、お客様の個々のニーズにマッチする、多様なインスタンスの選択肢を今まで以上に提供します」

Amazon EC2 上 で大規模な HPC ワークロード実行するお客様向けに、最高の価格パフォーマンスを提供する Hpc7g インスタンス

さまざまな業界の組織が HPC を活用して最も複雑な学術的、科学的、さらにはビジネス上の課題を解決しようとしています。アストラゼネカ、Formula 1、Maxar Technologies をはじめとする AWS のお客様は、AWS 上で提供される優れたセキュリティや拡張性、弾力性を求めて、ゲノム解析、流体力学(CFD; Computational Fluid Dynamics)、天気予報シミュレーションなどの従来型 HPC ワークロードを実行しています。エンジニアや研究者、科学者たちは、HPC ワークロードを実行するのに、実質的に無制限にスケールでき、数千コア規模での計算処理とデータ転送を実現する、高い品質のネットワーク帯域幅を備えた C5n、R5n、M5n や C6gn といった Amazon EC2 ネットワーク最適化インスタンスを活用しています。これら既存のインスタンスの性能は現在、ほとんどの HPC のユースケースにとって十分ですが、人工知能(AI)や自動運転技術といった新たな分野では、ますます困難になる問題を解決するために、より拡張性の高い、HPC ワークロードのコストを削減することができるHPC 向けに最適化されたインスタンスが求められています。それにより、HPC ワークロードを数万以上のコアまで拡張することができます。

最新の AWS Graviton3E プロセッサーを搭載した Hpc7g インスタンスは、企業の HPC ワークロード(数値流体解析(Computational Fluid Dynamics, CFD)、気象シミュレーション、ゲノミクス、分子運動解析など)のために Amazon EC2 で最適な価格パフォーマンスを提供します。Hpc7g インスタンスは、Graviton2 プロセッサーを搭載した現行世代の C6gn インスタンスと比較して、浮動小数点演算性能が最大 2 倍、現行世代の Hpc6a インスタンスと比較してパフォーマンスが最大 20% 向上しており、最大数万コア数からなる HPC クラスターにおいて複雑な演算の実行が可能になります。さらに、Hpc7g インスタンスは高メモリー帯域幅と 200 Gbps のネットワーク帯域幅の Elastic Fabric Adapter(EFA)を提供し、HPC アプリケーションが計算結果を出すまでの時間を短縮します。またお客様は、オープンソースのクラスター管理ツールである AWS ParallelCluster を使用することで、Hpc7g インスタンスを別のインスタンスと連動させてプロビジョニングを行うことができるため、同一の HPC クラスター内で異なる種類のワークロードを実行できます。AWS HPC の詳細は、以下のウェブサイトをご確認ください。
aws.amazon.com/hpc

高いネットワーク帯域幅とパケット転送速度、低レイテンシーが求められるネットワークインテンシブなワークロードにおいて、最高の性能を提供する C7gn インスタンス

Amazon EC2 ネットワーク最適化インスタンスを利用すれば、お客様はネットワーク仮想アプライアンス(ファイアウォール、仮想ルーター、ロードバランサ―など)やデータ暗号化のように、最も要求の厳しいネットワークインテンシブなワークロードに対応できます。これらのワークロードのパフォーマンスを拡張し、急激なアクティビティの変化に対応したり、エンドユーザーに対してより良いエクスペリエンスを提供するために処理時間を短縮する必要があります。より大きなインスタンスサイズを選択すればネットワークのスループットは高まりますが、平常時にも必要以上のコンピュートリソースを維持することとなりコストの増大を招きます。それを避けたいお客様がデータ処理時間を短縮するためには、パケット転送速度の向上や、ネットワーク帯域幅の拡大、暗号化性能の高速化が必要です。

ネットワークアクセラレーション機能を持つ新しい第 5 世代の Nitro チップを搭載した新しい AWS Nitro カードを備えた C7gn インスタンスは、消費電力を抑えながら、Amazon EC2 ネットワーク最適化インスタンスで最高のネットワーク帯域幅とパケット処理性能を提供します。Nitro カードはこれまでホスト CPU が処理していた入出力処理を専用のハードウェアにオフロードした上で高速化し、事実上すべての Amazon EC2 インスタンスのリソースをお客様のワークロードに割り当てることができ、CPU 使用率を下げてより安定したパフォーマンスを実現できます。最新の AWS Nitro カードを採用した C7gn インスタンスは、現行世代の Amazon EC2ネットワーク最適化インスタンスと比較し、最大 2 倍のネットワーク帯域、2 倍のパケット処理性能(pps)を実現し、Elastic Fabric Adapter(EFA)のネットワーク遅延を短縮します。C7gn インスタンスは、C6gn インスタンスと比較してコンピュート性能で最大 25% 向上、暗号化ワークロードのパフォーマンスを最大 2 倍高速化します。第 5 世代の Nitro カードも、第 4 世代 Nitro カードと比較して、1 ワットあたりのパフォーマンスを 40% 向上させて、ワークロードの消費電力を抑制します。お客様は、C7gn インスタンスでパフォーマンスとスループットの両方の規模が拡張できるほか、ネットワーク遅延を短縮して、Amazon EC2 上で最も要求の厳しいネットワークインテンシブなワークロードのコストを最適化できます。C7gn インスタンスは、現在プレビュー版をご利用いただけます。C7gn インスタンスの詳細は、以下のウェブサイトをご確認ください。
aws.amazon.com/ec2/instance-types/c7g  

最も要求の厳しいディープラーニングモデルをデプロイできるように設計され、分散推論と確率論的丸め処理に対応した Inf2 インスタンス

データサイエンティストや機械学習(ML)エンジニアは、より高度なアプリケーションやよりパーソナライズされた体験に対する要求に応えるため、今まで以上に大規模で複雑なディープラーニングモデルの開発に取り組んでいます。例えば、1,000 億以上のパラメータを必要とする大規模言語モデル(LLM)の普及が進んでいますが、そのためには膨大な量のデータを用いたトレーニングを行う必要があり、コンピューティングへ要求はさらに高まっています。トレーニングに注目が向かいがちですが、実際に機械学習を運用する際の複雑さやコストの大半を占めているのは推論の部分であり(トレーニングに 1 ドル費やすごとに、推論には 9 ドルまでのコストがかかる)、このことから機械学習の活用が抑えられると、お客様のイノベーションを抑制してしまう可能性があります。お客様は最先端のディープラーニングモデルを、自社のアプリケーションの中で大規模に活用したいと考えているものの、そのために必要な高額なコンピュートコストがネックとなっています。AWS が 2019 年に Inf1 インスタンスをローンチした際には、ディープラーニングモデルのパラメータは、まだ数百万の規模でした。その後、ディープラーニングモデルの規模も複雑さも指数関数的に拡大し、パラメータ数が数千億を超えるモデルも見られるよう、500 倍に増えたことになります。ディープラーニングの最新技術を活用した次世代アプリケーションに取り組む際に企業が求めているのは、コスト効率、エネルギー効率が高く、低レイテンシーにも対応したハードウェアと高スループットの推論であり、彼らのエンジニアリングチームが最新のイノベーションを大規模なスケールで迅速にデプロイすることのできるフレキシブルなソフトウェアを必要としています。

最新の Inferentia2 チップを搭載したInf2 インスタンスは、最大 1,750 億のパラメータをサポートし、さらに Amazon EC2 で推論単価コストを最小に抑えながら、大規模なディープラーニングモデル(LLM、画像生成、自動音声検知など)を支援します。Inf2 は、分散推論をサポートする初の推論最適化 Amazon EC2 インスタンスであり、大規模なモデルを複数のチップに分散することでパラメータ数が 1,000 億を超すディープラーニングモデルにおいて最適なパフォーマンスを提供します。Inf2 インスタンスは数値を確率論的に丸める処理のサポートを実現し、従来の丸め処理モードに比べて高パフォーマンス、高精度を可能とします。Inf2 インスタンスはまた、スループットの改善と推論あたりの消費電力を削減させるCFP8 や、低精度のデータ型のメリットを活用できていないモジュールのパフォーマンスを向上させる FP32 など、幅広いデータタイプをサポートします。お客様は、機械学習(ML)推論用の統合ソフトウェア開発キット(SDK)である AWS Neuron を使って、Inf2 インスタンスを開始することができます。AWS Neuron は、PyTorch や TensorFlow など、人気の高い ML のフレームワークに組み込まれており、最小限のコード変更で既存モデルを Inf2 インスタンス上にデプロイすることができます。大規模なモデルを複数のチップに分割するには、チップ間での高速なコミュニケーションが要求されるため、Inf2 インスタンスは AWS の高速のインスタンス内インターコネクトである NeuronLink をサポートし、192 ギガバイト / 秒のリング接続を実現しています。Inf2 インスタンスは、現行世代の Inf1 インスタンスと比較して、スループットを最大 4 倍に高め、レイテンシーを最大 10 分の 1 に短縮するほか、1 ワット当たりのパフォーマンスも GPU ベースのインスタンスと比較して最大 45% 向上させました。Inf2 インスタンスは、現在プレビュー版をご利用いただけます。Inf2 インスタンスの詳細は、以下のウェブサイトをご確認ください。
aws.amazon.com/ec2/instance-types/inf2

Qualtrics は、エクスペリエンス管理ソフトウェアの設計・開発を手掛けています。Qualtrics のコア・マシンラーニング部門責任者であるアーロン・コラク(Aaron Colak)氏は、次のように述べています。「Qualtrics ではお客様、従業員、ブランド、製品のエクスペリエンスのギャップを埋めるテクノロジーの開発に注力しています。そのために、テキスト分類、シーケンスタギング、談話分析、キーフレーズ抽出、トピック抽出、クラスタリング、エンドツーエンドの会話理解などの新しい機能を立ち上げるためのマルチタスク、マルチモーダルの複雑なディープラーニングモデルの開発に取り組んでいます。このようなより複雑なモデルをより多くのアプリケーションで活用するにつれて、非構造化データの量は増加します。お客様に最適なエクスペリエンスを提供するには、Inf2 インスタンスのように、要件を満たすことのできる、より高パフォーマンスで推論に最適化したソリューションが必要になります。新しい Inf2 インスタンスに非常に期待しています。このインスタンスによって、当社はさらに高スループットを実現できるだけでなく、レイテンシーを大幅に削減しながら分散推論や強化された dynamic input shape のサポート等の新機能を導入して、規模を拡張して導入ニーズに応えられるようになり、より大規模で複雑な大型モデルの推進を図れるようになるからです」