投稿日: May 4, 2023

Amazon SageMaker で、リアルタイムおよび非同期推論用の機械学習 (ML) モデルのデプロイに使用する、ml.inf2 および ml.trn1 ファミリーのインスタンスが利用可能になったことをお知らせします。SageMaker でこれらのインスタンスを使用すると、大規模言語モデル (LLM) やビジョントランスフォーマーなどの生成系人工知能 (AI) モデルによる低コストかつ高性能な推論を実現できます。さらに、SageMaker Inference Recommender を使用すると、負荷テストを実行したり、これらのインスタンスにモデルをデプロイすることによるコストパフォーマンス上のメリットを評価したりすることができます。

ml.inf2 インスタンスと ml.trn1 インスタンスは、それぞれ AWS Inferentia2 と Trainium アクセラレーターを利用しています。

  • SageMaker で ml.inf2 インスタンスを使用して ML アプリケーションを実行すると、テキスト要約、コード生成、動画および画像生成、音声認識などが可能になります。ml.inf2 インスタンスは最大 384 GB の共有アクセラレーターメモリを備え、高性能な生成系 AI 推論を実現します。
  • ml.trn1 インスタンスは ml.inf2 インスタンスと似ていますが、512 GB の共有アクセラレーターメモリを備えています。そのため、SageMaker でさらに大きなモデルをデプロイできます。さらに、このインスタンスは最大 8 TB のローカル NVMe ソリッドステートドライブ (SSD) ストレージを搭載しているため、大規模なデータセットやモデルへの高速ワークロードアクセスを可能にします。

ml.inf2 インスタンスは米国東部 (オハイオ)、ml.trn1 インスタンスは米国東部 (バージニア北部) において、SageMaker でモデルをデプロイできます。

エンドポイントのデプロイ時に、PyTorch、Tensorflow、HuggingFace、大規模モデル推論 (LMI) 用の ml.trn1 および ml.inf2 互換の AWS Deep Learning Containers (DLC) を使用すると、簡単に開始できます (詳細)。料金については、料金ページをご覧ください。