投稿日: Nov 11, 2022
Amazon SageMaker トレーニングジョブは、AWS Trainium チップを搭載した ml.trn1 インスタンスをサポートするようになりました。これは、クラウドでの高性能 ML トレーニングアプリケーション用に開発されたインスタンスです。SageMaker で ml.trn1 インスタンスを使用すると、音声認識、レコメンデーション、不正検出、画像と動画の分類、予測などの幅広い用途にわたって、自然言語処理 (NLP)、コンピュータビジョン、レコメンダーモデルをトレーニングできます。
ml.trn1 インスタンスは、AWS Inferentia の登場後に AWS によって開発された第 2 世代の ML チップである AWS Trainium チップを、最大 16 個搭載できます。ml.trn1 インスタンスは、最大 800 Gbps の Elastic Fabric Adapter (EFA) ネットワーク帯域幅を備えた最初の EC2 インスタンスです。データとモデルの効率的な並列処理のために、ml.trn1.32xl インスタンスは 512 GB の高帯域幅メモリを搭載し、最大 3.4 ペタフロップスの FP16/BF16 コンピューティング能力を提供します。インスタンス内の高帯域幅ノンブロッキング相互接続である NeuronLink も装備しています。
ml.trn1 インスタンスには 2 つのサイズが用意されています。ml.trn1.2xlarge は 1 つのアクセラレータを使用して実験し、費用対効果の高い小さなモデルをトレーニングするためのもので、ml.trn1.32xlarge は大規模なモデルをトレーニングするためのものです。本日より、SageMaker モデルトレーニングは、AWS 米国東部 (バージニア北部) と米国西部 (オレゴン) リージョンで ml.trn1 インスタンスのサポートを開始します。
ml.trn1 インスタンスの詳細については、AWS ニュースブログか、Trn1 インスタンスページをご覧ください。ml.trn1 インスタンスの使用を開始するには、Amazon SageMaker コンソールにサインインしてください。Amazon SageMaker モデルトレーニングの詳細については、AWS のウェブページをご覧ください。