Amazon Web Services ブログ

深層学習モデルのトレーニングに Gaudi アクセラレータ搭載の EC2 インスタンス

今日、深層学習のアプリケーションはかつてないほど多様化しています。自然言語処理、レコメンデーションシステム、画像認識、ビデオ認識などすべての機能において、高品質で十分に訓練されたモデルの利点を受けることができます。

このようなモデルを構築するプロセスは繰り返し行われます。初期モデルを構築し、Ground Truthデータでトレーニング、およびテスト推論を数回行い、モデルを改良してこれを繰り返します。深層学習モデルには多くのレイヤー (これが名前の由来です) が含まれ、各レイヤーは前のレイヤーの出力を変換します。トレーニングプロセスでは数学とプロセッサを多用し、GPU やその他のトレーニングアクセラレーター、ネットワーク、ローカルまたはネットワークストレージなど、トレーニングに使用されるシステムのほぼすべての部分で要求が行われます。この洗練された複雑な機能により、トレーニング時間とコストがかさみます。

新しい DL1 インスタンス
今回は、新しい DL1 インスタンスについてお話したいと思います。Habana Labs の Gaudi アクセラレーターを搭載した dl1.24xlarge インスタンスの仕様は次のとおりです。

Gaudi アクセラレーター — 各インスタンスには 8 つの Gaudi アクセラレーターが搭載されており、合計 256 GB の高帯域幅 (HBM2) アクセラレーターメモリと、アクセラレーター間の高速な RDMA 電源通信が可能です。

システムメモリ — 768 GB のシステムメモリ。お客様からの多くの要望にもあるように、非常に大きなトレーニングデータのセットをメモリに十分に保存することができます。

ローカルストレージ — 4 TB のローカル NVMe ストレージ。4 つの 1 TB のボリュームを備えています。

プロセッサ — 96 基の vCPU を搭載したインテル Cascade Lake プロセッサ。

ネットワーク — 400 Gbps のネットワークスループット。

ご覧のとおり、現在の GPU ベースの EC2 インスタンスよりも低コストでコストパフォーマンスが最大 40% 向上する、高機能な機械学習トレーニングプラットフォームを提供することを目標に、ほぼすべての点で最高の仕様を実現しました。

Gaudi 内部
Gaudi アクセラレーターは、機械学習トレーニング用にカスタム設計されており、多くのクールで興味深い機能と属性を備えています。

データ型 — 浮動小数点 (BF16 および FP32)、符号付き整数 (INT8、INT16、および INT32)、および符号なし整数 (UINT8、UINT16、および UINT32) データのサポート。

一般化行列乗算エンジン (GEMM) — 行列乗算を高速化する専用ハードウェア。

テンソル処理コア (TPC) — 機械学習トレーニング用に設計された専用の VLIW SIMD (非常に長い命令ワード/単一命令複数データ) 処理ユニット。TPC は C プログラム可能ですが、ほとんどのユーザーは上位レベルのツールやフレームワークを使用します。

DL1 インスタンスを使用する
Gaudi SynapseAI トレーニング用ソフトウェア一式は、新しいモデルを構築し、PyTorch や TensorFlow などの人気のフレームワークから既存のモデルを移行するのに役立ちます。

以下は、開始に必要なリソースです。

TensorFlow ユーザーガイド — Gaudi で TensorFlow モデルを実行する方法を学びます。

PyTorch ユーザーガイド — Gaudi で PyTorch モデルを実行する方法を学びます。

Gaudi モデル移行ガイド — PyTorch または TensorFlow を Gaudi に移植する方法を学びます。

HabanaAI Repo-この大規模でアクティブなリポジトリには、セットアップ手順、リファレンスモデル、学術論文などが含まれています。

TPC プログラミングツールを使用して、TPC 上で直接実行されるコードを記述、シミュレート、およびデバッグできます。また、 Habana コミュニケーションライブラリ (HCL) を使用して、複数のアクセラレーターの機能を活用するアプリケーションを構築できます。Habana Collective Communications Library (HCCL) は HCL 上で動作し、削減、ブロードキャスト、ギャザー、スキャッター操作のための集合プリミティブへのアクセスを提供します。

今すぐご利用いただけます
DL1 インスタンスは、現在、米国東部(バージニア北部)リージョンと米国西部(オレゴン)リージョンで、オンデマンドおよびスポット形式でご利用いただけます。リザーブドインスタンスおよび Savings Plans も購入できます。

Jeff;

原文はこちらです。