Amazon EC2

Amazon EC2 DL1 インスタンス

低コストでの深層学習モデルのトレーニング

Amazon EC2 DL1 インスタンスを使用すべき理由

Habana Labs (インテルの関連会社) の Gaudi アクセラレーターを搭載した Amazon EC2 DL1 インスタンスは、自然言語処理、オブジェクト検出、および画像認識のユースケース向けの低コストでトレーニングできる深層学習モデルを提供します。DL1 インスタンスは、現行世代の GPU ベースの EC2 インスタンスと比較して、深層学習モデルのトレーニングにおいて最大 40% 優れた料金パフォーマンスを提供します。

Amazon EC2 DL1 インスタンスは、アクセラレーターごとに 32 GiB の高帯域幅メモリ (HBM) を搭載した 8 つの Gaudi アクセラレーター、768 GiB のシステムメモリ、カスタムの第 2 世代インテル Xeon スケーラブルプロセッサ、400 Gbps のネットワークスループット、および 4 TB のローカル NVMe ストレージを特徴としています。

DL1 インスタンスには、TensorFlow や PyTorch などの主要な機械学習フレームワークと統合された Habana SynapseAI® SDK が含まれています。

AWS Deep Learning AMIs または AWS Deep Learning Containers、またはコンテナ化されたアプリケーション向けの Amazon EKS および ECS を使用して、DL1 インスタンスを簡単に開始できます。Amazon SageMaker での DL1 インスタンスのサポートの提供は間もなく開始されます。

新しい Amazon EC2 DL1 インスタンスの概要の動画

メリット

DL1 インスタンスは、最新の GPU ベースの EC2 インスタンスと比較して、深層学習モデルのトレーニングにおいて最大 40% 優れた料金パフォーマンスを実現します。これらのインスタンスは、深層学習モデルのトレーニング専用に構築された Gaudi アクセラレーターを備えています。EC2 Savings Plan を使用して、深層学習モデルのトレーニングのコストを大幅に削減することで、さらにコストを節約することもできます。

あらゆるデベロッパーは、その専門知識のレベルにかかわらず、DL1 インスタンスの使用を簡単に開始できます。AWS DL AMI と DL コンテナを使用して DL1 インスタンスの使用を開始することで、引き続き独自のワークフロー管理サービスを使用できます。上級ユーザーは、Gaudi のプログラム可能な Tensor Processing Core(TPC) を使用して、モデルのパフォーマンスを最適化するカスタムカーネルを構築することもできます。Habana SynapseAI® ツールを使用すると、GPU または CPU ベースのインスタンスで実行されている既存のモデルを最小限のコード変更で DL1 インスタンスにシームレスに移行できます。

DL1 インスタンスは、TensorFlow や PyTorch などの主要な機械学習フレームワークをサポートしているため、お好みの機械学習ワークフローを引き続きご利用いただけます。Habana の GitHub リポジトリで、オブジェクト検出用の Mask R-CNN や自然言語処理用の BERT などの最適化されたモデルにアクセスして、モデルを迅速に構築、トレーニング、およびデプロイできます。SynapseAI の豊富な Tensor Processing Core (TPC) カーネルライブラリは、幅広いモデルとパフォーマンスのニーズに対応するために、さまざまな演算子と複数のデータ型をサポートしています。

特徴

DL1 インスタンスは、Habana Labs (インテルの関連会社) の Gaudi アクセラレーターを搭載しており、8 つの完全にプログラム可能な TPC と 32 GiB の高帯域幅メモリ (アクセラレーターあたり) を備えています。トレーニング効率を最大化するための異種コンピューティングアーキテクチャと、行列計算用の設定可能な一元的なエンジンを備えています。また、アクセラレーター間の低レイテンシーでの通信のために、すべての Gaudi アクセラレーターに 10 個の 100 ギガビットイーサネットポートの業界唯一のネイティブ統合も備えています。

SynapseAI® SDK は、グラフコンパイラとランタイム、TPC カーネルライブラリ、ファームウェア、ドライバー、およびツールで構成されています。TensorFlow や PyTorch などの主要なフレームワークと統合されています。その通信ライブラリは、現在 GPU ベースのインスタンスに使用しているのと同じオペレーションを使用して複数のアクセラレーターに迅速にスケールアップするのに役立ちます。この決定論的なスケーリングにより、さまざまなニューラルネットワークトポロジ全体で使用率が高くなり、効率が向上します。 SynapseAI® ツールを使用すると、最小限のコード変更で既存のモデルを DL1 インスタンスにシームレスに移行して実行できます。

DL1 インスタンスは、400 Gbps のネットワークスループットと、高速ネットワークへのアクセスを必要とするアプリケーション向けに Amazon Elastic Fabric Adapter (EFA) および Amazon Elastic Network Adapter (ENA) への接続を提供します。大規模なデータセットに高速にアクセスするために、DL1 インスタンスには 4 TB のローカル NVMe ストレージも含まれ、8 GB/秒の読み取りスループットを提供します。

DL1 インスタンスは AWS Nitro System 上で構築されています。これは構成要素のリッチなコレクションであり、従来の仮想化機能の多くを専用のハードウェアとソフトウェアにオフロードして、仮想化のオーバーヘッドを削減しながら、高パフォーマンス、高可用性、および強力なセキュリティを実現します。

製品の詳細

インスタンスサイズ	vCPU	インスタンスメモリ (GiB)	Gaudi アクセラレーター	ネットワーク帯域幅 (Gbps)	アクセラレーター Peer-to-Peer Bidirectional (Gbps)	インスタンスストレージ (GB)	EBS 帯域幅 (Gbps)	オンデマンド (料金/時間)	3 年間のリザーブドインスタンスの実質的時間単価	3 年間のリザーブドインスタンスの実質的時間単価*
dl1.24xlarge	96	768	8	400	100	4 × 1000 NVMe SSD	19	13.11 USD	7.87 USD	5.24 USD

*表示されている料金は、米国東部 (バージニア北部) および米国西部 (オレゴン) リージョン向けです。

Seagate

Seagate Technology は、40 年を超える期間にわたってデータストレージおよび管理ソリューションを提供し続けているグローバルリーダーです。Seagate のデータサイエンスおよび機械学習エンジニアは、深層学習 (DL) を利用する高度な欠陥検出システムを構築し、それを会社の製造施設全体でグローバルに展開しました。 最近の概念実証プロジェクトで、Habana Gaudi は、Seagate の本番稼働環境で現在使用されている DL セマンティックセグメンテーションモデルの 1 つのトレーニングに関するパフォーマンス目標を上回りました。 

当社では、Habana Gaudi アクセラレーターを搭載した Amazon EC2 DL1 インスタンスの大幅な料金パフォーマンスの利点が、将来的には AWS コンピューティングクラスターの追加的な魅力となり得ると期待しています。Habana Labs は継続的に進化し、対象とする演算子の範囲を広げ続けているため、エンタープライズのさらなるユースケースに対応できるよう拡大し、それによって追加のコスト削減を実現できる可能性を秘めています」。

Seagate、オペレーション、テクノロジー、およびアドバンストアナリティクス部門シニアエンジニアリングディレクター、Darrell Louder 氏

Leidos

Leidos は、病院や医療システム、生物医学関連の組織、および健康関連の取組みを実施するすべての米国連邦政府機関に、カスタマイズ可能でスケーラブルな幅広いソリューションを提供する医療 IT プロバイダーの上位 10 位までに入る企業として認識されています。

「今日の医療を進歩させるために当社が実現している数多くのテクノロジーの 1 つに、医用画像データに基づく病気の診断のための機械学習と深層学習の利用が含まれています。当社の膨大なデータセットは、最高レベルの緊急性を持つ医療上の不明点を解決しようとしている研究者を支援するために、タイムリーで効率的なトレーニングを必要とします。Leidos とその顧客が深層学習モデルの迅速かつ簡単で費用対効果の高いトレーニングを必要としていることを考えると、Habana Gaudi AI プロセッサに基づく Amazon EC2 DL1 インスタンスを使用するためにインテルと AWS でこの取組みを開始したことは極めて有意義なことであると言えます。当社では、DL1 インスタンスを使用することで、モデルのトレーニング速度と効率が向上し、その後、研究開発のリスクとコストが削減されると想定しています」。

Leidos、CTO (健康およびヒューマンサービス)、Chetan Paul 氏

Intel

インテルは、アスリートが動いている動画をリアルタイムで分析してパフォーマンストレーニングプロセスに役立つ参考情報を提供し、競技中の視聴者体験を向上させる 3D Athlete Tracking テクノロジーを開発しました。

「Habana Labs の Gaudi アクセラレーターを搭載した Amazon EC2 DL1 インスタンスでモデルをトレーニングすることで、トレーニングコストを削減しながら、何千もの動画を正確かつ確実に処理し、関連するパフォーマンスデータを生成できます。DL1 インスタンスを使用することで、さまざまなスポーツのあらゆるレベルのアスリート、チーム、およびブロードキャスターに生産的にサービスを提供するために必要な速度とコストでトレーニングできるようになりました」。

インテル、バイスプレジデント (営業およびマーケティンググループ)、Rick Echevarria 氏

Riskfuel

RiskFuel は、金融ポートフォリオを管理している企業にリアルタイムの評価とリスク感度を提供し、それらの企業が取引の精度とパフォーマンスを向上するのをサポートします。

「当社が Habana Gaudi AI アクセラレーターをベースとする Amazon EC2 DL1 インスタンスに魅力を感じたのは 2 つの要因があったからでした。第一に、当社では、銀行および保険分野のお客様が最新のハードウェアを利用する Riskfuel モデルを実行できるようにしたいと考えています。幸いなことに、モデルを DL1 インスタンスに移行するのはシンプルかつ容易であることがわかりました。実際、数行のコードを変更するだけでした。第二に、トレーニングコストは当社の支出の大きな部分を占めており、料金パフォーマンスの最大 40% の改善の約束は、当社の収益に潜在的に大きな利益をもたらす可能性があります」。

Riskfuel、CEO、Ryan Ferguson 氏

Fractal

Fractal は、AI と分析のグローバルリーダーであり、フォーチュン 500 企業の意思決定を支えています。

「AI と深層学習は当社の Machine Vision 機能の中核です。これは、当社がサービスを提供する業界で、お客様がより良い意思決定を行うことを可能にします。精度を向上させるために、データセットはより大きく、より複雑になってきており、これに伴って、より大きく、より複雑なモデルが必要となります。これにより、コンピューティング料金のパフォーマンスを改善する必要性が高まっています。新しい Amazon EC2 DL1 インスタンスは、GPU ベースの EC2 インスタンスよりも大幅に低コストのトレーニングを約束します。これにより、クラウドにおける AI モデルのトレーニングが、幅広いクライアントにとって以前よりもはるかにコストの面で魅力的なものとなり、利用しやすくなると期待しています」。

Fractal、グループ CEO、Srikanth Velamakanni 氏

開始方法

AWS Deep Learning AMIs (DLAMI) および AWS Deep Learning Containers (DLC)

AWS Deep Learning AMIs (DLAMI) と AWS Deep Learning Containers (DLC) は、データサイエンティスト、機械学習の実践者、および研究者に、深層学習フレームワークが事前にインストールされたマシンとコンテナイメージを提供し、ソフトウェア環境をゼロから構築および最適化する複雑なプロセスをスキップすることを可能にすることで、簡単に使用を開始できるようにします。Gaudi アクセラレーター向けの SynapseAI SDK は、AWS DL AMI および DLC に統合されているため、DL1 インスタンスの使用を迅速に開始することを可能にします。

Amazon Elastic Kubernetes Service (EKS) または Elastic Container Service (ECS)

コンテナオーケストレーションサービスを介して独自のコンテナ化されたワークロードを管理することをご希望のお客様は、 Amazon EKS または ECS を利用して DL1 インスタンスをデプロイできます。

その他のリソース

ドキュメント

今日お探しの情報は見つかりましたか?

ぜひご意見をお寄せください。ページのコンテンツ品質の向上のために役立てさせていただきます

Amazon EC2 DL1 インスタンス