メインコンテンツに移動

Amazon EC2

Amazon EC2 DL1 インスタンス

低コストでの深層学習モデルのトレーニング

Amazon EC2 DL1 インスタンスを使用すべき理由

Habana Labs (インテルの関連会社) の Gaudi アクセラレーターを搭載した Amazon EC2 DL1 インスタンスは、自然言語処理、オブジェクト検出、および画像認識のユースケース向けの低コストでトレーニングできる深層学習モデルを提供します。DL1 インスタンスは、現行世代の GPU ベースの EC2 インスタンスと比較して、深層学習モデルのトレーニングにおいて最大 40% 優れた料金パフォーマンスを提供します。

Amazon EC2 DL1 インスタンスは、アクセラレーターごとに 32 GiB の高帯域幅メモリ (HBM) を搭載した 8 つの Gaudi アクセラレーター、768 GiB のシステムメモリ、カスタムの第 2 世代インテル Xeon スケーラブルプロセッサ、400 Gbps のネットワークスループット、および 4 TB のローカル NVMe ストレージを特徴としています。

DL1 インスタンスには、TensorFlow や PyTorch などの主要な機械学習フレームワークと統合された Habana SynapseAI® SDK が含まれています。

AWS Deep Learning AMIs または AWS Deep Learning Containers、またはコンテナ化されたアプリケーション向けの Amazon EKS および ECS を使用して、DL1 インスタンスを簡単に開始できます。Amazon SageMaker での DL1 インスタンスのサポートの提供は間もなく開始されます。

新しい Amazon EC2 DL1 インスタンスの概要の動画

メリット

DL1 インスタンスは、最新の GPU ベースの EC2 インスタンスと比較して、深層学習モデルのトレーニングにおいて最大 40% 優れた料金パフォーマンスを実現します。これらのインスタンスは、深層学習モデルのトレーニング専用に構築された Gaudi アクセラレーターを備えています。EC2 Savings Plan を使用して、深層学習モデルのトレーニングのコストを大幅に削減することで、さらにコストを節約することもできます。

あらゆるデベロッパーは、その専門知識のレベルにかかわらず、DL1 インスタンスの使用を簡単に開始できます。AWS DL AMI と DL コンテナを使用して DL1 インスタンスの使用を開始することで、引き続き独自のワークフロー管理サービスを使用できます。上級ユーザーは、Gaudi のプログラム可能な Tensor Processing Core(TPC) を使用して、モデルのパフォーマンスを最適化するカスタムカーネルを構築することもできます。Habana SynapseAI® ツールを使用すると、GPU または CPU ベースのインスタンスで実行されている既存のモデルを最小限のコード変更で DL1 インスタンスにシームレスに移行できます。

DL1 インスタンスは、TensorFlow や PyTorch などの主要な機械学習フレームワークをサポートしているため、お好みの機械学習ワークフローを引き続きご利用いただけます。Habana の GitHub リポジトリで、オブジェクト検出用の Mask R-CNN や自然言語処理用の BERT などの最適化されたモデルにアクセスして、モデルを迅速に構築、トレーニング、およびデプロイできます。SynapseAI の豊富な Tensor Processing Core (TPC) カーネルライブラリは、幅広いモデルとパフォーマンスのニーズに対応するために、さまざまな演算子と複数のデータ型をサポートしています。

特徴

DL1 インスタンスは、Habana Labs (インテルの関連会社) の Gaudi アクセラレーターを搭載しており、8 つの完全にプログラム可能な TPC と 32 GiB の高帯域幅メモリ (アクセラレーターあたり) を備えています。トレーニング効率を最大化するための異種コンピューティングアーキテクチャと、行列計算用の設定可能な一元的なエンジンを備えています。また、アクセラレーター間の低レイテンシーでの通信のために、すべての Gaudi アクセラレーターに 10 個の 100 ギガビットイーサネットポートの業界唯一のネイティブ統合も備えています。

SynapseAI® SDK は、グラフコンパイラとランタイム、TPC カーネルライブラリ、ファームウェア、ドライバー、およびツールで構成されています。TensorFlow や PyTorch などの主要なフレームワークと統合されています。 その通信ライブラリは、現在 GPU ベースのインスタンスに使用しているのと同じオペレーションを使用して複数のアクセラレーターに迅速にスケールアップするのに役立ちます。この決定論的なスケーリングにより、さまざまなニューラルネットワークトポロジ全体で使用率が高くなり、効率が向上します。 SynapseAI® ツールを使用すると、最小限のコード変更で既存のモデルを DL1 インスタンスにシームレスに移行して実行できます。

DL1 インスタンスは、400 Gbps のネットワークスループットと、高速ネットワークへのアクセスを必要とするアプリケーション向けに Amazon Elastic Fabric Adapter (EFA) および Amazon Elastic Network Adapter (ENA) への接続を提供します。大規模なデータセットに高速にアクセスするために、DL1 インスタンスには 4 TB のローカル NVMe ストレージも含まれ、8 GB/秒の読み取りスループットを提供します。

DL1 インスタンスは AWS Nitro System 上で構築されています。これは構成要素のリッチなコレクションであり、従来の仮想化機能の多くを専用のハードウェアとソフトウェアにオフロードして、仮想化のオーバーヘッドを削減しながら、高パフォーマンス、高可用性、および強力なセキュリティを実現します。

製品の詳細

Instance Size
vCPU
Instance Memory (GiB)
Gaudi Accelerators
Network Bandwidth (Gbps)
Accelerator Peer-to-Peer Bidirectional (Gbps)
Instance Storage (GB)
EBS Bandwidth (Gbps)
On-demand (Price/Hr)
1-yr Reserved Instance Effective Hourly
3-yr Reserved Instance Effective Hourly*
dl1.24xlarge

96

768

8

400

100

4 × 1000 
NVMe SSD

19

13.11 USD

7.87 USD

5.24 USD

*表示されている料金は、米国東部 (バージニア北部) および米国西部 (オレゴン) リージョン向けです。

 

Seagate

Seagate Technology は、40 年を超える期間にわたってデータストレージおよび管理ソリューションを提供し続けているグローバルリーダーです。Seagateのデータサイエンスと機械学習のエンジニアは、高度なディープラーニング(DL)欠陥検出システムを構築し、それを会社の製造施設全体にグローバルに展開しました。 最近の概念実証プロジェクトで、Habana Gaudi は、Seagate の本番稼働環境で現在使用されている DL セマンティックセグメンテーションモデルの 1 つのトレーニングに関するパフォーマンス目標を上回りました。 

「Habana Gaudi アクセラレータを搭載した Amazon EC2 DL1 インスタンスの価格パフォーマンス上の大きなメリットは、将来的に AWS コンピューティングクラスターへの魅力的な追加となることを期待しています。Habana Labs は継続的に進化し、対象とする演算子の範囲を広げ続けているため、エンタープライズのさらなるユースケースに対応できるよう拡大し、それによって追加のコスト削減を実現できる可能性を秘めています」

オペレーション、テクノロジー、アドバンスト・アナリティクス担当シニア・エンジニアリング・ディレクター、ダレル・ラウダー-Seagate
Missing alt text value

Leidos

Leidos は、病院や医療システム、生物医学関連の組織、および健康関連の取組みを実施するすべての米国連邦政府機関に、カスタマイズ可能でスケーラブルな幅広いソリューションを提供する医療 IT プロバイダーの上位 10 位までに入る企業として認識されています。 

「今日、私たちが医療を発展させるために可能にしている数多くのテクノロジーの1つは、医療画像データに基づく疾患診断のための機械学習とディープラーニングの使用です。当社の膨大なデータセットは、最高レベルの緊急性を持つ医療上の不明点を解決しようとしている研究者を支援するために、タイムリーで効率的なトレーニングを必要とします。Leidos とその顧客が深層学習モデルの迅速かつ簡単で費用対効果の高いトレーニングを必要としていることを考えると、Habana Gaudi AI プロセッサに基づく Amazon EC2 DL1 インスタンスを使用するためにインテルと AWS でこの取組みを開始したことは極めて有意義なことであると言えます。DL1 インスタンスを使用することで、モデルトレーニングの速度と効率が向上し、それに伴って研究開発のリスクとコストが削減されると予想されます。」

レイドス州保健福祉サービス担当最高技術責任者、チェタン・ポール
Missing alt text value

Intel

インテルは、アスリートが動いている動画をリアルタイムで分析してパフォーマンストレーニングプロセスに役立つ参考情報を提供し、競技中の視聴者体験を向上させる 3D Athlete Tracking テクノロジーを開発しました。

「Habana Labs の Gaudi アクセラレータを搭載した Amazon EC2 DL1 インスタンスでモデルをトレーニングすることで、トレーニングコストを削減しながら、何千もの動画を正確かつ確実に処理し、関連するパフォーマンスデータを生成できるようになります。DL1 インスタンスにより、さまざまなスポーツのあらゆるレベルのアスリート、チーム、放送局に生産的なサービスを提供するのに必要なスピードとコストでトレーニングできるようになりました。」

リック・エチェヴァリア、セールス&マーケティング・グループ担当副社長-インテル
Missing alt text value

リスク燃料

RiskFuelは、金融ポートフォリオを管理する企業にリアルタイムの評価とリスク感度を提供し、取引の正確性とパフォーマンスを向上させるのに役立ちます。

「ハバナガウディの AI アクセラレータをベースにした Amazon EC2 DL1 インスタンスにたどり着いたのは 2 つの要因です。第一に、当社では、銀行および保険分野のお客様が最新のハードウェアを利用する Riskfuel モデルを実行できるようにしたいと考えています。幸いなことに、モデルを DL1 インスタンスに移行するのはシンプルかつ容易であることがわかりました。実際、数行のコードを変更するだけでした。第二に、トレーニングコストは支出の大きな部分を占めており、価格パフォーマンスが最大 40% 向上するという見込みは、収益に大きな利益をもたらす可能性があります。」

Riskfuel 最高経営責任者ライアン・ファーガソン
Missing alt text value

Fractal


Fractal は、AI と分析のグローバルリーダーであり、フォーチュン 500 企業の意思決定を支えています。
 

「AIとディープラーニングは当社のマシンビジョン機能の中核であり、当社がサービスを提供する業界全体でお客様がより良い意思決定を行えるようにしています。精度を向上させるために、データセットはより大きく、より複雑になってきており、これに伴って、より大きく、より複雑なモデルが必要となります。これにより、コンピューティング料金のパフォーマンスを改善する必要性が高まっています。新しい Amazon EC2 DL1 インスタンスは、GPU ベースの EC2 インスタンスよりも大幅に低コストのトレーニングを約束します。これにより、クラウド上での AI モデルのトレーニングのコスト競争力が高まり、幅広いクライアントが以前よりも利用しやすくなると期待しています。」

スリカンス・ヴェラマカンニ、グループCEO-フラクタル
Missing alt text value

開始方法

AWS Deep Learning AMIs (DLAMI) および AWS Deep Learning Containers (DLC)

AWS Deep Learning AMIs (DLAMI) と AWS Deep Learning Containers (DLC) は、データサイエンティスト、機械学習の実践者、および研究者に、深層学習フレームワークが事前にインストールされたマシンとコンテナイメージを提供し、ソフトウェア環境をゼロから構築および最適化する複雑なプロセスをスキップすることを可能にすることで、簡単に使用を開始できるようにします。Gaudi アクセラレーター向けの SynapseAI SDK は、AWS DL AMI および DLC に統合されているため、DL1 インスタンスの使用を迅速に開始することを可能にします。

Amazon Elastic Kubernetes Service (EKS) または Elastic Container Service (ECS)

コンテナオーケストレーションサービスを介して独自のコンテナ化されたワークロードを管理することをご希望のお客様は、 Amazon EKS または ECS を利用して DL1 インスタンスをデプロイできます。

今日お探しの情報は見つかりましたか?

ぜひご意見をお寄せください。ページのコンテンツ品質の向上のために役立てさせていただきます