投稿日: May 1, 2019
Amazon EKS 深層学習ベンチマークユーティリティは Kubernetes クラスターで機械学習のベンチマークを行う新しい自動化ツールです。このツールは Amazon Elastic Container Service for Kubernetes (EKS) チームによって、オープンソースとして構築されました。
Kubernetes は、トレーニングや推論の機械学習モデルをすばやくスケールできるオープンソースソフトウェアです。作成したモデルは、AWS のデータソースと連携動作が可能です。Kubernetes 上で機械学習ジョブを実行するための変数やインフラストラクチャについて幅広い選択肢が用意されており、ベンチマークの実行を必要とするワークロード向けに適切な構成を選択できます。以前は、Kubernetes で機械学習のパフォーマンスについてベンチマークを実行するために、パフォーマンスの最適化項目ごとに複数の手順を手動で実行する必要がありました。また、費用対効果が高くパフォーマンスの高い機械学習ジョブをセットアップするためにかなりの時間と労力を費やしていました。
Amazon EKS 深層学習ベンチマークユーティリティは、AWS で深層学習トレーニングおよび他の機械学習ワークロードを実行している Kubernetes クラスターのパフォーマンスベンチマークの計測を簡素化します。このユーティリティは、クラスターの作成からティアダウンまで、自動化されたエンドツーエンドのベンチマークワークフローを提供します。高度にカスタマイズ可能なクラスター構成、異なるバックエンドストレージシステム、Tensorflow、Horovod、OpenMPI、PyTorch、MxNet などの複数のフレームワークをサポートします。
詳細については GitHub のプロジェクトページにアクセスしてください。
Amazon EKS を使って分散型深層学習のパフォーマンスを最適化する方法についてのブログ記事もご覧ください。