投稿日: Jul 8, 2022

Amazon SageMaker のモデルトレーニングで、異種クラスターがサポートされるようになりました。これにより、単一のジョブに複数のインスタンスタイプを使用するトレーニングジョブを開始できるようになります。この新機能によって、モデルトレーニングを構成するさまざまな部分をそれぞれに最適なインスタンスタイプで実行できるため、トレーニングコストを削減できます。例えば、AWS では最近、ResNet-50 コンピュータビジョンモデルのトレーニングを ml.g5.xl インスタンスと ml.c5n.2xl インスタンスによる異種クラスターで実施しました。このトレーニングジョブでは、同じモデルで同じ精度のトレーニングを ml.g5.xl インスタンスのみのクラスターで実施した場合と比較して、コストが 13% 低くなりました。

機械学習のワークロードの中には、タスクの種類に応じて異なるインスタンスタイプを使用することで本領を発揮するようなタスクを組み合わせるものもあります。例えば、コンピュータビジョンモデルのトレーニングでは、ニューラルネットワークモデルのトレーニングという GPU に負荷のかかるタスクと、データ処理およびデータ拡張という CPU に負荷のかかるタスクを組み合わせることがよくあります。この両方のタスクを 1 つのインスタンスタイプで実行すると、GPU の使用率が少なくなり、結果としてリソースを無駄にしてしまうおそれがあります。

異種クラスター機能により、SageMaker のトレーニングジョブを複数のインスタンスタイプで実行できるようになります。つまり、GPU に負荷のかかるタスクは ml.p4d.24xl などのインスタンスタイプで実行し、CPU に負荷のかかるタスクは ml.c5n.18xl などのインスタンスタイプで実行することができます。このような柔軟性により、GPU の使用率を向上させ、全体的なコスト効率を改善することができます。異種クラスターは、追加料金なしでご利用いただけます。

詳細については、異種クラスターに関するドキュメントを参照してください。使用を開始するには、Amazon SageMaker コンソールにログインしてください。