AWS Batch が SageMaker トレーニングジョブのクォータ管理とプリエンプションをサポート
AWS Batch は、SageMaker トレーニングジョブのジョブプリエンプションによるクォータ管理をサポートするようになりました。これにより、チームやプロジェクト全体でコンピューティングリソースを効率的に割り当てて共有できます。SageMaker トレーニングジョブで GPU キャパシティを使用している場合、計算リソースをインテリジェントに割り当てたり、ビジネスクリティカルなトレーニングジョブの優先度を上げたり、緊急の実験が行われるときに優先度の低いワークロードを自動的にプリエンプトしたりできるようになりました。
クォータ管理では、専用の容量制限と設定可能なリソース共有戦略を備えた仮想キューとして機能するジョブキューごとに最大 20 のクォータ共有を作成できます。このサービスは、元の所有者がジョブを送信したときに、自動的にクロス共有プリエンプションを使用して借用キャパシティを回復します。また、優先度の高いジョブが同じクォータ共有内の優先度の低いジョブをプリエンプトできるようにする共有内プリエンプションもサポートしています。キューでのキャパシティ使用率、クォータ共有、ジョブレベルの細分性を監視したり、送信後にジョブの優先順位を更新してプリエンプションの決定に影響を与えたり、プリエンプション再試行制限を設定して動作を制御したりできます。この機能は aws_batch モジュールを介して SageMaker Python SDK と直接統合されます。
SageMaker トレーニングジョブのジョブプリエンプションによるクォータ管理は、AWS Batch が利用可能なすべての AWS リージョンで本日よりご利用いただけます。詳細については、GitHub のクォータ管理サンプルノートブックと AWS Batch ユーザーガイドを参照してください。