投稿日: Oct 7, 2021
Amazon SageMakerは、トレーニングジョブのデータアクセスのために高速ファイルモードをサポートしています。これで、既存のファイルモードからコードを変更せずにAmazon S3 で直接ストリーミングすることで、ハイパフォーマンスなデータアクセスが可能になります。例えば、100GB のデータセットで K-Means クラスタリングモデルのトレーニングは、ファイルモードで 28 分かかったのに対し、高速ファイルモードでは 5 分ほどでした (82% 減)。
機械学習モデルトレーニングは、たいていの場合大量のデータが必要です。そのデータに効率よくアクセスすることでモデルトレーニングのパフォーマンスが向上します。これまで SageMaker では、Amazon S3 から直接データを読み込むのに 2 つのモードを提供していました。ファイルモードとパイプモードです。ファイルモードで、暗号化されたAmazon EBSボリュームで、トレーニングインスタンスに接続したトレーニングデータをダウンロードします。このダウンロードは、モデルトレーニングをスタートする前に、終わらせる必要があります。パイプモードは、トレーニングアルゴリズムにデータを直接ストリーミングするのでパフォーマンスが向上しますが、コード変更が必要です。
高速ファイルモードは、既存のファイルモードの使いやすさと、パイプモードのパフォーマンスを組み合わせています。これで、ローカルにダウンロードしたかのようにデータにアクセスできる使いやすさと、Amazon S3 から直接データをストリーミングすることでパフォーマンスの向上を提供します。その結果、トレーニングインスタンスにダウンロードされるのをデータセットが待たずに、トレーニングをスタートできます。高速ファイルモードは、追加料金なしでご利用できます。
詳細についてはSageMaker のトレーニングデータへアクセスに関するドキュメントをご参照ください。使用を開始するには、Amazon SageMaker コンソールにログインします。