投稿日: Jun 9, 2022
本日、Amazon SageMaker Data Wrangler でデータをトレーニングスプリットとテストスプリットに分割する機能の一般提供の開始を発表します。Amazon SageMaker Data Wrangler は、機械学習 (ML) 用のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と特徴量エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。SageMaker Data Wrangler のデータ選択ツールを使用すると、Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation、Snowflake、および Databricks Delta Lake などの複数のデータソースからデータをすばやく選択できます。
本日より、Data Wrangler で数回クリックするだけで、データをトレーニングセットとテストセットに分割できるようになりました。これまで、データサイエンティストは、機械学習モデルをトレーニングする前に、データをトレーニングセットとテストセットに分割するためのコードを記述する必要がありました。今後は、SageMaker Data Wrangler の新しいトレーニング-テストスプリット変換を使用することで、データをトレーニング、テスト、および検証セットに分割し、ダウンストリームモデルのトレーニングと検証で使用できます。SageMaker Data Wrangler は、ランダム化、順序付け、階層化、キーベースの分割などのさまざまなタイプのスプリットと、各スプリットに含めるデータの量を指定するオプションも提供します。例えば、データをトレーニングセットとテストセットにランダムに分割する場合、トレーニングセットで機械学習モデルをトレーニングしてから、テストセットで機械学習モデルを評価できます。トレーニング中に見られるデータでモデルを評価することにはバイアスがかかる可能性があるため、トレーニングの前にテストデータを確保しておくことは非常に重要です。その結果、テストセットデータでモデルの精度を評価することで、モデルのパフォーマンスの現実世界での推定を得ることができます。
Amazon SageMaker Data Wrangler の新機能の使用を開始するには、最新リリースにアップグレードしてから、メニューから [File] (ファイル) > [New] (新規) > [Flow] (フロー) とクリックするか、SageMaker Studio ランチャーから [new data flow] (新しいデータフロー) をクリックします。新機能の詳細については、ブログを読み、ドキュメントを参照してください。