投稿日: Dec 4, 2023
Amazon SageMaker Canvas は、Amazon SageMaker Data Wrangler による包括的なデータ準備機能のサポートを開始しました。50 を超えるデータソースから表形式、時系列、画像、テキストのデータをインポートし、データ品質レポートとインサイトのレポートを生成し、300 を超える組み込み演算子を使用してデータを変換し、機械学習 (ML) モデルを構築して使用できるようになりました。これらを行うのにコードを書く必要はありません。この統合により、SageMaker Canvas を使用して機械学習のデータ準備にかかる時間を、数週間から数分に短縮できます。
大量のデータの集約、分析、変換は重要ですが、多くの場合、機械学習ワークフローの中で最も時間のかかる部分です。この機能追加により、データ品質とインサイトのレポートを使用してデータをすばやく分析および可視化し、モデルの品質に影響を与える可能性のあるデータの問題を特定し、Spark による 300 を超える変換を使用してデータをクリーンアップし、機械学習用の特徴量を作成できるようになりました。また、SageMaker Canvas で視覚的なデータ準備フローを作成し、Amazon S3、Amazon Athena、Amazon Redshift、Salesforce Data Cloud、Snowflake、その他の 50 を超えるデータソースからデータをインポートできるようになりました。データが準備できたら、データ準備ステップを分散 Spark 処理ジョブで実行するようにスケールしたり、データセットをエクスポートしてモデルをトレーニングしたり、すぐに使える機械学習や基盤モデルで結果を予測したりすることができます。また、データワークフローを SageMaker パイプラインのステップとしてエクスポートして、特徴量エンジニアリングやモデルトレーニングを実行したり、ほぼリアルタイムでデータを変換して SageMaker Studio で推論したりすることもできます。
この新しいデータ準備機能は、SageMaker Canvas がサポートされているすべての AWS リージョンでご利用いただけます。詳細については、ブログと AWS のテクニカルドキュメントをご覧ください。