投稿日: Jul 25, 2023

Amazon SageMaker Canvas では 5 つの新しいデータ変換がサポートされるようになり、機械学習 (ML) モデルを構築する前のデータの準備と分析をより効果的に行うことができるようになりました。データは機械学習の基盤であり、生データを ML モデル構築に適したものに変換して予測を生成することが、より良い洞察を得るための鍵となります。本日より、SageMaker Canvas では、列のデータ型を numeric、text、datetime の間で変更できるようになったほか、そのデータ型に関連付けられている特徴量 (binary や categorical など) も表示できるようになりました。これにより、特徴量に基づいて列のデータ型を手動で変更する柔軟性が得られます。適切なデータ型を選択できるため、ML モデルを構築する前にデータの整合性と正確性を確保できます。たとえば、データ型 datetime を使用することで、特定の列に有効な日付のみが格納されるようにします。 

さらに、Canvas では時系列データをリサンプリングして、時系列データセットでの観測値の間隔を一定に保つことができます。これは、時系列データに不規則な間隔の観測値が含まれている場合に特に役立ちます。このデータをリサンプリングすると、一定の時間間隔の間にデータを等間隔に配置でき、分析や予測などの下流業務に役立ちます。最後に、Canvas ではデータ内の行をより優れた方法で管理できるようになりました。昇順または降順でソートしたり、行をランダムにシャッフルしたり、重複する行を削除したりできます。

これらの新しいデータ変換機能は、現在 Canvas がサポートされているすべての AWS リージョンで利用できます。詳細については、製品ドキュメントを参照してください。