投稿日: Jun 16, 2022
本日より、Amazon SageMaker Data Wrangler でコードスニペットのサポートが開始され、PySpark と Altair を使ってデータの準備と可視化をより速く簡単に行えるようになりました。Amazon SageMaker Data Wrangler は、機械学習 (ML) 用のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と特徴量エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。SageMaker Data Wrangler のデータ選択ツールを使用すると、Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon SageMaker Feature Store、Databricks、Snowflake などの複数のデータソースからデータをすばやく選択できます。
本日から、Amazon SageMaker Data Wrangler で PySpark と Altair のコードスニペットをデータの準備と可視化に使用できます。PySpark は、Apache Spark を Python で使用するためのインターフェイスです。Altair は Python 用の宣言型統計データ可視化ライブラリで、Vega と Vega-Lite をベースにしています。これまで、Data Wrangler を利用するデータサイエンティストは、PySpark や Altair でコードを記述してデータの準備や可視化を行う場合、エディタが空白の状態から始めるか、インターネットでコードスニペットを探していました。今後、SageMaker Data Wrangler で PySpark を使ってカスタム変換を作成するデータサイエンティストは、行の削除、列の一括リネーム、キャスティング、再編成、テキスト列に特定の文字列を含む値のフィルタリングといったデータ処理のニーズに応じて、30 種類を超える PySpark のコードスニペットを検索できます。さらに、SageMaker Data Wrangler で可視化を行うために Altair コードを記述するデータサイエンティストは、SageMaker Data Wrangler 内の Altair コードスニペットから検索してヒートマップ、ビン散布図、塗りつぶしステップグラフを作成できます。
Amazon SageMaker Data Wrangler の新機能の使用を開始するには、最新のリリースにアップグレードしてから、Amazon SageMaker Studio を開き、メニューから [File] > [New] > [Flow] とクリックするか、SageMaker Studio ランチャーから [new data flow] をクリックします。新機能の詳細については、ブログを読み、ドキュメントを参照してください。