投稿日: Feb 2, 2022
Amazon SageMaker Data Wrangler は、機械学習 (ML) 用のデータを集約して準備するのにかかる時間を数週間から数分に短縮します。SageMaker Data Wrangler を使用すると、データ準備と特徴エンジニアリングのプロセスを簡素化し、データ選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアルインターフェイスから実行できます。SageMaker Data Wrangler のデータ選択ツールを使用すると、Amazon S3、Amazon Athena、Amazon Redshift、AWS Lake Formation、Amazon SageMaker Feature Store、および Snowflake などの複数のデータソースからデータをすばやく選択できます。
本日当社は Data Wrangler の JSON、JSONL、および ORC ファイルのサポートの汎用性を発表します。Data Wrangler を使用してこれらのファイル形式でデータをブラウズ、プレビューおよびインポートできるようになりました。ORC ファイル形式はハイブデータを保存するための非常に効率的な方法を提供しますが、テキストエディタを使用してこのデータをプレビューすることは困難である場合があります。Data Wrangler の ORC ファイル形式用のサポートにより、csv ファイルで行うように ORC でデータを簡単にブラウズできます。Data Wrangler による ORC ファイルのインポートおよび JSON データの準備に関する詳細は ブログ をお読みください。
そのほか、当社は以下を含む複数の新規変換の汎用性を発表します:データセット内のクラス不均衡を処理するための変換、アレイおよび JSON 形式の文字列により列を処理するための変換、および高濃度を持つカテゴリーデータを効率的にコード化するための変換をコード化する類似性。これらの変換が多くの時系列データを処理する変換を含む Data Wrangler の300を超える変換のコレクションに加わります。これらの新規変換の詳細な説明を以下に記載しています。
- データの均衡。 データセットは片方のターゲットクラスの好みにより頻繁に不均衡になる場合があります。新規バランス変換はお客様の要件によりまばらなマイナークラスをオーバーサンプリングするのに役立ちます。そのほか、Data Wrangler で現在一般的に利用可能な 合成マイナーオーバーサンプリングテクニック (SMOTE) を使用してマイナークラスの新規サンプルを生成できます。SMOTE はデータセットの類似する行のグループからマイナークラスの新規観察を自動的に生成します。Data Wrangler で不均衡なデータセットを処理する方法については、 ブログをお読みください。
- 構造化された列を処理する。 アレイを含む列については、新規の 破裂アレイ 変換がアレイの各値ごとに新規の行を生成します。JSON 形式の文字列については、新規の 平坦構造の列 変換がJSON 形式の文字列での各主要値ペアごとに新規の列を生成します。Data Wrangler による構造化された列の処理の詳細については、ブログをお読みください。
- 分類別の値をコード化する。 新規の 類似性コード化変換を使用して、高濃度の分類別の値を効率的にコード化できます。多くのデータサイエンティストは頻繁に各分類値を別々の列に変換する分類別の値にワンホットコード化を応用します。ワンホットコード化の処理は米国の州が入っている単一の列を50の新規バイナリー値(各州につき1つ)に変換することができます。類似性コード化が Data Wrangler で使用できるようになり、モデルパフォーマンスを保持または増加させながら分類値をさらに小さな数の列にコード化できます。
最後に、当社はデータ処理ジョブを始動するためのワンクリック「ジョブ作成」エクスペリエンスの汎用性を発表します。本日より、Data Wrangler フローで指定される手順を使用してデータ処理ジョブを起動することができる「ジョブ作成」ボタンをクリックできます。依然 Data Wrangler のデータ処理ノートブックを使用してデータ処理ジョブを始動し、 Data Wrangler をお使いの MLOps パイプラインに統合することができます。Data Wrangler でデータ処理ジョブを始動する方法については、 ブログをお読みください。
Amazon SageMaker Data Wrangler の新機能の使用を開始するには、最新のリリースにアップグレードしてから、Amazon SageMaker Studio を開き、メニューから [File] (ファイル) > [New] (新規) > [Flow] (フロー) とクリックするか、SageMaker Studio ランチャーから [new data flow] (新規データフロー) をクリックします。新機能の詳細については、ドキュメントをご覧ください。