投稿日: Jun 30, 2021

データを準備する際、AWS Glue DataBrew は列のアドバンストデータタイプを自動的に特定し、マークすることで、Social Security Number (SSN)、メールアドレス、電話番号、性別、クレジットカード、URL、IP アドレス、データと時間、通貨、郵便番号、国、リージョン、州/都道府県、市区町村など、含まれるデータのタイプを簡単に正規化できるようになります。さらに、DataBrew は個人識別情報 (PII) を含む列を視覚的にマークするため、データセット上で PII 列をすべて簡単にスキャンし、トランスフォーメーションを適用できるようになります。すべてのサポートされているアドバンストデータタイプについてご覧ください。

アドバンストデータタイプを持つ列を割り当てるには、列をクリックするだけで、DataBrew が自動的にデータタイプを特定し、データの有効性統計を生成します。そして列のデータを正規化するためのレコメンデーションを提示します。一度特定されたら、DataBrew の 250 種を超えるビルトイントランスフォーメーションを使用できるようになります。ビルトイントランスフォーメーションにより無効な値の削除、欠けている値の置き換え、カスタム値の抽出など、コードの記述は一切なしで、データを簡単に準備できます。 

AWS マネジメントコンソールにアクセスするか、ノートブック環境に DataBrew プラグインをインストールして使用を開始してください。