Amazon Web Services ブログ

AWS Glue で異常検出を使用してデータ品質を向上させる (プレビュー)

機械学習を使用して統計的な異常や、異常なパターンを検出することにより、データ品質を向上させるのに役立つ新しい AWS Glue Data Quality 機能のプレビューを開始します。コードを書かなくても、データ品質の問題に関する深いインサイト、データ品質スコア、および異常を継続的に監視するために使用できるルールに関する推奨事項が得られます。

データ品質の重要性
AWS のお客様は、データを抽出して変換するためのデータ統合パイプラインをすでに構築しています。データ品質ルールを設定して、生成されるデータが高品質で、ビジネス上の意思決定を正確に行えるようにします。多くの場合、これらのルールは、ビジネスの現状を反映して、特定の時点で選択され固定された基準に基づいてデータを評価します。しかし、ビジネス環境が変化し、データの特性が変化すると、ルールが常に見直され、更新されるとは限りません。

たとえば、初期段階のビジネスで 1 日の売上高が 1 万ドル以上であることを確認するルールを設定できます。ビジネスが成功し成長するにつれて、ルールは時々チェックして更新する必要がありますが、実際にはそうなることはほとんどありません。その結果、売上が予想外に減少した場合、時代遅れのルールは有効にならず、誰も満足しません。

実行中の異常検出
異常なパターンを検出し、データに関するより深いインサイトを得るために、組織は独自の適応型システムを作成しようとしたり、あるいは特定の技術スキルと専門的なビジネス知識を必要とする高価な商用ソリューションに頼ろうとします。

この広範囲に及ぶ課題に対処するため、Glue Data Quality では現在、機械学習 (ML) を利用しています。

Glue Data Quality に新しく追加されたこの便利な機能は、一度起動すると、新しいデータが届くたびに統計を収集し、機械学習と動的しきい値を使用して過去のパターンから学習し、外れ値や異常なデータパターンを調べます。このプロセスでは観測結果が得られ、傾向も視覚化されるため、異常をすばやく理解できます。

また、オブザベーションの一部として推奨ルールも表示され、それらをデータパイプラインに簡単かつ段階的に追加できます。ルールは、データパイプラインの停止などのアクションを強制できます。以前は、静的ルールしか記述できませんでした。これで、しきい値を自動調整する動的ルールと、繰り返し発生するパターンを把握して偏差を特定する異常検出ルールを作成できます。ルールをデータパイプラインの一部として使用すると、データフローが停止して、データエンジニアが確認、修正、再開できるようになります。

異常検出を使用するには、ジョブにデータ品質評価ノードを追加します。

ノードを選択し、[アナライザーの追加] をクリックして統計と列を選択します。

Glue Data Quality は、データから学習してパターンを認識し、観測値を生成して [データ品質] タブに表示します。

そしてビジュアライゼーション:

観察結果を確認した後、新しいルールを追加します。1 つ目は、行数が過去 10 回の実行の最小値と、過去 20 回の実行の最大値の間にあることを確認する適応しきい値を設定します。もう 1 つは、週末に rowCount が異常に多いなど、異常なパターンを探すものです。

プレビューに参加しましょう
この新しい機能は現在、以下の AWS リージョンでプレビューでご利用いただけます。米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (東京)、欧州 (アイルランド) 。詳細については、データ品質異常検出]] をご覧ください。

この機能がリリースされたら、詳細なブログ投稿をお楽しみに!

詳細はこちら

データ品質異常検出

Jeff;

原文はこちらです。