投稿日: Apr 24, 2023
AWS Glue クローラーは Amazon S3 からデータスキーマとパーティションを抽出し、AWS Glue データカタログに入力して、メタデータを最新の状態に保ちます。本日、AWS Glue クローラーのサポートが拡張され、新たにテーブルを検出すると、パーティションインデックスを自動的に追加できるようになりました。これにより、Amazon Athena や AWS Glue といった分析サービスがパーティション処理を最適化し、高度に分割されたテーブルでのクエリパフォーマンスが向上します。
特定のテーブル内におけるパーティションの数は、時間の経過とともに大幅に増加する場合があります。テーブルが何百万ものパーティションを含む場合、Amazon Athena のような分析サービスがクエリすると、パーティションの取得だけでも時間がかかります。その結果、クエリの実行時間が長くなります。今回のリリースにより、AWS Glue クローラーが新しい AWS Glue データカタログのテーブルを作成すると、パーティションインデックスがデフォルトで作成されます。手動で作成する必要はありません。AWS Glue データカタログは、パーティションインデックスキーに基づいて高速かつ検索可能なインデックスを作成します。これにより、数百万のパーティションを持つテーブルでも、パーティションメタデータの取得とフィルタリングにかかる時間が短縮されます。パーティションインデックスを作成すると、Amazon Athena、Amazon EMR、Amazon Redshift Spectrum、AWS Glue で実行される分析ワークロードに役立ちます。
AWS Glue クローラーのパーティションインデックス作成のサポートは、AWS Glue が利用可能な商用リージョンすべてで一般提供されています。詳細については、AWS Glue クローラーのドキュメントを参照してください。