Amazon Web Services ブログ

Category: Analytics

AWS Glue Data Catalog での Apache Iceberg マテリアライズドビューのご紹介

AWS は AWS Glue Data Catalog の Apache Iceberg テーブル向けの新しいマテリアライズドビュー機能を発表しました。この機能により、データパイプラインを簡素化し、事前計算結果を保存してクエリパフォーマンスを向上させることができます。Amazon Athena、Amazon EMR、AWS Glue の Spark エンジンがこの新機能をサポートしています。

Amazon Redshift で Apache Iceberg データをクエリするためのベストプラクティス

Amazon Redshift で Apache Iceberg データをクエリする際のベストプラクティスを紹介します。テーブル設計、パーティション化、列選択、統計生成、メンテナンス戦略、マテリアライズドビュー、レイトバインディングビューの活用方法について詳しく説明します。

Amazon Bedrock で TwelveLabs Marengo を使用した動画理解の実現

TwelveLabs Marengo 埋め込みモデルが Amazon Bedrock で利用可能になりました。このモデルはマルチベクトルアーキテクチャにより、動画の視覚、音声、テキスト要素を個別に捉え、従来の単一ベクトルアプローチでは失われていたニュアンスを保持します。Amazon OpenSearch Serverless と組み合わせることで、テキスト、画像、音声を使用したクロスモーダルセマンティック検索が可能になり、インテリジェントな動画コンテンツ発見を実現します。

TROCCO の CDC 機能をつかった RDB と Apache Iceberg on AWS の連携

データベースの変更をリアルタイムに分析基盤へ反映したいというニーズに高まりを感じています。実際に多くのお客様から相談をいただいております。またデータベースの差分をもとに連携することが望まれる場面も多くあります。そういう場合の選択肢の一つが CDC(Change Data Capture)と呼ばれる MySQL の binlogなどの変更履歴をもとにデータを連携する手法になります。しかし、CDC での実装は、データ取得・キャッシュレイヤー・コンシューマーの実装とコンポーネントが多くなる場合も多く技術的なハードルが高く、ソースデータベースのスキーマの変更をターゲットの分析基盤に滞りなく連携する必要があるなど運用負荷も大きいワークロードになります。

CDC のターゲットの選択肢の1つとして、Iceberg を利用することで多様なエンジンから利用することができ、ソーススキーマの変更にも柔軟に対応ができるコスト効率の良い、DB のデータをソースにしたデータレイクハウスを構築することができます。

本記事では、AWS パートナーである primeNumber 社が提供するデータ統合プラットフォーム「TROCCO」の CDC 機能を使って、MySQL から AWS 上の Apache Iceberg テーブルへのリアルタイムレプリケーションを実現する方法をご紹介します。実際に検証した内容をもとに、セットアップから運用まで詳しく解説していきます。

AWS Glue zero-ETLによるSAPデータの取り込みとレプリケーション

AWS Glue zero-ETLは、SAP BW、ABAP、CDSビューなどのODP対応・非対応データソースからのデータ取り込みとレプリケーションを実現するサービスです。抽出されたデータはAmazon Redshift、Amazon SageMaker lakehouseアーキテクチャ、Amazon S3 Tablesに書き込まれ、Amazon QやAmazon Quick Suiteと組み合わせることで、自然言語クエリによるSAPデータ分析、AIエージェントの自動化、企業データ全体にわたるコンテキストインサイトの生成が可能になります。

AWS Glue Data Catalog での Apache Iceberg テーブルのカタログフェデレーションの紹介

Apache Iceberg は、大規模で堅牢かつ信頼性の高い分析を求める組織にとって、オープンテーブルフォーマットの標準的な選択肢となっています。しかし、企業は異なるカタログシステムを持つ複雑なマルチベンダー環境をますます多く扱うようになっています。マルチベンダー環境で運用する組織にとって、これらのシステム間でデータを管理することは大きな課題となっています。この断片化は、特にアクセス制御とガバナンスに関して、運用上の複雑さを大幅に増加させます。Amazon Redshift、Amazon EMR、Amazon Athena、Amazon SageMaker、AWS Glue などの AWS 分析サービスを使用して AWS Glue Data Catalog 内の Iceberg テーブルを分析しているお客様は、リモートカタログのワークロードでも同じ価格性能を得たいと考えています。これらのリモートカタログを単純に移行または置き換えることは現実的ではなく、チームはシステム間でメタデータを継続的に複製する同期プロセスを実装・維持する必要があり、運用上のオーバーヘッド、コストの増加、データの不整合のリスクが生じます。

Amazon OpenSearch Service ベクトルデータベースを自動最適化する

AWS は Amazon OpenSearch Service ベクトルエンジンの自動最適化機能の一般提供を発表しました。この機能により、専門知識やインフラストラクチャ管理なしに、1 時間以内でベクトルデータベースを最適化できます。検索品質、速度、コストのトレードオフを自動評価し、最適なインデックス構成を推奨します。