表形式のデータを大規模に S3 に保存
Amazon S3 Tables は、Apache Iceberg サポートが組み込まれた初めてのクラウドオブジェクトストアを提供し、表形式データの大規模な保存を効率的に行えるようにします。継続的なテーブル最適化により、最適なクエリパフォーマンスを実現するために、テーブルデータがバックグラウンドで自動的にスキャンされ、書き換えられます。このパフォーマンスは、時間の経過とともに改善され続けます。S3 Tables には Iceberg ワークロード固有の最適化が含まれており、汎用 S3 バケットに保存されている Iceberg テーブルと比較して、1 秒あたり最大 10 倍のトランザクションを配信できます。 さらに、Intelligent-Tiering ストレージクラスを使用すると、S3 Tables はアクセスパターンに基づいてコストを自動的に最適化するため、パフォーマンスへの影響や運用上のオーバーヘッドは発生しません。
S3 Tables は Apache Iceberg 標準をサポートしているため、AWS やサードパーティーの人気のクエリエンジンを使用して表形式のデータを簡単にクエリできます。S3 Tables を使用して、毎日の購入取引、ストリーミングセンサーデータ、広告インプレッションなどの表形式のデータを S3 の Iceberg テーブルとして保存し、自動テーブルメンテナンスを使用してデータの変化に応じてパフォーマンスとコストを最適化します。詳細については、ブログ記事をお読みください。
利点
インフラストラクチャやメンテナンスのオーバーヘッドを気にすることなく、数千の Iceberg テーブルを管理することで、最初のテーブルからエンタープライズ規模まで、データレイクを簡単に拡張できます。
高度なソートや Z オーダー圧縮などの継続的なテーブル最適化を通じて、管理されていない Iceberg テーブルと比較してクエリパフォーマンスがより高速化され、汎用 S3 バケットに保存された Iceberg テーブルと比較して、1 秒あたりのトランザクション数が最大 10 倍になります。S3 Tables レプリケーションを使用して、地理的に分散したチームのためにクエリレイテンシーを低減します。
圧縮、スナップショット管理、参照されていないファイルの削除などのテーブルメンテナンスタスクを自動化することで、パフォーマンスを継続的に最適化し、コストを削減します。Intelligent-Tiering ストレージクラスを使用すると、頻繁にクエリされるデータのコストをさらに最適化できます。CloudWatch のきめ細かなメトリクスと、ストレージ、リクエスト、メンテナンスオペレーションについての CloudTrail ログにより、運用の可視性を完全に確保できます。
Amazon SageMaker レイクハウスアーキテクチャとの S3 Tables 統合により、Amazon Athena、Redshift、EMR などの使い慣れた AWS サービスを利用して、Iceberg の高度な分析機能にアクセスし、データをクエリできます。さらに、Apache Spark、Apache Flink、Trino、DuckDB、PyIceberg などの Iceberg REST 互換のサードパーティーアプリケーションを使用して、S3 Tables にデータを読み書きすることもできます。
テーブルレベルのアクセスコントロールを実現するために、IAM リソースポリシーを使用して、ファーストクラスの AWS リソースとしてテーブルを管理できます。属性ベースのアクセス制御 (ABAC) にタグを使用することで、大規模な許可管理を効率化できます。カスタマーマネージドキーを使用した AWS KMS 暗号化によりデータを保護することで、暗号化戦略に対するコントロールを維持できます。
仕組み
S3 Tables は、構造化データを Apache Iceberg 形式で保存するための専用の S3 ストレージを提供します。テーブルバケット内では、テーブルをファーストクラスのリソースとして直接 S3 に作成できます。これらのテーブルは、ID ベースまたはリソースベースのポリシーで定義されたテーブルレベルの許可で保護でき、Apache Iceberg 標準をサポートするアプリケーションまたはツールによってアクセスできます。テーブルバケットにテーブルを作成すると、S3 はアプリケーションによるそのデータのクエリを可能にするために必要なメタデータを維持します。テーブルバケットには、Iceberg 互換のクエリエンジンが、テーブルバケット内のテーブルの Iceberg メタデータを検出、アクセス、更新するために使用できる Iceberg REST Catalog エンドポイントが含まれています。これにより、複数のクライアントがテーブルにデータを安全に読み書きできます。時間が経過する中で、S3 は、オブジェクトを書き換える (あるいは「圧縮」する) ことによって、基盤となるデータを自動的に最適化します。圧縮により、S3 上のデータが最適化され、クエリのパフォーマンスが改善することができます。さらに、スナップショットの有効期限と、参照されていないファイルの削除により、テーブル内のデータが古くなるのに伴ってストレージコストが最適化されます。詳細については、ユーザーガイドをお読みください。
お客様
Genesys
Genesys は、AI を活用したエクスペリエンスオーケストレーションのグローバルクラウドリーダーです。Genesys は、高度な AI、デジタル、ワークフォースエンゲージメント管理機能を通じて、100 を超える国々の 8,000 を超える組織が、ビジネスの俊敏性と成果の向上による恩恵を受けながら、パーソナライズされた共感できるカスタマーエクスペリエンスと従業員エクスペリエンスをもたらすことができるよう支援しています。
「Amazon S3 Tables は、特に多様なデータ分析ニーズに対応するマテリアライズドビューレイヤーを効果的に作成するマネージド Iceberg サポートが導入されたことで、当社のデータアーキテクチャに変革をもたらすでしょう。このサービスは、S3 が圧縮、スナップショット管理、未参照ファイルのクリーンアップなどの主要なメンテナンスタスクを自動的に処理するため、テーブル管理の余分なレイヤーを排除することで、Genesys が複雑なデータワークフローを簡素化するのに役立つ可能性があります。S3 から Iceberg Tables を直接読み書きできるようになったことで、パフォーマンスが向上し、分析エコシステム全体でデータをシームレスに統合する新たな可能性が生まれます。この相互運用性とパフォーマンスの向上により、S3 Tables は、迅速、柔軟かつ信頼性の高いデータインサイトを提供するための将来戦略において極めて重要な位置を占めることになります」
Genesys、Chief Technology Officer、Glenn Nethercutt 氏
Indeed
Indeed で仕事を見つける人々は、他のどのサイトよりも多くなっています。Indeed は世界 No.1 の求人サイトです (Comscore、総訪問数、2025 年 3 月)。60 を超える国々の人々が、28 の言語で、Indeed (6 億 3,500 万人の求職者プロフィールが登録されています) にアクセスして、求人を検索したり、履歴書を投稿したり、企業情報を調べたりしています。330 万超の雇用主が、Indeed を利用して、新しい従業員を探し、採用しています。Indeed は、採用を簡素化し、仕事の世界を変革する HR テクノロジーとビジネスソリューションのグローバルリーダーであるリクルートホールディングスの子会社です。
「Indeed では、膨大な量のデータを活用して求人市場を理解し、適切な機会と人々を結びつけています。85 ペタバイトのデータレイクを S3 Tables に移行することで、データインフラストラクチャを合理化し、コストを削減するとともに、それらのリソースを最も重要なことに再投資して、人々の仕事探しを支援するという当社のミッションに注力できるようになるでしょう」
Indeed、Software Engineering、Director、Chris Voss 氏
Zeta Global
Zeta Global は、高度な人工知能と、数兆の消費者シグナルを活用し、マーケティング担当者がより効率的に顧客を獲得、拡大、維持できるようにする AI マーケティングクラウドです。Zeta は、Zeta Marketing Platform を通じて、アイデンティティ、インテリジェンス、オムニチャネルアクティベーションを単一のプラットフォームに統合することで、高度なマーケティングをシンプルにします。このプラットフォームは、業界最大級の独自データベースと AI を活用しています。
「Zeta Global の AI マーケティングプラットフォームは、膨大で絶えず変化し、即座に活用できるデータを利用しています。10,000 を超える Apache Iceberg テーブルを擁する 10 ペタバイトのレイクハウスの基盤として Amazon S3 Tables を使用することで、データが最新状態になるまでのレイテンシーを 80% 近く低減し、インサイトを取得するまでに 15 分超かかっていたのを、わずか数分に短縮しました。このレベルの応答性により、Zeta は、リアルタイムのオーディエンス最適化、入札、メッセージングを提供する能力を強化し、AI を活用したマーケティングにおける当社のリーダーシップをさらに強化しています」
Zeta Global、Head of Engineering、Executive Vice President、Bharat Goyal 氏
Pendulum
Pendulum は、動画、音声、テキストコンテンツ全体にわたって世界でも極めて包括的なカバレッジを備えたブランドインテリジェンスプラットフォームであり、リスクと機会をプロアクティブに特定して、企業全体でより優れた意思決定とモニタリング分析を可能にします。
「Pendulum Intelligence では、何億ものソーシャルチャネルとソースからのデータを分析しています。Amazon S3 Tables は、当社がデータレイクを管理する方法を変革しました。データレイクは、独自の機械学習ツールを使用してほぼリアルタイムで画像や他のメディアからコンテキストを抽出しながら、数千時間分の分析された動画と音声コンテンツを処理します。圧縮、スナップショット、ファイルのクリーンアップなどのテーブル管理の負担がなくなるため、チームは、極めて重要なこと、すなわち、大規模なデータセットから実用的なインサイトを引き出すことに注力できます。分析スタック (Amazon Athena、AWS Glue、Amazon EMR) とのシームレスな統合により、複雑なデータを大規模に処理する能力が大幅に向上しました」
Pendulum、Cloud Big Data Architect、Abdurrahman Elbuni 氏
SnapLogic
SnapLogic は AI 主導の統合におけるパイオニアです。SnapLogic Platform for Generative Integration は、企業全体のデジタルトランスフォーメーションを加速して、タスクを自動化し、リアルタイムで意思決定を行い、既存のワークフローに簡単に統合できる AI エージェントと統合を設計、導入、管理できるようにしています。
「Amazon S3 Tables には Apache Iceberg サポートと AWS Analytics サービスの統合が組み込まれており、企業が分析、コンプライアンス、AI の取り組みにビジネスデータを活用する方法を変革しながら、データ分析コストを最適化するのを支援しています。複雑なデータ管理タスクを自動化し、データ変更の完全な監査証跡を提供することで、チームは技術コストを大幅に削減しながら、履歴データを即座に分析し、規制コンプライアンスを維持し、ビジネス上のインサイトを迅速に得ることができます」
SnapLogic、Enterprise Architect、Dominic Wellington 氏
Zus Health
Zus は共有医療データプラットフォームで、API、組み込みコンポーネント、直接的な EHR 統合を介して使いやすい患者データを提供することにより、医療データの相互運用性を促進するように設計されています。
「頻繁に変化する大量の患者データを扱うヘルスケア企業として、私たちは Apache Iceberg に投資することにしました。Apache Iceberg は、パーティション分割とオートメーションに関する Apache Hive の多くの問題点を解決したのに加え、広い相互運用性を享受できるメリットもあったからです。Iceberg の最大の課題の 1 つは、テーブルの最適化の把握と管理でした。これが、S3 Tables とマネージド最適化機能に期待している理由です。デベロッパーがテーブルメンテナンスの負担を軽減できれば、高品質のデータと貴重なインサイトをお客様に提供することにもっと集中できるようになります」
Zus Health、Consulting Software Engineer、Sonya Huang 氏
パートナーと統合
Daft
Daft は、データエンジニアリング、分析、ML/AI の統合エンジンです。SQL と Python DataFrame インターフェイスの両方を第一級市民として公開し、Rust で記述されています。Daft は、ペタバイト規模の分散ワークロードにシームレスにスケールしながら、迅速で楽しいローカルインタラクティブエクスペリエンスを提供します。
「Amazon S3 Tables は、Daft の Apache Iceberg サポートを完璧に補完します。AWS Lake Formation および AWS Glue との統合を活用することで、最適化されたパフォーマンスを活用しながら、既存の Iceberg の読み取りおよび書き込み機能を S3 Tables に簡単に拡張できました。当社はこの新しいサービスの進化を楽しみにしており、Python データエンジニアリングと ML/AI エコシステムにクラス最高レベルの S3 Tables サポートを提供できることに高揚感を覚えています」
Daft、CEO 兼共同創業者、Sammy Sidhu 氏
Dremio
Dremio はインテリジェントなレイクハウスプラットフォームであり、市場をリードする SQL エンジン、オープンで相互運用可能なデータカタログ、安全かつスケーラブルで使いやすいプラットフォームを提供することで、AI と分析を加速します。Apache Iceberg、Apache Polaris (インキュベーション段階)、Apache Arrow コミュニティにおける当社のリーダーシップにより、組織は、柔軟性とコントロールを維持しながら、完全にオープンで高性能なレイクハウスアーキテクチャを構築し、ベンダーロックインを排除できます。
「Dremio は、Amazon S3 Tables の一般提供の開始をサポートできることに高揚感を覚えています。S3 Tables は、Apache Iceberg REST Catalog (IRC) 仕様をサポートすることで、Dremio とのシームレスな相互運用性を実現し、最適化された S3 Tables バケットで管理される Apache Iceberg テーブルをクエリできる高性能 SQL エンジンの恩恵をユーザーが享受できるようにします。このコラボレーションにより、レイクハウスエコシステムにおけるオープンスタンダードの重要性が高まり、統合の複雑さが解消され、顧客による採用が加速します。Amazon S3 Tables と IRC のサポートにより、組織は AI 時代の統合レイクハウスアーキテクチャを構築するために必要な柔軟性と選択肢を得ることができます」
Dremio、Product、VP、James Rowland-Jones 氏
DuckDB Labs
DuckDB Labs は、人気のユニバーサルデータラングリングツールである DuckDB の生みの親によって設立された企業です。同社は、DuckDB システムの主要な貢献者を雇っています。DuckDB は、MIT ライセンスに基づく無料のオープンソースソフトウェアであり、独立した非営利団体である DuckDB Foundation によって管理されています。DuckDB プロジェクトは、その使いやすさと移植性により、幅広いユーザーが高速分析処理を利用できるようにします。
AWS Storage ブログ: Streamlining access to tabular datasets stored in Amazon S3 Tables with DuckDB
「Amazon S3 Tables は、オープンファイル形式を使用してデータ分析を民主化するという DuckDB のビジョンと完全に一致しています。AWS と DuckDB Labs のコラボレーションにより、DuckDB での Iceberg サポートをさらに拡張し、S3 Tables とのシームレスな統合を開発できます。DuckDB と S3 Tables の共有されている batteries-included の考え方が組み合わさることで、非常に低い参入障壁を維持しながら、幅広いワークロードを処理できる強力な分析スタックが実現すると考えています」
DuckDB Labs、Chief Executive Officer、Hannes Mühleisen 氏
HighByte
HighByte は、世界中の製造業者がデジタルトランスフォーメーションを進める中で直面するデータアーキテクチャと統合の課題に対処する産業ソフトウェア企業です。同社の実績ある産業用 DataOps ソフトウェアである HighByte Intelligence Hub は、コードレスインターフェイスを使用して、モデル化されたすぐに利用できるデータを AWS クラウドサービスに提供し、統合時間を短縮して分析を加速します。
「Amazon S3 Tables は、分析ワークロードの表形式データの管理、パフォーマンス、およびストレージを最適化する強力な新機能です。HighByte Intelligence Hub と Amazon S3 Tables との直接統合により、世界中の製造業者は、産業データ用のオープンなトランザクションデータレイクを簡単に構築できます。S3 Tables を使用することで、生の Parquet データを即座にクエリできるため、お客様は、コンテキスト化された情報をエッジからクラウドに送信し、追加の処理や変換なしですぐに使用できます。これは、両社の共通のお客様のパフォーマンスとコストの両方の最適化に大きな影響をもたらします」
HighByte、Chief Technology Officer、Aron Semle 氏
PuppyGraph
PuppyGraph は、初のリアルタイムのゼロ ETL グラフクエリエンジンです。これを使用することで、データチームは、高コストの移行やメンテナンスなしで、数分で既存のレイクハウスをグラフとしてクエリできます。ペタバイトサイズのデータセットにスケールし、複雑なマルチホップクエリを数秒で実行して、不正検出からサイバーセキュリティ、AI ドリブンのインサイトまで、さまざまなユースケースを強化します。
「Amazon S3 は長い間、最新のデータインフラストラクチャの基盤となってきました。そのような中で、S3 Tables のリリースは大きなマイルストーンであり、Apache Iceberg を、データと AI のユニバーサルスタンダードにより近づけます。このイノベーションにより、組織は S3 で高性能なオープンテーブル形式を活用できるようになり、データの重複なしでマルチエンジン分析が可能になります。PuppyGraph のお客様にとって、これは、複雑な ETL のオーバーヘッドなしで、リアルタイムのグラフクエリを S3 データに対して直接実行し、スケーラブルな最新のインサイトを維持できることを意味します。当社は、グラフ分析をデータ自体と同じ程度にシームレスにするこの進化の一翼を担えることに高揚感を覚えています」
PuppyGraph、共同創業者兼 CEO、Weimo Liu 氏
RisingWave
2021 年にサンフランシスコで設立された RisingWave Labs は、リアルタイムデータ処理を簡素化する、クラウドネイティブの SQL ストリーミングデータベースである RisingWave を開発しています。同社のテクノロジーは、PostgreSQL との互換性と最新のストリーミングアーキテクチャを組み合わせており、オープンソースソリューションとして、また、フルマネージドプラットフォームである RisingWave Cloud として提供されています。
「RisingWave と Amazon S3 Tables との統合により、組織は、Amazon S3 内の Apache Iceberg テーブルをシームレスに活用し、ストリーミングデータパイプラインの機能を強化できます。 生データの取り込み、リアルタイムでの変換、結果の S3 への書き戻しのいずれでも、RisingWave は、ワークフローの自然な拡張として、Iceberg テーブルの使用を簡単にします。この統合により、データ管理が簡素化され、運用の複雑さが軽減されるほか、ストリーミング分析に取り組むチームのスムーズな相互運用性が実現します」
RisingWave Labs、CPO、Rayees Pasha 氏
Snowflake
Snowflake は、エンタープライズ AI を簡単にするとともに、連携性と信頼性を高めます。世界最大規模の数百社の企業を含む、世界中の何千もの企業が、Snowflake の AI Data Cloud を利用してデータを共有し、アプリケーションを構築して、AI でビジネスを強化しています。
AWS Storage ブログ: Connect Snowflake to S3 Tables using the SageMaker Lakehouse Iceberg REST endpoint
「Snowflake の魔法を Amazon S3 Tables に導入できることに高揚感を覚えています。このコラボレーションにより、Snowflake のお客様は、Snowflake の既存の設定を使用して S3 Tables に保存されているデータをシームレスに読み取り、処理できるようになり、複雑なデータ移行や複製が不要になります。Snowflake の世界クラスのパフォーマンス分析機能と Amazon S3 Tables の Apache Iceberg テーブルの効率的なストレージを組み合わせることで、組織は Amazon S3 に保存されている表形式のデータを簡単にクエリして分析できます」
Snowflake、Global Director of Partner Solutions Engineering、Rithesh Makkena 氏
Starburst
Starburst は、分析、AI、およびデータアプリケーションに必要な基礎データアーキテクチャを強化します。Apache Iceberg を利用したハイブリッドデータレイクハウス環境を使用して、アクセス、コラボレーション、ガバナンスを大規模に実現します。
AWS Storage ブログ: Build a managed Apache Iceberg data lake using Starburst and Amazon S3 Tables
「Amazon S3 が S3 Tables で Apache Iceberg の組み込みサポートを導入し、Iceberg Open Data Lakehouse エコシステムを前進させているのを目の当たりにして、当社は高揚感を覚えています。S3 テーブルバケットを使用して、AWS と連携し、両社の共同のお客様がさまざまな分析および AI ユースケースにおいて、最適化された Trino (主要なオープンソース MPP SQL エンジン) を搭載した Open Lakehouse の力を、Amazon S3 のデータで活用するのをサポートできることを楽しみにしています」
Starburst、Product、Vice President、Matt Fuller 氏
StreamNative
StreamNative は、コスト効率に優れた高性能なデータインジェストにより AI と分析を強化するメッセージングおよびストリーミングプラットフォームです。StreamNative Ursa エンジンにより、企業は、Kafka 互換性、リーダーレスアーキテクチャ、レイクハウスネイティブストレージを使用して総保有コスト (TCO) を 90% 削減できます。これにより、AI 対応データが大規模に利用しやすくなります。
AWS Storage ブログ: Seamless streaming to Amazon S3 Tables with StreamNative Ursa Engine
「Amazon S3 Tables との統合により、リアルタイムの AI 対応データがこれまで以上にオープンでアクセスしやすくなります。S3 上の Ursa のリーダーレスアーキテクチャは既にストレージコストを削減しており、S3 Tables との直接統合によりパフォーマンスと効率性がさらに改善します。AI ドリブンの世界では、データガバナンスが重要です。StreamNative では、企業が管理されたリアルタイムデータを利用して AI を活用したアプリケーションを簡単かつ手頃なコストで構築できるようにしながら、TCO を 90% 削減するのをサポートすることに取り組んでいます」
StreamNative、CEO 兼共同創業者、Sijie Guo 氏