メインコンテンツに移動

Simple Storage Service (Amazon S3)

Amazon S3 Tables

Amazon S3 のフルマネージド型の Apache Iceberg テーブルを使用して、大規模に表形式のデータを保存

S3 テーブルとは何ですか?

Amazon S3 Tables は、フルマネージド型の Apache Iceberg テーブルであり、データレイクとレイクハウスの管理に伴う運用上の負担を自動化します。高度な圧縮とメンテナンス戦略により、S3 Tables はデータ量の増加に応じて自動的にクエリのパフォーマンスを最適化します。S3 Tables は、Apache Spark、Trino、Amazon Athena、Amazon Redshift、その他のサードパーティツールを含む、すべての Iceberg 互換エンジンで動作するため、アーキテクチャの柔軟性が高まり、表形式のデータを大規模に保存する最も簡単な方法を可能にします。

メリット

    S3 Tables は、圧縮、スナップショット管理、および未参照ファイルの削除を通じて、Iceberg テーブルを継続的に最適化します。自動レプリケーションにより、分散しているチームのクエリレイテンシーが短縮され、インテリジェント階層化によってストレージコストが最大 80% 削減されます。その結果、データチームはインフラストラクチャの管理ではなく構築に集中できます。

    ワークロードが増えるほど、Iceberg テーブルのメンテナンスと最適化が重要になり、それに追いつくのが難しくなります。S3 Tables はテーブルのパフォーマンスを自動的に維持するため、データが増加してもクエリの一貫性は維持され、データによって低下することはありません。データはクラウドで最も耐久性の高いストレージに支えられており、デフォルトで 99.999999999% (イレブンナイン) の耐久性と 99.99% の可用性を提供するように設計されています。

    Apache Iceberg のオープンスタンダードに基づいて構築された S3 Tables により、データが単一のコンピューティングエンジンやベンダーに限定されることはありません。 S3 Tables は Iceberg REST カタログ API を公開しているため、Spark、Trino、Flink、Athena、Redshift、Snowflake、その他のサードパーティツールを含む Iceberg 互換エンジンと連携し、既存のツールへの投資を抑えながら長期的な柔軟性を確保できます。

    Iceberg テーブルのガバナンスとセキュリティの管理は複雑で断片化されている場合があります。S3 Tables は、テーブルレベルのアクセス制御、暗号化、ライフサイクル管理が組み込まれたファーストクラスの AWS リソースです。これにより、すべてのテーブルの S3 バケットポリシーを管理する必要がなくなり、複雑な分析環境のガバナンスを簡素化できます。

    S3 Tables は、分析用に最適化されたストレージを提供し、汎用 S3 バケットに格納された Iceberg テーブルと比較して、1 秒あたりのトランザクション数が最大 10 倍になります。MCP サポートにより、AI エージェントと LLM は S3 Tables を操作できるため、AI 主導の分析が可能になります。AWS 分析サービスとのネイティブ統合と Iceberg REST API を通じたサードパーティツールとの互換性により、S3 Tables は新たな AI を活用したワークフローを強化できます。 

ユースケース

    Parquet、Apache Hive、または Hadoop から Apache Iceberg テーブルに移行することでデータレイクをモダナイズし、高度な分析と AI/ML 学習ワークロードをサポートするスケーラブルな AI 対応データレイクを構築しながら、運用の複雑さを軽減します。

    詳細

    AWS Streaming サービスを使用して、IoT センサー、トランザクションシステム、アプリケーションログなどのソースから Iceberg テーブルにデータを直接ストリーミングし、ストリーミングデータをほぼリアルタイムでクエリ可能な状態に保つ自動バックグラウンド最適化機能を備えています。

    詳細

    S3 Tables は、Iceberg テーブルを汎用バケットに保存する場合と比較して、1 秒あたりのトランザクション数が最大 10 倍多いため、高いスループットを必要とする大規模な分析ワークロードや操作に適しています。

     

    モデルコンテキストプロトコル (MCP) を通じて自然言語を使用して Iceberg テーブルに保存されているデータをクエリすることで、SQL の専門知識がなくてもアドホックな探索が可能になります。S3 Tables は、クエリのパフォーマンスを維持しながら自動最適化を行うことで、複数のユーザーと AI アシスタントからの同時アクセスをサポートします。

    詳細

デモを視聴する

Amazon S3 Tables について、なぜ構築したのか、どのように機能するのかを学ぶ
今すぐ視聴する

パートナーと統合

Daft

「Amazon S3 Tables は、Daft の Apache Iceberg サポートを完璧に補完します。AWS Lake Formation および AWS Glue との統合を活用することで、最適化されたパフォーマンスを活用しながら、既存の Iceberg の読み取りおよび書き込み機能を S3 Tables に簡単に拡張できました。当社はこの新しいサービスの進化を楽しみにしており、Python データエンジニアリングと ML/AI エコシステムにクラス最高レベルの S3 Tables サポートを提供できることに高揚感を覚えています」 

Daft、CEO 兼共同創業者、Sammy Sidhu 氏

Missing alt text value

Dremio

「Dremio は、Amazon S3 Tables の一般提供の開始をサポートできることに高揚感を覚えています。S3 Tables は、Apache Iceberg REST Catalog (IRC) 仕様をサポートすることで、Dremio とのシームレスな相互運用性を実現し、最適化された S3 Tables バケットで管理される Apache Iceberg テーブルをクエリできる高性能 SQL エンジンの恩恵をユーザーが享受できるようにします。このコラボレーションにより、レイクハウスエコシステムにおけるオープンスタンダードの重要性が高まり、統合の複雑さが解消され、顧客による採用が加速します。Amazon S3 Tables と IRC のサポートにより、組織は AI 時代の統合レイクハウスアーキテクチャを構築するために必要な柔軟性と選択肢を得ることができます」

Dremio、CTO、Rahim Bhojani 氏

Missing alt text value

DuckDB Labs

「Amazon S3 Tables は、オープンファイル形式を使用してデータ分析を民主化するという DuckDB のビジョンと完全に一致しています。AWS と DuckDB Labs のコラボレーションにより、DuckDB での Iceberg サポートをさらに拡張し、S3 Tables とのシームレスな統合を開発できます。DuckDB と S3 Tables の共有されている batteries-included の考え方が組み合わさることで、非常に低い参入障壁を維持しながら、幅広いワークロードを処理できる強力な分析スタックが実現すると考えています」

DuckDB Labs、Chief Executive Officer、Hannes Mühleisen 氏

Missing alt text value

HighByte

「Amazon S3 Tables は、分析ワークロードの表形式データの管理、パフォーマンス、およびストレージを最適化する強力な新機能です。HighByte Intelligence Hub と Amazon S3 Tables との直接統合により、世界中の製造業者は、産業データ用のオープンなトランザクションデータレイクを簡単に構築できます。S3 Tables を使用することで、生の Parquet データを即座にクエリできるため、お客様は、コンテキスト化された情報をエッジからクラウドに送信し、追加の処理や変換なしですぐに使用できます。これは、両社の共通のお客様のパフォーマンスとコストの両方の最適化に大きな影響をもたらします」

HighByte、Chief Technology Officer、Aron Semle 氏

Missing alt text value

PuppyGraph

「Amazon S3 は長い間、最新のデータインフラストラクチャの基盤となってきました。そのような中で、S3 Tables のリリースは大きなマイルストーンであり、Apache Iceberg を、データと AI のユニバーサルスタンダードにより近づけます。このイノベーションにより、組織は S3 で高性能なオープンテーブル形式を活用できるようになり、データの重複なしでマルチエンジン分析が可能になります。PuppyGraph のお客様にとって、これは、複雑な ETL のオーバーヘッドなしで、リアルタイムのグラフクエリを S3 データに対して直接実行し、スケーラブルな最新のインサイトを維持できることを意味します。当社は、グラフ分析をデータ自体と同じ程度にシームレスにするこの進化の一翼を担えることに高揚感を覚えています」

PuppyGraph、共同創業者兼 CEO、Weimo Liu 氏

Missing alt text value

RisingWave

「RisingWave と Amazon S3 Tables との統合により、組織は、Amazon S3 内の Apache Iceberg テーブルをシームレスに活用し、ストリーミングデータパイプラインの機能を強化できます。 生データの取り込み、リアルタイムでの変換、結果の S3 への書き戻しのいずれでも、RisingWave は、ワークフローの自然な拡張として、Iceberg テーブルの使用を簡単にします。この統合により、データ管理が簡素化され、運用の複雑さが軽減されるほか、ストリーミング分析に取り組むチームのスムーズな相互運用性が実現します」

RisingWave Labs、CPO、Rayees Pasha 氏

Missing alt text value

Ryft

「Ryft の Amazon S3 Tables との統合により、チームは Apache Iceberg テーブルを完全に自律的なレイクハウスとして運用できるようになりました。お客様は、ワークロードに応じた最適化とガバナンス、ファイルレイアウトの最適化と圧縮の自動化、スナップショットの保存とリカバリの管理、Apache Iceberg テーブルのコンプライアンスの自動化、おびレイクハウスの完全な可視性をすべて Iceberg ネイティブストレージ上で実現できます。Ryft と S3 Tables を組み合わせることで、手作業によるチューニングや cron ベースのメンテナンスなしで、一貫して高速なクエリ、より低いストレージコスト、信頼性の高い運用が可能になります。」

Ryft、CEO & Co-Founder、Yossi Reitblat 氏

Missing alt text value

Snowflake

「Snowflake の魔法を Amazon S3 Tables に導入できることに高揚感を覚えています。このコラボレーションにより、Snowflake のお客様は、Snowflake の既存の設定を使用して S3 Tables に保存されているデータをシームレスに読み取り、処理できるようになり、複雑なデータ移行や複製が不要になります。Snowflake の世界クラスのパフォーマンス分析機能と Amazon S3 Tables の Apache Iceberg テーブルの効率的なストレージを組み合わせることで、組織は Amazon S3 に保存されている表形式のデータを簡単にクエリして分析できます」

Snowflake、Global Director of Partner Solutions Engineering、Rithesh Makkena 氏

Missing alt text value

Starburst

「Amazon S3 が S3 Tables で Apache Iceberg の組み込みサポートを導入し、Iceberg Open Data Lakehouse エコシステムを前進させているのを目の当たりにして、当社は高揚感を覚えています。S3 テーブルバケットを使用して、AWS と連携し、両社の共同のお客様がさまざまな分析および AI ユースケースにおいて、最適化された Trino (主要なオープンソース MPP SQL エンジン) を搭載した Open Lakehouse の力を、Amazon S3 のデータで活用するのをサポートできることを楽しみにしています」 

Starburst、Product、Vice President、Matt Fuller 氏

Missing alt text value

StreamNative

「Amazon S3 Tables との統合により、リアルタイムの AI 対応データがこれまで以上にオープンでアクセスしやすくなります。S3 上の Ursa のリーダーレスアーキテクチャは既にストレージコストを削減しており、S3 Tables との直接統合によりパフォーマンスと効率性がさらに改善します。AI ドリブンの世界では、データガバナンスが重要です。StreamNative では、企業が管理されたリアルタイムデータを利用して AI を活用したアプリケーションを簡単かつ手頃なコストで構築できるようにしながら、TCO を 90% 削減するのをサポートすることに取り組んでいます」

StreamNative、CEO 兼共同創業者、Sijie Guo 氏

Missing alt text value

よくある質問

    Amazon S3 に表形式のデータを保存するシンプルでパフォーマンスが高く費用対効果の高い方法としては、S3 Tables を使用する必要があります。S3 Tables では、構造化データをテーブルに整理し、標準の SQL ステートメントを使用してそのデータをクエリできます。設定はほとんど必要ありません。さらに、S3 Tables は S3 自体と同じ耐久性、可用性、スケーラビリティ、パフォーマンス特性を提供し、ストレージを自動的に最適化してクエリのパフォーマンスを最大化し、コストを最小限に抑えます。Intelligent-Tiering ストレージクラスを使用すると、S3 Tables はアクセスパターンに基づいてコストを自動的に最適化するため、パフォーマンスへの影響や運用上のオーバーヘッドは発生しません。

    S3 Tables は、Iceberg テーブルを汎用 Amazon S3 バケットに保存する場合と比較して、1 秒あたりのトランザクション数 (TPS) が最大 10 倍多くなります。S3 Tables は、基盤となるデータで圧縮を自動的に行い、最適なクエリパフォーマンスのために、継続的にテーブルを最適化します。ワークロードとクエリパターンに応じて、ソート圧縮や Z オーダー圧縮などの高度な圧縮戦略を選択して、テーブルをさらに最適化することもできます。ソート圧縮は指定された列に基づいてデータを整理し、フィルタリングされた操作のクエリパフォーマンスを向上させます。一方、Z オーダー圧縮は複数のディメンションにわたるデータの整理を最適化するため、複数の列にわたるデータを同時にクエリする必要がある場合に最適です。

    S3 Tables は、S3 外部のインフラストラクチャを立ち上げなくても、ほんの数ステップで使い始めることができます。まず、S3 コンソールでテーブルバケットを作成します。コンソールを通じて最初のテーブルバケットを作成すると、AWS 分析サービスとの統合が自動的に行われ、S3 はアカウントとリージョン内のすべてのテーブルバケットとテーブルを AWS Glue データカタログに自動的に入力できるようになります。この後、Amazon Athena、EMR、Redshift などの AWS クエリエンジンから S3 Tables にアクセスできるようになります。次に、S3 コンソールから Amazon Athena を使用してテーブルを作成するためにクリックできます。Athena にアクセスすると、新しいテーブルへの入力とクエリをすぐに開始できます。

    あるいは、AWS Glue データカタログを通じて Iceberg REST カタログエンドポイントを使用して S3 Tables にアクセスすることもできます。これにより、すべてのテーブルリソースを含むデータ資産全体を検出できます。また、個々のテーブルバケットエンドポイントに直接接続して、そのバケット内のすべての S3 Tables リソースを検出することもできます。これにより、Apache Iceberg REST カタログ仕様をサポートする任意のアプリケーションまたはクエリエンジンで S3 Tables を使用できるようになります。