Überspringen zum Hauptinhalt

Amazon S3

Amazon S3 Tables

Speichern Sie tabellarische Daten in großem Umfang mit vollständig verwalteten Apache-Iceberg-Tabellen in Amazon S3

Was sind S3 Tables?

Amazon S3 Tables sind vollständig verwaltete Apache-Iceberg-Tabellen, die den betrieblichen Aufwand bei der Verwaltung von Data Lakes und Lakehouses automatisieren. Durch fortschrittliche Komprimierungs- und Wartungsstrategien optimieren S3 Tables automatisch die Abfrageleistung, wenn das Datenvolumen wächst. S3 Tables funktioniert mit jeder Iceberg-kompatiblen Engine, einschließlich Apache Spark, Trino, Amazon Athena, Amazon Redshift und anderen Tools von Drittanbietern, was architektonische Flexibilität ermöglicht und die einfachste Möglichkeit bietet, tabellarische Daten in großem Maßstab zu speichern.

Vorteile

    S3 Tables optimiert Iceberg-Tabellen kontinuierlich durch Komprimierung, Snapshot-Verwaltung und Entfernung unreferenzierter Dateien. Die automatische Replikation reduziert die Abfragelatenz für verteilte Teams, und Intelligent-Tiering reduziert die Speicherkosten um bis zu 80 % Dadurch können sich Datenteams auf die Entwicklung statt auf die Verwaltung der Infrastruktur konzentrieren.

    Je mehr Workloads die zunehmen, desto wichtiger ist die Wartung und Optimierung von Iceberg Tables, und desto schwieriger wird es, mit ihnen Schritt zu halten. S3 Tables sorgen automatisch für eine hohe Leistungsfähigkeit der Tabellen, sodass Abfragen auch bei wachsendem Datenvolumen konsistent bleiben und nicht an Leistung einbüßen. Die Daten werden durch den beständigsten Speicher in der Cloud gesichert, der standardmäßig eine Haltbarkeit von 99,999999999 % (11 Neunen) bietet und eine Verfügbarkeit von 99,99 % bietet.

    S3 Tables basieren auf dem offenen Standard Apache Iceberg und stellen sicher, dass Ihre Daten niemals an eine einzelne Rechenmaschine oder einen einzigen Anbieter gebunden sind. S3 Tables stellen die Iceberg REST Catalog API zur Verfügung, sodass sie mit Iceberg-kompatiblen Engines wie Spark, Trino, Flink, Athena, Redshift, Snowflake und anderen Tools von Drittanbietern funktionieren, wodurch Investitionen in bestehende Tools erhalten bleiben und gleichzeitig langfristige Flexibilität gewährleistet wird.

    Die Governance und Sicherheit von Iceberg Table kann komplex und fragmentiert sein. S3 Tables sind erstklassige AWS-Ressourcen mit integrierter Zugriffskontrolle, Verschlüsselung und Lebenszyklusmanagement auf Tabellenebene. Dadurch entfällt die Notwendigkeit, S3-Bucket-Richtlinien für jede Tabelle zu verwalten, und die Verwaltung komplexer Analyseumgebungen wird vereinfacht.

    S3 Tables bieten für Analysen optimierten Speicher mit bis zu zehnmal höheren Transaktionen pro Sekunde im Vergleich zu Iceberg-Tabellen, die in S3-Buckets für allgemeine Zwecke gespeichert sind. Mit MCP-Unterstützung können KI-Agenten und LLMs mit S3 Tables interagieren, was KI-gestützte Analysen ermöglicht. Native Integrationen mit AWS Analytics-Services und Kompatibilität mit Tools von Drittanbietern über die Iceberg REST-API bedeuten, dass S3 Tables neue KI-gestützte Workflows unterstützen kann. 

Anwendungsfälle

    Modernisieren Sie Data Lakes, indem Sie von Parquet, Apache Hive oder Hadoop zu Apache-Iceberg-Tabellen migrieren und so die betriebliche Komplexität reduzieren und gleichzeitig skalierbare KI-fähige Data Lakes erstellen, die fortschrittliche Analysen und KI/ML-Learning-Workloads unterstützen.

    Weitere Informationen

    Streamen Sie Daten aus Quellen wie IoT-Sensoren, Transaktionssystemen und Anwendungsprotokollen mithilfe der AWS-Streaming-Dienste direkt in Iceberg-Tabellen. Die automatische Hintergrundoptimierung sorgt dafür, dass Streaming-Daten nahezu in Echtzeit abgefragt werden können.

    Weitere Informationen

    S3 Tables bieten bis zu zehnmal mehr Transaktionen pro Sekunde als die Speicherung von Iceberg-Tabellen in Allzweck-Buckets und eignen sich daher gut für umfangreiche Analyse-Workloads und Operationen, die einen hohen Durchsatz erfordern.

     

    Fragen Sie Daten, die in Iceberg-Tabellen gespeichert sind, mithilfe natürlicher Sprache über das Model Context Protocol (MCP) ab und ermöglichen so eine Ad-hoc-Erkundung ohne SQL-Kenntnisse. S3 Tables unterstützt den gleichzeitigen Zugriff durch mehrere Benutzer und KI-Assistenten mit automatischer Optimierung, um die Abfrageleistung aufrechtzuerhalten.

    Weitere Informationen

Sehen Sie sich eine Demo an

Erfahren Sie mehr über Amazon S3 Tables, warum wir es entwickelt haben und wie sie funktionieren Jetzt ansehen

Partner und Integrationen

Daft

„Amazon S3 Tables ist die perfekte Ergänzung zu Dafts Unterstützung für Apache Iceberg. Durch die Nutzung der Integrationen mit AWS Lake Formation und AWS Glue konnten wir unsere bestehenden Lese- und Schreibfunktionen von Iceberg mühelos auf S3 Tables erweitern und gleichzeitig die optimierte Leistung nutzen. Wir freuen uns auf die Entwicklung dieses neuen Services und darauf, die beste S3-Tables-Unterstützung für das Python-Data-Engineering- und ML/KI-Ökosystem anbieten zu können.“ 

Sammy Sidhu, CEO & Co-Founder – Daft

Missing alt text value

Dremio

„Dremio freut sich, die allgemeine Verfügbarkeit von Amazon S3 Tables zu unterstützen. Durch die Unterstützung der Apache Iceberg REST Catalog (IRC)-Spezifikation gewährleisten S3 Tables eine nahtlose Interoperabilität mit Dremio, sodass Benutzer von einer leistungsstarken SQL-Engine profitieren können, die in optimierten S3-Table-Buckets verwaltete Apache-Iceberg-Tabellen abfragen kann. Diese Zusammenarbeit unterstreicht die Bedeutung offener Standards im Lakehouse-Ökosystem, wodurch die Komplexität der Integration verringert und die Kundenakzeptanz beschleunigt wird. Mit Amazon S3 Tables und IRC-Unterstützung erhalten Unternehmen die Flexibilität und Auswahl, die sie benötigen, um im KI-Zeitalter eine einheitliche Lakehouse-Architektur aufzubauen.“

Rahim Bhojani, CTO – Dremio

Missing alt text value

DuckDB Labs

„Amazon S3 Tables passt perfekt zur Vision von DuckDB, Datenanalytik mithilfe offener Dateiformate zu demokratisieren. Die Zusammenarbeit zwischen AWS und DuckDB Labs ermöglicht es uns, die Iceberg-Unterstützung in DuckDB weiter auszubauen und eine nahtlose Integration mit S3 Tables zu entwickeln. Wir glauben, dass sich die gemeinsame Mentalität von DuckDB und S3 Tables zu einem leistungsstarken Analytik-Stack zusammenfügt, der eine Vielzahl von Workloads bewältigen kann und gleichzeitig eine unglaublich niedrige Einstiegshürde beibehält.“

Hannes Mühleisen, Chief Executive Officer – DuckDB Labs

Missing alt text value

HighByte

„Amazon S3 Tables ist ein leistungsstarkes neues Feature, das die Verwaltung, Leistung und Speicherung von Tabellendaten für Analytik-Workloads optimiert. Die direkte Integration von HighByte Intelligence Hub in Amazon S3 Tables erleichtert es globalen Herstellern, einen offenen, transaktionalen Data Lake für ihre Industriedaten aufzubauen. S3 Tables ermöglichen die sofortige Abfrage von Parquet-Rohdaten, sodass Kunden kontextualisierte Informationen vom Edge zur sofortigen Verwendung ohne zusätzliche Verarbeitung oder Transformationen senden können. Dies hat große Auswirkungen sowohl auf die Leistungs- als auch auf die Kostenoptimierung für unsere gemeinsamen Kunden.“

Aron Semle, Chief Technology Officer – HighByte

Missing alt text value

PuppyGraph

„Amazon S3 ist seit langem die Grundlage einer modernen Dateninfrastruktur, und die Einführung von S3 Tables ist ein wichtiger Meilenstein, der Apache Iceberg dem universellen Standard für Daten und KI näher bringt. Diese Innovation ermöglicht es Unternehmen, leistungsstarke, offene Tabellenformate in S3 zu nutzen und so Analytik mit mehreren Engines ohne Datenduplizierung zu ermöglichen. Für PuppyGraph-Kunden bedeutet dies, dass sie jetzt Grafikabfragen in Echtzeit direkt auf ihren S3-Daten ausführen können und so neue, skalierbare Erkenntnisse ohne den Aufwand komplexer ETL erhalten. Wir freuen uns, Teil dieser Entwicklung zu sein und die Graphenanalytik so nahtlos wie die Daten selbst zu machen.“

Weimo Liu, Co-founder & CEO – PuppyGraph

Missing alt text value

RisingWave

„Durch die Integration von RisingWave in Amazon S3 Tables können Unternehmen Apache-Iceberg-Tabellen in Amazon S3 nahtlos nutzen und so ihre Streaming-Datenpipeline-Fähigkeiten verbessern. Unabhängig davon, ob Sie Rohdaten erfassen, diese in Echtzeit transformieren oder Ergebnisse zurück in S3 schreiben, RisingWave erleichtert die Arbeit mit Iceberg-Tabellen als natürliche Erweiterung Ihres Workflows. Diese Integration vereinfacht die Datenverwaltung, reduziert die Komplexität des Betriebs und ermöglicht eine reibungslose Interoperabilität für Teams, die mit Streaming-Analysen arbeiten.“

Rayees Pasha, CPO – RisingWave Labs

Missing alt text value

Ryft

„Die Integration von Ryft mit Amazon S3 Tables ermöglicht es Teams, Apache-Iceberg-Tabellen als vollständig autonomes Lakehouse zu betreiben. Kunden profitieren von workloadbezogener Optimierung und Governance, automatisierter Optimierung und Komprimierung des Dateilayouts, verwalteter Snapshot-Aufbewahrung und -Wiederherstellung, automatisierter Compliance für Apache Iceberg-Tabellen und vollständigen Überblick über ihr Lakehouse – alles auf Iceberg-nativem Speicher. Zusammen liefern Ryft und S3 Tables konstant schnelle Abfragen, niedrigere Speicherkosten und einen zuverlässigen Betrieb ohne manuelles Tuning oder cron-basierte Wartung.“

Yossi Reitblat, CEO & Co-Founder – Ryft

Missing alt text value

Snowflake

„Wir freuen uns, die Magie von Snowflake auf Amazon S3 Tables zu übertragen. Diese Zusammenarbeit ermöglicht es Snowflake-Kunden, in S3 Tables gespeicherte Daten mithilfe ihrer vorhandenen Snowflake-Setups nahtlos zu lesen und zu verarbeiten, sodass keine komplexen Datenmigrationen oder Duplikate erforderlich sind. Durch die Kombination der erstklassigen Leistungsanalytikfunktionen von Snowflake mit der effizienten Speicherung von Apache-Iceberg-Tabellen von Amazon S3 Tables können Unternehmen auf einfache Weise in Amazon S3 gespeicherte Tabellendaten abfragen und analysieren.“

Rithesh Makkena, Global Director of Partner Solutions Engineering – Snowflake

Missing alt text value

Starburst

„Wir freuen uns sehr, dass Amazon S3 die integrierte Unterstützung für Apache Iceberg mit S3 Tables einführt und damit das Iceberg-Open-Data-Lakehouse-Ökosystem weiterentwickelt. Mit S3-Table-Buckets freuen wir uns auf die Zusammenarbeit mit AWS, um unseren gemeinsamen Kunden dabei zu helfen, die Leistung eines Open Lakehouse auf Basis des optimierten Trino – einer führenden Open-Source-MPP-SQL-Engine – für verschiedene Analytik- und KI-Anwendungsfälle in Daten in Amazon S3 nutzbar zu machen.“ 

Matt Fuller, Vice President, Product – Starburst

Missing alt text value

StreamNative

„Unsere Integration in Amazon S3 Tables macht KI-fähige Echtzeitdaten offener und zugänglicher als je zuvor. Die führende Architektur von Ursa in S3 reduziert bereits die Speicherkosten, und die direkte Integration mit S3 Tables verbessert die Leistung und Effizienz weiter. In einer KI-gesteuerten Welt ist Daten-Governance von entscheidender Bedeutung. Bei StreamNative setzen wir uns dafür ein, Unternehmen dabei zu unterstützen, ihre Gesamtbetriebskosten um 90 % zu senken und gleichzeitig die Entwicklung KI-gestützter Anwendungen mit kontrollierten Echtzeitdaten mühelos und erschwinglich zu machen.“

Sijie Guo, CEO & Co-Founder – StreamNative

Missing alt text value

Häufig gestellte Fragen

    Sie sollten S3 Tables verwenden, um tabellarische Daten auf einfache, leistungsstarke und kostengünstige Weise in Amazon S3 zu speichern. S3 Tables bieten Ihnen die Möglichkeit, Ihre strukturierten Daten in Tabellen zu organisieren und diese Daten dann mit Standard-SQL-Anweisungen abzufragen, praktisch ohne Einrichtung. Darüber hinaus bieten S3 Tables die gleiche Haltbarkeit, Verfügbarkeit, Skalierbarkeit und Leistungsmerkmale wie S3 selbst und optimieren automatisch Ihren Speicher, um die Abfrageleistung zu maximieren und die Kosten zu minimieren. Darüber hinaus optimiert S3 Tables mit der Speicherklasse „Intelligent-Tiering“ automatisch die Kosten auf Grundlage der Zugriffsmuster, ohne dass dies Auswirkungen auf die Leistung oder den Betriebsaufwand hat.

    S3 Tables bietet bis zu 10-mal höhere Transaktionen pro Sekunde (TPS) im Vergleich zum Speichern von Iceberg-Tabellen in Amazon-S3-Allzweck-Buckets. S3 Tables führt automatisch eine Komprimierung der zugrunde liegenden Daten durch, um Ihre Tabellen kontinuierlich für eine optimale Abfrageleistung zu optimieren. Je nach Workload und Abfragemustern können Sie auch aus erweiterten Komprimierungsstrategien wie der Sortier- und Z-Reihenfolge-Komprimierung wählen, um Ihre Tabellen weiter zu optimieren. Die Sortierkomprimierung ordnet Daten anhand festgelegter Spalten an, um die Abfrageleistung bei gefilterten Operationen zu verbessern, während die Z-Reihenfolge-Komprimierung die Datenorganisation über mehrere Dimensionen hinweg optimiert und sich somit ideal eignet, wenn Sie Daten über mehrere Spalten hinweg gleichzeitig abfragen müssen.

    Sie können in nur drei Schritten mit S3 Tables beginnen, ohne eine Infrastruktur außerhalb von Amazon S3 einrichten zu müssen. Erstellen Sie zunächst einen Tabellen-Bucket in der S3-Konsole. Im Rahmen der Erstellung Ihres ersten Tabellen-Buckets über die Konsole erfolgt die Integration mit den AWS-Analytics-Services automatisch, sodass S3 automatisch alle Tabellen-Buckets und Tabellen in Ihrem Konto und Ihrer Region im AWS-Glue-Datenkatalog auffüllen kann. Danach ist S3 Tables jetzt für AWS-Abfrage-Engines wie Amazon Athena, EMR und Redshift zugänglich. Als Nächstes können Sie in der S3-Konsole auf Amazon Athena klicken, um eine Tabelle zu erstellen. Sobald Sie sich in Athena befinden, können Sie umgehend mit dem Erstellen neuer Tabellen und dem Abfragen dieser Tabellen beginnen.

    Alternativ können Sie mithilfe des Iceberg-REST-Katalog-Endpunkts über den AWS-Glue-Datenkatalog auf S3 Tables zugreifen, sodass Sie Ihren gesamten Datenbestand einschließlich aller Tabellenressourcen ermitteln können. Sie können auch eine direkte Verbindung zu einem einzelnen Tabellen-Bucket-Endpunkt herstellen, um alle S3-Tables-Ressourcen in diesem Bucket zu ermitteln. Auf diese Weise können Sie S3-Tables mit jeder Anwendung oder Abfrage-Engine verwenden, die die Apache-Iceberg-REST-Katalog-Spezifikation unterstützt.