Passa al contenuto principale

Amazon S3

Tabelle Amazon S3

Archivia dati tabulari su larga scala con tabelle Apache Iceberg completamente gestite in Amazon S3

Cosa sono le tabelle S3?

Le tabelle Amazon S3 sono tabelle Apache Iceberg completamente gestite che automatizzano l’onere operativo della gestione di data lake e lakehouse. Attraverso strategie avanzate di compattazione e manutenzione, S3 Tables ottimizza automaticamente le prestazioni delle query man mano che i volumi di dati aumentano. Le tabelle S3 funzionano con qualsiasi motore compatibile con Iceberg, tra cui Apache Spark, Trino, Amazon Athena, Amazon Redshift e altri strumenti di terze parti, consentendo flessibilità architetturale e offrendo il modo più semplice per archiviare dati tabulari su larga scala.

Vantaggi

    S3 Tables ottimizza continuamente le tabelle Iceberg attraverso la compattazione, la gestione delle istantanee e la rimozione di file senza riferimenti. La replica automatica riduce la latenza delle query per i team distribuiti e Intelligent-Tiering riduce i costi di archiviazione fino all’80%. Di conseguenza, i team di dati possono concentrarsi sulla creazione anziché sulla gestione dell’infrastruttura.

    Più aumentano i carichi di lavoro, più la manutenzione e l’ottimizzazione delle tabelle Iceberg sono importanti e più diventa difficile tenerne il passo. Le tabelle S3 mantengono automaticamente le tabelle prestazionali, in modo che le query rimangano coerenti man mano che i dati crescono anziché degradarsi. I dati sono supportati dall’archiviazione più duratura del cloud, progettato per fornire il 99,999999999% (11 nove) di durabilità e il 99,99% di disponibilità per impostazione predefinita.

    Basato sullo standard aperto Apache Iceberg, S3 Tables assicura che i tuoi dati non siano mai bloccati in un singolo motore di elaborazione o fornitore. Le tabelle S3 espongono l’API REST Catalog di Iceberg, quindi funzionano con motori compatibili con Iceberg, tra cui Spark, Trino, Flink, Athena, Redshift, Snowflake e altri strumenti di terze parti, preservando gli investimenti negli strumenti esistenti e consentendo una flessibilità a lungo termine.

    La gestione della governance e della sicurezza delle tabelle Iceberg può essere complessa e frammentata. Le tabelle S3 sono risorse AWS di prima classe con controllo degli accessi, crittografia e gestione del ciclo di vita integrati a livello di tabella, che eliminano la necessità di gestire le policy dei bucket S3 per ogni tabella e semplificano la governance per ambienti di analisi complessi.

    Le tabelle S3 offrono uno storage ottimizzato per l’analisi, con transazioni al secondo fino a 10 volte superiori rispetto alle tabelle Iceberg archiviate in bucket S3 generici. Con il supporto MCP, gli agenti IA e gli LLM possono interagire con S3 Tables, rendendo possibile l’analisi basata sull’IA. Le integrazioni native con i servizi AWS Analytics e la compatibilità con strumenti di terze parti tramite la REST API di Iceberg consentono a S3 Tables di potenziare i flussi di lavoro emergenti basati sull’IA. 

Casi d’uso

    Modernizza i data lake migrando da Parquet, Apache Hive o Hadoop alle tabelle Apache Iceberg, riducendo la complessità operativa e creando data lake scalabili predisposti per l’IA che supportano analisi avanzate e carichi di lavoro di apprendimento AI/ML.

    Ulteriori informazioni

    Trasmetti i dati direttamente nelle tabelle Iceberg da origini come sensori IoT, sistemi di transazione e log delle applicazioni utilizzando i servizi AWS Streaming, con ottimizzazione automatica dello sfondo che mantiene interrogabili i dati di streaming quasi in tempo reale.

    Ulteriori informazioni

    Le tabelle S3 offrono transazioni al secondo fino a 10 volte superiori rispetto all’archiviazione delle tabelle Iceberg in bucket generici, il che le rende ideali per carichi di lavoro e operazioni di analisi su larga scala che richiedono un throughput elevato.

     

    Interroga i dati archiviati nelle tabelle Iceberg utilizzando il linguaggio naturale tramite Model Context Protocol (MCP), che consente l’esplorazione ad hoc senza competenze SQL. S3 Tables supporta l’accesso simultaneo da parte di più utenti e assistenti IA con ottimizzazione automatica che mantiene le prestazioni delle query.

    Ulteriori informazioni

Guarda una demo

Scopri Amazon S3 Tables, perché l’abbiamo creato e come funziona
Guarda ora

Partner e integrazioni

Daft

“Amazon S3 Tables è il complemento perfetto al supporto di Daft per Apache Iceberg. Sfruttando le sue integrazioni con AWS Lake Formation e AWS Glue, siamo stati in grado di estendere facilmente le nostre funzionalità di lettura e scrittura di Iceberg esistenti a Tabelle S3, sfruttando al contempo le sue prestazioni ottimizzate. Attendiamo con impazienza l’evoluzione di questo nuovo servizio e siamo entusiasti di fornire il miglior supporto per Tabelle S3 per l’ecosistema Python Data Engineering e ML/IA.” 

Sammy Sidhu, CEO e cofondatore - Daft

Missing alt text value

Dremio

“Dremio è lieta di supportare la disponibilità generale di Amazon S3 Tables. Supportando la specifica del Catalogo REST di Apache Iceberg (IRC), Tabelle S3 garantisce una perfetta interoperabilità con Dremio, consentendo agli utenti di beneficiare di un motore SQL ad alte prestazioni in grado di interrogare le tabelle Apache Iceberg gestite in bucket di tabelle S3 ottimizzati. Questa collaborazione rafforza l’importanza degli standard aperti nell’ecosistema Lakehouse, eliminando la complessità dell’integrazione e accelerando l’adozione da parte dei clienti. Con Amazon S3 Tables e il supporto IRC, le organizzazioni ottengono la flessibilità e la scelta necessarie per creare un’architettura lakehouse unificata nell’era dell’IA”.

Rahim Bhojani, CTO - Dremio

Missing alt text value

DuckDB Labs

“Amazon S3 Tables si allinea perfettamente alla visione di DuckDB di democratizzare l’analisi dei dati utilizzando formati di file aperti. La collaborazione tra AWS e DuckDB Labs ci consente di estendere ulteriormente il supporto di Iceberg in DuckDB e sviluppare un’integrazione perfetta con Tabelle S3. Riteniamo che la mentalità del “tutto incluso” condivisa di DuckDB e Tabelle S3 crei un potente stack di analisi in grado di gestire un’ampia gamma di carichi di lavoro mantenendo una barriera all’ingresso incredibilmente bassa.”

Hannes Mühleisen, Amministratore delegato - DuckDB Labs

Missing alt text value

HighByte

“Amazon S3 Tables è una nuova potente funzionalità che ottimizza la gestione, le prestazioni e l’archiviazione dei dati tabulari per i carichi di lavoro di analisi. L’integrazione diretta di HighByte Intelligence Hub con Tabelle Amazon S3 consente ai produttori globali di creare facilmente un data lake transazionale aperto per i propri dati industriali. Tabelle S3 consente l’interrogazione istantanea dei dati grezzi di Parquet, permettendo ai clienti di inviare informazioni contestualizzate dall’edge al cloud per un uso immediato che non richiedere ulteriori elaborazioni o trasformazioni. Ciò ha un impatto importante sull’ottimizzazione delle prestazioni e dei costi per i nostri clienti comuni.”

Aron Semle, Responsabile tecnico - HighByte

Missing alt text value

PuppyGraph

“Amazon S3 è da tempo la base della moderna infrastruttura di dati, e il lancio di S3 Tables segna una pietra miliare importante, avvicinando Apache Iceberg a diventare lo standard universale per dati e IA. Questa innovazione permette alle organizzazioni di sfruttare formati di tabella aperti ad alte prestazioni su S3, consentendo analisi multi-motore senza duplicazione dei dati. Per i clienti di PuppyGraph, ciò significa che ora è possibile eseguire query grafiche in tempo reale direttamente sui dati S3, mantenendo informazioni fresche e scalabili senza il sovraccarico di un ETL complesso. Siamo entusiasti di far parte di questa evoluzione, rendendo l’analisi dei grafici tanto fluida quanto i dati stessi.”

Weimo Liu, cofondatore e CEO - PuppyGraph

Missing alt text value

RisingWave

“L’integrazione di RisingWave con Amazon S3 Tables consente alle organizzazioni di usare facilmente le tabelle Apache Iceberg in Amazon S3, migliorando le loro capacità di pipeline di dati di streaming. Che si tratti di inserire dati grezzi, trasformarli in tempo reale o riscriverli i risultati su S3, RisingWave rende facile eseguire il lavoro con le tabelle Iceberg quale naturale estensione del flusso di lavoro. Questa integrazione semplifica la gestione dei dati, riduce la complessità operativa e consente un’interoperabilità fluida per i team che si occupano dell’analisi dello streaming.”

Rayees Pasha, CPO - RisingWave Labs

Missing alt text value

Ryft

«L’integrazione di Ryft con Amazon S3 Tables consente ai team di utilizzare le tabelle Apache Iceberg come una lakehouse completamente autonoma. I clienti ottengono ottimizzazione e governance in base al carico di lavoro, ottimizzazione e compattazione automatizzate del layout dei file, conservazione e ripristino gestiti delle istantanee, conformità automatica per le tabelle Apache Iceberg e piena visibilità sul loro lakehouse, il tutto su un’archiviazione nativa di Iceberg. Insieme, Ryft e S3 Tables offrono query sempre veloci, costi di archiviazione inferiori e operazioni affidabili senza ottimizzazione manuale o manutenzione basata su cron”.

Yossi Reitblat, CEO e cofondatore - Ryft

Missing alt text value

Snowflake

“Siamo felicissimi di portare la magia di Snowflake su Amazon S3 Tables. Grazie a questa collaborazione, i clienti di Snowflake potranno leggere ed elaborare senza problemi i dati archiviati in Tabelle S3 utilizzando le configurazioni Snowflake esistenti, eliminando la necessità di complesse migrazioni o duplicazioni di dati. Combinando le funzionalità di analisi delle prestazioni di livello mondiale di Snowflake con lo storage efficiente delle tabelle Apache Iceberg di Tabelle Amazon S3, le organizzazioni possono facilmente interrogare e analizzare i dati tabulari archiviati in Amazon S3.”

Rithesh Makkena, direttore globale dell’ingegneria delle soluzioni per i partner - Snowflake

Missing alt text value

Starburst

“Siamo entusiasti che Amazon S3 abbia introdotto il supporto integrato per Apache Iceberg con S3 Tables, consentendo l’avanzamento dell’ecosistema Iceberg Open Data Lakehouse. Con i bucket di tabelle S3, non vediamo l’ora di collaborare con AWS per aiutare i nostri clienti congiunti a portare la potenza di un Open Lakehouse, basato su Trino ottimizzato, un motore SQL MPP open source leader, in diversi casi d’uso di analisi e intelligenza artificiale nei dati di Amazon S3.” 

Matt Fuller, Vicepresidente, Prodotti - Starburst

Missing alt text value

StreamNative

“La nostra integrazione con Amazon S3 Tables rende i dati in tempo reale predisposti per l’intelligenza artificiale più aperti e accessibili che mai. L’architettura leaderless di Ursa su S3 riduce già i costi di archiviazione, mentre l’integrazione diretta con Tabelle S3 migliora ulteriormente le prestazioni e l’efficienza. In un mondo basato sull’intelligenza artificiale, la governance dei dati è fondamentale. In StreamNative, ci impegniamo ad aiutare le aziende a ridurre il TCO del 90%, permettendo di creare applicazioni basate sull’IA con dati governati e in tempo reale in modo semplice e conveniente.”

Sijie Guo, CEO e cofondatrice - StreamNative

Missing alt text value

Domande frequenti

    S3 Tables è indicato perché è un modo semplice, performante e conveniente per archiviare dati tabulari in Amazon S3. Tabelle S3 dà la possibilità di organizzare i dati strutturati in tabelle e poi interrogarli utilizzando istruzioni SQL, virtualmente senza configurazione. Inoltre, S3 Tables offre le stesse caratteristiche di durabilità, disponibilità, scalabilità e prestazioni di S3 stesso e ottimizza automaticamente l’archiviazione per massimizzare le prestazioni delle query e minimizzare i costi. Con la classe di archiviazione Intelligent-Tiering, S3 Tables ottimizza automaticamente i costi in base ai modelli di accesso, senza influire su prestazioni o costi operativi.

    Le tabelle S3 offrono transazioni al secondo (TPS) fino a 10 volte superiori rispetto all’archiviazione delle tabelle Iceberg in bucket Amazon S3 generici. Le tabelle S3 eseguono automaticamente la compattazione dei dati sottostanti per ottimizzare continuamente le tabelle per prestazioni ottimali delle query. A seconda del carico di lavoro e dei modelli di query, puoi anche scegliere tra strategie di compattazione avanzate come la compattazione dell’ordinamento e dell’ordine z per ottimizzare ulteriormente le tabelle. La compattazione dell’ordinamento organizza i dati in base a colonne specifiche per migliorare le prestazioni delle query per le operazioni filtrate, mentre la compattazione dell’ordine z ottimizza l’organizzazione dei dati su più dimensioni, rendendola ideale quando è necessario interrogare i dati su più colonne contemporaneamente.

    È possibile iniziare a usare S3 Tables in soli tre passaggi e senza dover creare alcuna infrastruttura all’esterno di S3. Innanzitutto, crea un bucket da tavolo nella console S3. Come parte della creazione del primo bucket di tabelle tramite la console, l'integrazione con i servizi AWS Analytics avviene automaticamente, il che consente a S3 di popolare automaticamente tutti i bucket e le tabelle del tuo account e della tua regione nel catalogo dati AWS Glue. Dopodiché, S3 Tables sarà quindi accessibile ai motori di query AWS come Amazon Athena, EMR e Redshift. Successivamente, puoi fare clic per creare una tabella utilizzando Amazon Athena dalla console S3. Una volta in Athena, puoi iniziare rapidamente a popolare nuove tabelle e a interrogarle.

    In alternativa, puoi accedere a S3 Tables utilizzando l'endpoint di catalogo REST di Iceberg tramite il Catalogo dati AWS Glue, che ti consente di scoprire l'intero patrimonio di dati, comprese tutte le risorse delle tabelle. Puoi anche connetterti direttamente a un singolo endpoint del bucket di tabelle per scoprire tutte le risorse di S3 Tables all'interno di quel bucket. Ciò consente di utilizzare S3 Tables con qualsiasi applicazione o motore di query che supporti la specifica del catalogo REST di Apache Iceberg.