- Archiviazione›
- Amazon S3›
- Tabelle Amazon S3
Tabelle Amazon S3
Ottimizza le prestazioni e i costi delle query man mano che il tuo data lake si espande
Archivia dati tabulari su larga scala in S3
Tabelle Amazon S3 offre il primo archivio di oggetti cloud con supporto Apache Iceberg integrato e semplifica l’archiviazione di dati tabulari su larga scala. L’ottimizzazione continua delle tabelle scansiona e riscrive automaticamente i relativi dati in background per prestazioni ottimali delle query, che continueranno a migliorare nel tempo. Tabelle S3 include ottimizzazioni specifiche per i carichi di lavoro Iceberg che forniscono transazioni al secondo fino a 10 volte superiori rispetto alle tabelle Iceberg archiviate in bucket S3 generici. Inoltre, con la classe di archiviazione Intelligent-Tiering, Tabelle S3 ottimizza automaticamente i costi in base ai modelli di accesso, senza influire su prestazioni o costi operativi.
Tabelle S3 supporta lo standard Apache Iceberg consentendo ai più diffusi motori di query AWS e di terze parti di interrogare facilmente tuoi dati tabulari. Usa Tabelle S3 per archiviare dati tabulari come transazioni di acquisto giornaliere, dati dei sensori di streaming o impressioni degli annunci come una tabella Iceberg in S3 e ottimizzare prestazioni e costi man mano che i dati si evolvono utilizzando la manutenzione automatica della tabella. Per ulteriori informazioni, leggi il post del blog.
Vantaggi
Fai crescere facilmente il tuo data lake, dalla prima tabella alla scala aziendale, gestendo migliaia di tabelle Iceberg senza preoccuparti dell’infrastruttura o dei costi di manutenzione.
Ottieni prestazioni delle query più veloci grazie all’ottimizzazione continua delle tabelle, inclusi ordinamento e compattazione ordine Z, rispetto a tabelle Iceberg non gestite, oltre a transazioni al secondo fino a 10 volte superiori rispetto alle tabelle Iceberg archiviate in bucket S3 generici. Usa la replica di Tabelle S3 per ridurre la latenza delle query per i team distribuiti in più aree geografiche.
Automatizza le attività di manutenzione delle tabelle, tra cui la compattazione, la gestione delle istantanee e la rimozione di file senza riferimenti per ottimizzare continuamente le prestazioni e ridurre i costi. Utilizza la classe di archiviazione Intelligent-Tiering per ottimizzare ulteriormente i costi sui dati interrogati attivamente. Ottieni una visibilità operativa completa con metriche granulari in CloudWatch e log in CloudTrail per le operazioni di archiviazione, richieste e manutenzione.
Accedi alle funzionalità di analisi avanzate di Iceberg e interroga i dati utilizzando servizi AWS familiari come Amazon Athena, Redshift ed EMR tramite l’integrazione di Tabelle S3 con l’architettura Amazon SageMaker Lakehouse. Inoltre, puoi utilizzare applicazioni di terze parti compatibili con Iceberg REST come Apache Spark, Apache Flink, Trino, DuckDB e PyIceberg per leggere e scrivere dati in Tabelle S3.
Gestisci le tabelle come risorse AWS di prima classe con policy delle risorse IAM per il controllo degli accessi a livello di tabella. Usa i tag per il controllo degli accessi basato sugli attributi (ABAC) per semplificare la gestione delle autorizzazioni su larga scala. Proteggi i dati con la crittografia AWS KMS utilizzando chiavi gestite dal cliente per mantenere il controllo sulla tua strategia di crittografia.
Come funziona
Tabelle S3 fornisce uno spazio S3 dedicato per l’archiviazione di dati strutturati nel formato Apache Iceberg. All’interno di un bucket di tabelle, è possibile creare tabelle come risorse di prima classe direttamente in S3. Queste tabelle possono essere protette con autorizzazioni a livello di tabella definite in policy basate sull’identità o sulle risorse, e sono accessibili da applicazioni o strumenti che supportano lo standard Apache Iceberg. Quando crei una tabella nel tuo bucket di tabelle, S3 mantiene i metadati necessari per fare in modo che le applicazioni possano interrogare i dati. I bucket di tabelle includono un endpoint del catalogo REST di Iceberg che può essere utilizzato da qualsiasi motore di query compatibile con Iceberg per scoprire, accedere a e aggiornare i metadati di Iceberg per le tabelle nel tuo bucket di tabelle. Ciò consente a più client di leggere e scrivere dati nelle tabelle in modo sicuro. Nel tempo, S3 ottimizza automaticamente i dati sottostanti riscrivendo o “compattando” gli oggetti. La compattazione ottimizza i dati su S3 per migliorare le prestazioni delle query. Inoltre, la scadenza delle istantanee e la rimozione dei file senza riferimenti ottimizzano i costi di archiviazione con l’invecchiamento dei dati nelle tabelle. Consulta la Guida per l’utente per ulteriori informazioni.
Clienti
Genesys
Genesys è un leader globale nel cloud nell’Experience Orchestration basata sull’intelligenza artificiale. Grazie a funzionalità avanzate di gestione dell’IA, del digitale e del coinvolgimento della forza lavoro, Genesys aiuta più di 8.000 organizzazioni in oltre 100 paesi a fornire esperienze personalizzate ed empatiche a clienti e dipendenti, beneficiando al contempo di una maggiore agilità e di risultati aziendali migliori.
Tabelle Amazon S3 rappresenterà un’aggiunta trasformativa alla nostra architettura dei dati, in particolare con il supporto gestito di Iceberg, che crea efficacemente un livello di vista materializzata per diverse esigenze di analisi dei dati. Questa offerta ha il potenziale per aiutare Genesys a semplificare i flussi di lavoro di dati complessi eliminando ulteriori livelli di gestione delle tabelle, con S3 che gestisce automaticamente le principali attività di manutenzione come la compattazione, la gestione delle istantanee e la pulizia dei file senza riferimenti. La capacità di leggere e scrivere tabelle Iceberg direttamente da S3 ci aiuterà a migliorare le prestazioni e a creare nuove possibilità per integrare perfettamente i dati nel nostro ecosistema di analisi. Questa interoperabilità, combinata con i miglioramenti delle prestazioni, posiziona Tabelle S3 come parte fondamentale della nostra strategia futura per fornire informazioni sui dati veloci, flessibili e affidabili.”
Glenn Nethercutt, Chief Technology Officer presso Genesys
Indeed
Su Indeed, le persone trovano lavoro più che tramite qualsiasi altro modo. Indeed è il sito di lavoro n. 1 al mondo (Comscore, Total Visits, marzo 2025). Con 635 milioni di profili di candidati, le persone in oltre 60 paesi e in 28 lingue si servono di Indeed per cercare lavoro, pubblicare curricula e fare ricerche sulle aziende. Oltre 3,3 milioni di datori di lavoro utilizzano Indeed per trovare e assumere nuovi dipendenti. Indeed è una controllata di Recruit Holdings, leader globale nella tecnologia delle risorse umane e nelle soluzioni aziendali che semplifica le assunzioni e sta trasformando il mondo del lavoro.
“Noi di In Indeed utilizziamo enormi quantità di dati per comprendere il mercato del lavoro e mettere in contatto le persone con le giuste opportunità. Con la migrazione del nostro data lake da 85 petabyte su Tabelle S3 semplificheremo la nostra infrastruttura di dati, ridurremo i costi e reinvestiremo tali risorse in ciò che conta di più: concentrarci sulla nostra missione di aiutare le persone a trovare lavoro.”
Chris Voss, Director, Software Engineering – Indeed
Zeta Global
Zeta Global è il Marketing Cloud con IA che sfrutta l’intelligenza artificiale avanzata e trilioni di segnali dei consumatori per facilitare e rendere più efficienti l’acquisizione, la crescita e la fidelizzazione dei clienti per i professionisti del marketing. Con la Zeta Marketing Platform, Zeta semplifica il marketing sofisticato unificando identità, intelligenza e attivazione omnicanale in un’unica piattaforma, basata su uno dei più grandi database proprietari del settore e sull’IA.
“La piattaforma di marketing basata sull’IA di Zeta Global si basa su grandi quantità di dati che sono in continua evoluzione e immediatamente utilizzabili. Con Tabelle Amazon S3 alla base del nostro lakehouse da 10 petabyte, che comprende più di 10.000 tabelle Apache Iceberg, abbiamo ridotto quasi dell’80% la latenza di aggiornamento dei dati, accorciando il tempo di acquisizione delle informazioni da più di 15 minuti a pochi minuti. Questo livello di reattività rafforza la capacità di Zeta di fornire ottimizzazione, offerte e messaggistica all’audience in tempo reale, e consolida la nostra leadership nel marketing basato sull’IA.”
Bharat Goyal, Executive Vice President, Head of Engineering - Zeta Global
Pendulum
Pendulum è una piattaforma di Brand Intelligence che offre la copertura più completa al mondo su contenuti video, audio e testuali per identificare in modo proattivo rischi e opportunità, consentendo una migliore analisi del processo decisionale e del monitoraggio in tutta l’azienda.
“Noi di Pendulum Intelligence analizziamo i dati provenienti da centinaia di milioni di canali e fonti social. Tabelle Amazon S3 ha trasformato il modo in cui gestiamo il nostro data lake, che elabora migliaia di ore di contenuti video e audio analizzati estraendo il contesto da immagini e altri contenuti multimediali quasi in tempo reale con i nostri strumenti di machine learning. Eliminando l’onere della gestione delle tabelle, inclusa la compattazione, le istantanee e la pulizia dei file, il nostro team può concentrarsi su ciò che conta di più: ricavare informazioni fruibili da enormi set di dati. La perfetta integrazione con il nostro stack di analisi (Amazon Athena, AWS Glue e Amazon EMR) ha notevolmente migliorato la nostra capacità di elaborare dati complessi su larga scala.”
Abdurrahman Elbuni, Cloud Big Data Architect - Pendulum
SnapLogic
SnapLogic è pioniera nell’integrazione basata sull’IA. La piattaforma SnapLogic per l’integrazione generativa accelera la trasformazione digitale in tutta l’azienda per progettare, implementare e gestire agenti e integrazioni di IA che automatizzano le attività, prendono decisioni in tempo reale e si integrano facilmente nei flussi di lavoro esistenti.
“Tabelle Amazon S3, con supporto Apache Iceberg incorporato e integrazione dei servizi di analisi AWS, aiuta le aziende a ottimizzare i costi di analisi dei dati trasformando il modo in cui utilizzano i dati aziendali per analisi, conformità e iniziative di IA. Automatizzando complesse attività di gestione dei dati e fornendo audit trail completi delle modifiche ai dati, i team possono analizzare istantaneamente i dati storici, mantenere la conformità normativa e accelerare le informazioni aziendali riducendo significativamente i costi tecnologici.”
Dominic Wellington, Enterprise Architect - SnapLogic
Zus Health
Zus è una piattaforma condivisa di dati sanitari progettata per accelerare l’interoperabilità di tali dati fornendo informazioni sui pazienti facili da usare tramite API, componenti incorporati e integrazioni dirette EHR.
“Come azienda sanitaria che gestisce enormi quantità di dati dei pazienti che cambiano frequentemente, abbiamo deciso di investire in Apache Iceberg perché risolve molti punti deboli di Apache Hive relativi al partizionamento e all’automazione, con l’ulteriore vantaggio di una più ampia interoperabilità. Una delle nostre maggiori sfide con Iceberg è stata la comprensione e la gestione dell’ottimizzazione delle tabelle. Ecco perché siamo entusiasti di Tabelle S3 e delle funzionalità di ottimizzazione gestita. La possibilità di ridurre il carico di lavoro degli sviluppatori per la manutenzione delle tabelle ci consentirà di concentrarci maggiormente sulla fornitura di dati di alta qualità e di informazioni preziose ai nostri clienti.”
Sonya Huang, Consulting Software Engineer - Zus Health
Partner e integrazioni
Daft
Daft è un motore unificato per ingegneria dei dati, analisi e ML/IA, che espone le interfacce DataFrame SQL e Python come cittadini di prima classe ed è scritto in Rust. Daft offre un’esperienza interattiva locale rapida e piacevole, scalabile fino a carichi di lavoro distribuiti della scala di petabyte.
“Tabelle Amazon S3 è il complemento perfetto al supporto di Daft per Apache Iceberg. Sfruttando le sue integrazioni con AWS Lake Formation e AWS Glue, siamo stati in grado di estendere facilmente le nostre funzionalità di lettura e scrittura di Iceberg esistenti a Tabelle S3, sfruttando al contempo le sue prestazioni ottimizzate. Attendiamo con impazienza l’evoluzione di questo nuovo servizio e siamo entusiasti di fornire il miglior supporto per Tabelle S3 per l’ecosistema Python Data Engineering e ML/IA.”
Sammy Sidhu, CEO e cofondatore - Daft
Dremio
Dremio è la piattaforma intelligente Lakehouse che accelera l’intelligenza artificiale e l’analisi offrendo un motore SQL leader di mercato, un catalogo di dati aperto e interoperabile, e una piattaforma sicura, scalabile e semplice da usare. La nostra leadership nelle community Apache Iceberg, Apache Polaris (incubating) e Apache Arrow consente alle organizzazioni di creare architetture lakehouse completamente aperte e ad alte prestazioni mantenendo flessibilità e controllo, ed eliminando il vendor lock-in.
“Dremio è lieta di supportare la disponibilità generale di Tabelle Amazon S3. Supportando la specifica del Catalogo REST di Apache Iceberg (IRC), Tabelle S3 garantisce una perfetta interoperabilità con Dremio, consentendo agli utenti di beneficiare di un motore SQL ad alte prestazioni in grado di interrogare le tabelle Apache Iceberg gestite in bucket di tabelle S3 ottimizzati. Questa collaborazione rafforza l’importanza degli standard aperti nell’ecosistema Lakehouse, eliminando la complessità dell’integrazione e accelerando l’adozione da parte dei clienti. Con Tabelle Amazon S3 e il supporto IRC, le organizzazioni ottengono la flessibilità e la scelta necessarie per creare un’architettura lakehouse unificata nell’era dell’IA.”
James Rowland-Jones, Vicepresidente, Prodotti - Dremio
DuckDB Labs
DuckDB Labs è l’azienda fondata dai creatori di DuckDB, un noto strumento universale per la gestione dei dati. L’azienda impiega i principali contributori al sistema DuckDB. DuckDB è un software gratuito e open source con licenza MIT governato da DuckDB Foundation, una fondazione indipendente senza scopo di lucro. Grazie alla sua facilità d’uso e portabilità, il progetto DuckDB permette al pubblico generale di accedere a un’elaborazione analitica rapida.
Blog di AWS Storage: Semplificazione dell’accesso ai set di dati tabulari archiviati in Tabelle Amazon S3 con DuckDB
“Tabelle Amazon S3 si allinea perfettamente alla visione di DuckDB di democratizzare l’analisi dei dati utilizzando formati di file aperti. La collaborazione tra AWS e DuckDB Labs ci consente di estendere ulteriormente il supporto di Iceberg in DuckDB e sviluppare un’integrazione perfetta con Tabelle S3. Riteniamo che la mentalità del “tutto incluso” condivisa di DuckDB e Tabelle S3 crei un potente stack di analisi in grado di gestire un’ampia gamma di carichi di lavoro mantenendo una barriera all’ingresso incredibilmente bassa.”
Hannes Mühleisen, Amministratore delegato - DuckDB Labs
HighByte
HighByte è una società di software industriale che affronta le sfide dell’architettura e dell’integrazione dei dati che i produttori globali sperimentano durante la trasformazione digitale. HighByte Intelligence Hub, il collaudato software Industrial DataOps dell’azienda, fornisce dati modellati e pronti all’uso ai servizi cloud AWS utilizzando un’interfaccia senza codice per accelerare i tempi di integrazione e l’analisi.
“Tabelle Amazon S3 è una nuova potente funzionalità che ottimizza la gestione, le prestazioni e l’archiviazione dei dati tabulari per i carichi di lavoro di analisi. L’integrazione diretta di HighByte Intelligence Hub con Tabelle Amazon S3 consente ai produttori globali di creare facilmente un data lake transazionale aperto per i propri dati industriali. Tabelle S3 consente l’interrogazione istantanea dei dati grezzi di Parquet, permettendo ai clienti di inviare informazioni contestualizzate dall’edge al cloud per un uso immediato che non richiedere ulteriori elaborazioni o trasformazioni. Ciò ha un impatto importante sull’ottimizzazione delle prestazioni e dei costi per i nostri clienti comuni.”
Aron Semle, Responsabile tecnico - HighByte
PuppyGraph
PuppyGraph è il primo motore di interrogazione grafica in tempo reale e zero-ETL che consente ai team di dati di interrogare il lakehouse esistente come grafico in pochi minuti, senza la necessità di costose migrazioni o manutenzioni. Scala fino a set di dati di dimensioni petabyte ed esegue complesse query multi-hop in pochi secondi, potenziando i casi d’uso dal rilevamento delle frodi alla sicurezza informatica e agli approfondimenti basati sull’intelligenza artificiale.
“Amazon S3 è da tempo la base della moderna infrastruttura di dati, e il lancio di Tabelle S3 segna una pietra miliare importante, avvicinando Apache Iceberg a diventare lo standard universale per dati e intelligenza artificiale. Questa innovazione permette alle organizzazioni di sfruttare formati di tabella aperti ad alte prestazioni su S3, consentendo analisi multi-motore senza duplicazione dei dati. Per i clienti di PuppyGraph, ciò significa che ora è possibile eseguire query grafiche in tempo reale direttamente sui dati S3, mantenendo informazioni fresche e scalabili senza il sovraccarico di un ETL complesso. Siamo entusiasti di far parte di questa evoluzione, rendendo l’analisi dei grafici tanto fluida quanto i dati stessi.”
Weimo Liu, cofondatore e CEO - PuppyGraph
RisingWave
RisingWave Labs, fondata nel 2021 a San Francisco, sviluppa RisingWave, un database di streaming SQL nativo per il cloud che semplifica l’elaborazione dei dati in tempo reale. La tecnologia dell’azienda combina la compatibilità di PostgreSQL con la moderna architettura di streaming, offerta sia come soluzione open source che come RisingWave Cloud, una piattaforma completamente gestita.
“L’integrazione di RisingWave con Tabelle Amazon S3 consente alle organizzazioni di usare facilmente le tabelle Apache Iceberg in Amazon S3, migliorando le loro capacità di pipeline di dati di streaming. Che si tratti di inserire dati grezzi, trasformarli in tempo reale o riscriverli i risultati su S3, RisingWave rende facile eseguire il lavoro con le tabelle Iceberg quale naturale estensione del flusso di lavoro. Questa integrazione semplifica la gestione dei dati, riduce la complessità operativa e consente un’interoperabilità fluida per i team che si occupano dell’analisi dello streaming.”
Rayees Pasha, CPO - RisingWave Labs
Snowflake
Snowflake rende l’IA per le aziende semplice, connessa e affidabile. Migliaia di aziende a livello globale, tra cui centinaia delle più grandi al mondo, utilizzano l’AI Data Cloud di Snowflake per condividere dati, creare applicazioni e potenziare il proprio business con l’IA.
Blog di AWS Storage: Collega Snowflake a Tabelle S3 utilizzando l’endpoint REST di SageMaker Lakehouse Iceberg
“Siamo felicissimi di portare la magia di Snowflake su Tabelle Amazon S3. Grazie a questa collaborazione, i clienti di Snowflake potranno leggere ed elaborare senza problemi i dati archiviati in Tabelle S3 utilizzando le configurazioni Snowflake esistenti, eliminando la necessità di complesse migrazioni o duplicazioni di dati. Combinando le funzionalità di analisi delle prestazioni di livello mondiale di Snowflake con lo storage efficiente delle tabelle Apache Iceberg di Tabelle Amazon S3, le organizzazioni possono facilmente interrogare e analizzare i dati tabulari archiviati in Amazon S3.”
Rithesh Makkena, direttore globale dell’ingegneria delle soluzioni per i partner - Snowflake
Starburst
Starburst alimenta l’architettura dei dati di base necessaria per analisi, intelligenza artificiale e applicazioni di dati. Utilizza un ambiente ibrido di data lakehouse basato su Apache Iceberg per fornire accesso, collaborazione e governance su larga scala.
Blog di AWS Storage: Crea un data lake Apache Iceberg gestito utilizzando Starburst e Tabelle Amazon S3
“Siamo entusiasti che Amazon S3 abbia introdotto il supporto integrato per Apache Iceberg con Tabelle S3, consentendo l’avanzamento dell’ecosistema Iceberg Open Data Lakehouse. Con i bucket di tabelle S3, non vediamo l’ora di collaborare con AWS per aiutare i nostri clienti congiunti a portare la potenza di un Open Lakehouse, basato su Trino ottimizzato, un motore SQL MPP open source leader, in diversi casi d’uso di analisi e intelligenza artificiale nei dati di Amazon S3.”
Matt Fuller, Vicepresidente, Prodotti - Starburst
StreamNative
StreamNative è una piattaforma di messaggistica e streaming che potenzia l’IA e l’analisi con un’importazione dei dati conveniente e ad alte prestazioni. Il motore StreamNative Ursa consente alle aziende di ridurre il costo totale di proprietà (TCO) del 90% grazie alla compatibilità con Kafka, un’architettura leaderless e uno storage lakehouse nativo, rendendo i dati pronti per l’intelligenza artificiale accessibili su larga scala.
Blog di AWS Storage: Streaming senza interruzioni su Tabelle Amazon S3 con il motore StreamNative Ursa
“La nostra integrazione con Tabelle Amazon S3 rende i dati in tempo reale pronti per l’intelligenza artificiale più aperti e accessibili che mai. L’architettura leaderless di Ursa su S3 riduce già i costi di archiviazione, mentre l’integrazione diretta con Tabelle S3 migliora ulteriormente le prestazioni e l’efficienza. In un mondo basato sull’intelligenza artificiale, la governance dei dati è fondamentale. In StreamNative, ci impegniamo ad aiutare le aziende a ridurre il TCO del 90%, permettendo di creare applicazioni basate sull’IA con dati governati e in tempo reale in modo semplice e conveniente.”
Sijie Guo, CEO e cofondatrice - StreamNative