Amazon S3 ora supporta la compattazione dei formati Apache Avro e ORC per le tabelle Apache Iceberg
Amazon S3 ha esteso il supporto alla compattazione per includere i formati Apache Avro e ORC per le tabelle Apache Iceberg, a complemento delle funzionalità di formato Parquet esistenti. Questo miglioramento funziona sia sulle tabelle S3 che sui bucket S3 generici utilizzando l'ottimizzazione del catalogo dati AWS Glue.
Sebbene il formato predefinito per le tabelle Iceberg sia Parquet, per carichi di lavoro specifici è possibile scrivere i dati anche nei formati Avro o ORC. Ad esempio, è possibile utilizzare Avro per migliorare le prestazioni di scrittura per l'importazione dei dati e i casi d'uso dello streaming, come le transazioni di acquisto giornaliere, lo streaming dei dati dei sensori o la raccolta di impressioni pubblicitarie. Le tabelle S3 compattano automaticamente i file di piccole dimensioni in file più grandi per ridurre al minimo i dati scansionati, migliorare le prestazioni delle query e ridurre i costi. Per impostazione predefinita, la compattazione converte i file Avro e ORC in formato Parquet per prestazioni di lettura ottimali, ma è possibile specificare il formato di destinazione preferito nelle proprietà della tabella.
Il supporto per la compattazione per i formati Apache Avro e ORC è ora disponibile in tutte le regioni AWS in cui sono accessibili le tabelle S3 o l'ottimizzazione per il catalogo dati AWS Glue. Per saperne di più sulla compattazione delle tabelle S3, consulta la documentazione sulla manutenzione delle tabelle S3. Per l'ottimizzazione dei bucket generici, consulta la documentazione sull'ottimizzazione del catalogo dati AWS Glue.