Saltar al contenido principal

Amazon S3

Amazon S3 Tables

Almacene datos tabulares a escala con tablas de Apache Iceberg completamente administradas en Amazon S3

¿Qué es Tablas de S3?

Tablas de Amazon S3 son tablas de Apache Iceberg completamente administradas que automatizan la carga operativa de la administración de lagos de datos y lake houses. Mediante estrategias avanzadas de compactación y mantenimiento, Tablas de S3 optimiza automáticamente el rendimiento de las consultas a medida que aumentan los volúmenes de datos. Tablas de S3 funciona con cualquier motor compatible con Iceberg, incluidos Apache Spark, Trino, Amazon Athena, Amazon Redshift y otras herramientas de terceros, lo que permite flexibilidad arquitectónica y ofrece la forma más fácil de almacenar datos tabulares a escala.

Beneficios

    Tablas de S3 optimiza continuamente las tablas de Iceberg mediante la compactación, la administración de instantáneas y la eliminación de archivos sin referencia. La replicación automática reduce la latencia de las consultas para los equipos distribuidos, mientras que Intelligent-Tiering reduce los costos de almacenamiento hasta en un 80 %. Como resultado, los equipos de datos pueden centrarse en crear la infraestructura en lugar de administrarla.

    Cuanto más crecen las cargas de trabajo, más importa el mantenimiento y la optimización de las tablas de Iceberg y más difícil es mantenerse al día con ellas. Tablas de S3 mantiene automáticamente el rendimiento de las tablas, por lo que las consultas se mantienen coherentes a medida que los datos crecen en lugar de degradarse debido a ellos. Los datos están respaldados por el almacenamiento más duradero de la nube, diseñado para proporcionar un 99,999999999 % (11 nueves) de durabilidad y un 99,99 % de disponibilidad de forma predeterminada.

    Tablas de S3 se basa en el estándar abierto de Apache Iceberg y garantiza que sus datos nunca estén bloqueados en un solo proveedor o motor de procesamiento. Tablas de S3 expone la API del Catálogo de REST de Iceberg, por lo que funciona con motores compatibles con Iceberg, como Spark, Trino, Flink, Athena, Redshift, Snowflake y otras herramientas de terceros, lo que preserva la inversión en las herramientas existentes y permite una flexibilidad a largo plazo.

    La administración de la gobernanza y la seguridad de las tablas de Iceberg puede ser compleja y fragmentaria. Tablas de S3 es un recurso de AWS de primera clase con control de acceso, cifrado y administración del ciclo de vida integrados a nivel de tabla, lo que elimina la necesidad de administrar las políticas de buckets de S3 para cada tabla y simplifica la gobernanza para entornos de análisis complejos.

    Tablas de S3 ofrece un almacenamiento optimizado para el análisis, con hasta 10 veces más transacciones por segundo en comparación con las tablas de Iceberg almacenadas en buckets de S3 de uso general. Gracias a la compatibilidad con MCP, los agentes de IA y los LLM pueden interactuar con Tablas de S3, lo que posibilita el análisis basado en la IA. Las integraciones nativas con los servicios de análisis de AWS y la compatibilidad con herramientas de terceros a través de la API de REST de Iceberg significan que Tablas de S3 puede impulsar los flujos de trabajo emergentes basados en IA. 

Casos de uso

    Para modernizar los lagos de datos, migre de Parquet, Apache Hive o Hadoop a tablas de Apache Iceberg, lo que reduce la complejidad operativa y crea lagos de datos escalables listos para la IA que admiten cargas de trabajo de IA, ML y análisis avanzadas.

    Más información

    Transmita datos directamente a tablas de Iceberg desde orígenes como sensores de IoT, sistemas de transacciones y registros de aplicaciones mediante los servicios de transmisión de AWS, con una optimización automática en segundo plano que permite consultar los datos de transmisiones prácticamente en tiempo real.

    Más información

    Tablas de S3 ofrece hasta 10 veces más transacciones por segundo en comparación con el almacenamiento de tablas de Iceberg en buckets de uso general, lo que las hace ideales para cargas de trabajo y operaciones de análisis a gran escala que requieren un alto rendimiento.

     

    Consulte los datos almacenados en tablas de Iceberg mediante lenguaje natural a través del protocolo de contexto para modelos (MCP), lo que permite una exploración ad hoc sin conocimientos de SQL. Tablas de S3 admite el acceso simultáneo de varios usuarios y asistentes de IA con una optimización automática que mantiene el rendimiento de las consultas.

    Más información

Vea una demostración

Obtenga información sobre Tablas de Amazon S3, por qué lo creamos y cómo funciona Vea ahora

Socios e integraciones

Daft

“Tablas de Amazon S3 es el complemento perfecto para el soporte de Daft para Apache Iceberg. Al aprovechar sus integraciones con AWS Lake Formation y AWS Glue, pudimos ampliar sin esfuerzo nuestras capacidades de lectura y escritura de Iceberg existentes a S3 Tables y, al mismo tiempo, aprovechar su rendimiento optimizado. Ansiamos la evolución de este nuevo servicio y nos complace ofrecer la mejor compatibilidad de S3 Tables de su clase para el ecosistema de ingeniería de datos y ML/IA de Python.” 

Sammy Sidhu, director ejecutivo y cofundador en Daft

Missing alt text value

Dremio

“Dremio se complace en apoyar la disponibilidad general de Tablas de Amazon S3. Al ser compatibles con la especificación Apache Iceberg REST Catalog (IRC), S3 Tables garantiza una interoperabilidad perfecta con Dremio, lo que permite a los usuarios beneficiarse de un motor SQL de alto rendimiento capaz de consultar las tablas de Apache Iceberg administradas en buckets de tablas S3 optimizados. Esta colaboración refuerza la importancia de los estándares abiertos en el ecosistema de Lakehouse, ya que elimina la complejidad de la integración y acelera la adopción por parte de los clientes. Gracias a la compatibilidad con IRC y Tablas de Amazon S3, las organizaciones obtienen la flexibilidad y las opciones necesarias para crear una arquitectura unificada basada en un lake house en la era de la IA”.

Rahim Bhojani, director de tecnología de Dremio

Missing alt text value

DuckDB Labs

“Tablas de Amazon S3 se alinea perfectamente con la visión de DuckDB de democratizar el análisis de datos mediante formatos de archivo abiertos. La colaboración entre AWS y DuckDB Labs nos permite ampliar aún más el soporte de Iceberg en DuckDB y desarrollar una integración perfecta con S3 Tables. Creemos que la mentalidad de DuckDB y S3 Tables de compartir baterías incluidas se combina en una potente plataforma de análisis que puede gestionar una amplia gama de cargas de trabajo y, al mismo tiempo, mantener una barrera de entrada increíblemente baja.”

Hannes Mühleisen, director ejecutivo en DuckDB Labs

Missing alt text value

HighByte

“Tablas de Amazon S3 es una nueva y potente característica que optimiza la administración, el rendimiento y el almacenamiento de los datos tabulares para las cargas de trabajo de análisis. La integración directa de HighByte Intelligence Hub con Amazon S3 Tables facilita a los fabricantes de todo el mundo la creación de un lago de datos transaccional abierto para sus datos industriales. S3 Tables permite la consulta instantánea de los datos sin procesar de Parquet, lo que facilita a los clientes a enviar información contextualizada desde la periferia a la nube para su uso inmediato sin procesamiento ni transformaciones adicionales. Esto tiene un gran impacto tanto en el rendimiento como en la optimización de costos para nuestros clientes mutuos.”

Aron Semle, director de tecnología en HighByte

Missing alt text value

PuppyGraph

“Amazon S3 ha sido durante mucho tiempo la base de la infraestructura de datos moderna, y el lanzamiento de Tablas de S3 marca un hito importante: acerca a Apache Iceberg a convertirse en el estándar universal para datos e IA. Esta innovación permite a las organizaciones aprovechar los formatos de tablas abiertas de alto rendimiento en S3, lo que permite el análisis de varios motores sin duplicación de datos. Para los clientes de PuppyGraph, esto significa que ahora pueden ejecutar consultas gráficas en tiempo real directamente en sus datos de S3, manteniendo información actualizada y escalable sin la sobrecarga de una ETL compleja. Nos entusiasma ser parte de esta evolución, haciendo que el análisis de gráficos sea tan fluido como los propios datos.”

Weimo Liu, cofundador y director ejecutivo en PuppyGraph

Missing alt text value

RisingWave

“La integración de RisingWave con Tablas de Amazon S3 permite a las organizaciones aprovechar sin problemas las tablas de Apache Iceberg en Amazon S3, lo que mejora sus capacidades de canalización de datos de transmisión. Ya sea que esté ingiriendo datos sin procesar, transformarlos en tiempo real o escribir los resultados en S3, RisingWave facilita el trabajo con las tablas Iceberg como una extensión natural de su flujo de trabajo. Esta integración simplifica la administración de datos, reduce la complejidad operativa y permite una interoperabilidad fluida para los equipos que trabajan con análisis de streaming.”

Rayees Pasha, director de operaciones de RisingWave Labs

Missing alt text value

Ryft

“La integración de Ryft con Tablas de Amazon S3 permite a los equipos utilizar las tablas de Apache Iceberg como un lake house completamente autónomo. Los clientes obtienen una optimización y una gobernanza que tienen en cuenta las cargas de trabajo, la optimización y la compactación automatizadas del diseño de archivos, la retención y la recuperación de instantáneas administradas, el cumplimiento automatizado de las tablas de Apache Iceberg y una visibilidad total de su lake house, todo ello en un almacenamiento nativo de Iceberg. Juntos, Ryft y Tablas de S3 ofrecen consultas rápidas y coherentes, menores costos de almacenamiento y operaciones confiables sin ajustes manuales ni mantenimiento basado en cron”.

Yossi Reitblat, director ejecutivo y cofundador de Ryft

Missing alt text value

Snowflake

“Nos complace llevar la magia de Snowflake a Tablas de Amazon S3. Esta colaboración permite a los clientes de Snowflake leer y procesar sin problemas los datos almacenados en S3 Tables con sus configuraciones de Snowflake existentes, lo que elimina la necesidad de migraciones o duplicaciones de datos complejas. Al combinar las capacidades de análisis de rendimiento de primera clase de Snowflake con el almacenamiento eficiente de tablas Apache Iceberg de Amazon S3 Tables, las organizaciones pueden consultar y analizar fácilmente los datos tabulares almacenados en Amazon S3.”

Rithesh Makkena, director global de ingeniería de soluciones para socios en Snowflake

Missing alt text value

Starburst

“Nos complace ver que Amazon S3 introduce el soporte integrado para Apache Iceberg con Tablas de S3, lo que contribuye al ecosistema Iceberg Open Data Lakehouse. Con los buckets de tablas de S3, esperamos colaborar con AWS para ayudar a nuestros clientes conjuntos a llevar la potencia de un Open Lakehouse, con la tecnología optimizada de Trino, un motor MPP SQL líder de código abierto, a los datos de Amazon S3 en diversos casos de uso de análisis e IA.” 

Matt Fuller, vicepresidente de producto en Starburst

Missing alt text value

StreamNative

“Nuestra integración con Tablas de Amazon S3 hace que los datos en tiempo real preparados para la IA sean más abiertos y accesibles que nunca. La arquitectura líder de Ursa en S3 ya reduce los costos de almacenamiento, y la integración directa con S3 Tables mejora aún más el rendimiento y la eficiencia. En un mundo impulsado por la IA, la gobernanza de datos es crucial. En StreamNative, nos comprometemos a ayudar a las empresas a reducir el coste total de propiedad (TCO) en un 90 % y, al mismo tiempo, a hacer que sea fácil y asequible crear aplicaciones impulsadas por IA con datos gobernados en tiempo real.”

Sijie Guo, director ejecutivo y cofundador en StreamNative

Missing alt text value

Preguntas frecuentes

    Debe usar Tablas de S3 para almacenar datos tabulares en Amazon S3 de forma sencilla, eficaz y rentable. Las tablas de S3 le permiten organizar los datos estructurados en tablas y, a continuación, consultarlos mediante sentencias SQL estándar, prácticamente sin configuración. Además, Tablas de S3 ofrece las mismas características de durabilidad, disponibilidad, escalabilidad y rendimiento que el propio S3, y optimiza automáticamente el almacenamiento para maximizar el rendimiento de las consultas y minimizar los costos. Con la clase de almacenamiento Intelligent-Tiering, Tablas de S3 optimiza automáticamente los costos en función de los patrones de acceso, sin afectar al rendimiento ni sobrecargar las operaciones.

    Tablas de S3 ofrece transacciones por segundo (TPS) hasta 10 veces más altas en comparación con el almacenamiento de tablas de Iceberg en buckets de uso general de Amazon S3. Tablas de S3 compacta automáticamente los datos subyacentes para optimizar continuamente las tablas y lograr un rendimiento óptimo de las consultas. En función de sus patrones de consulta y carga de trabajo, también puede elegir entre estrategias de compactación avanzadas, como la compactación de la clasificación y el orden Z, para optimizar aún más las tablas. La compactación de la clasificación organiza los datos en función de columnas especificadas para mejorar el rendimiento de las consultas en las operaciones filtradas, mientras que la compactación del orden Z optimiza la organización de los datos en varias dimensiones, lo que la hace ideal cuando necesita consultar datos en varias columnas simultáneamente.

    Puede empezar a usar Tablas de S3 en unos pocos pasos sencillos y sin tener que instalar ninguna infraestructura fuera de Amazon S3. En primer lugar, cree un bucket de tablas en la consola de S3. Como parte de la creación de su primer bucket de tablas a través de la consola, la integración con los servicios de AWS Analytics se realiza automáticamente, lo que permite a S3 rellenar automáticamente todos los buckets de tablas y tablas de su cuenta y región en el catálogo de datos de AWS Glue. Después de esto, los motores de consulta de AWS, como Amazon Athena, EMR y Redshift, ahora pueden acceder a S3 Tables. A continuación, puede hacer clic para crear una tabla con Amazon Athena desde la consola de S3. Una vez en Athena, puede empezar rápidamente a rellenar nuevas tablas y a consultarlas.

    Como alternativa, puede acceder a S3 Tables mediante el punto de enlace del catálogo REST de Iceberg a través del catálogo de datos de AWS Glue, lo que le permite descubrir todo su patrimonio de datos, incluidos todos los recursos de tabla. También puede conectarse directamente a un punto de enlace de un bucket de tablas individual para descubrir todos los recursos de S3 Tables dentro de ese bucket. Esto le permite usar S3 Tables con cualquier aplicación o motor de consultas que admita la especificación del catálogo REST de Apache Iceberg.