- Almacenamiento›
- Amazon S3›
- Amazon S3 Tables
Amazon S3 Tables
Optimizar el rendimiento y el costo de las consultas a medida que su lago de datos se amplía
Almacenamiento de datos tabulares a escala en S3
Amazon S3 Tables ofrece el primer almacén de objetos en la nube con compatibilidad integrada con Apache Iceberg y agiliza el almacenamiento de datos tabulares a escala. La optimización continua de tablas escanea y reescribe automáticamente los datos de la tabla en segundo plano para lograr un rendimiento óptimo de las consultas, que seguirá mejorando con el tiempo. S3 Tables incluye optimizaciones específicas para cargas de trabajo de Iceberg que ofrecen hasta 10 veces más transacciones por segundo en comparación con las tablas de Iceberg almacenadas en buckets de S3 de uso general. Además, con la clase de almacenamiento inteligente por niveles, S3 Tables optimiza automáticamente los costos en función de los patrones de acceso, sin afectar el rendimiento ni sobrecargar las operaciones.
Gracias a la compatibilidad de las tablas de S3 con el estándar Apache Iceberg, los motores de consulta conocidos de AWS y de terceros pueden consultar fácilmente sus datos tabulares. Utilice S3 Tables para almacenar datos tabulares, como las transacciones de compra diarias, los datos de los sensores de streaming o las impresiones de anuncios, como una tabla de Iceberg en S3, y optimice el rendimiento y el costo a medida que sus datos evolucionan mediante el mantenimiento automático de tablas. Para más información, lea la publicación del blog.
Beneficios
Haga crecer su lago de datos sin esfuerzo, desde su primera tabla hasta la escala empresarial, gestionando miles de tablas Iceberg sin preocuparse por los gastos de infraestructura o mantenimiento.
Obtenga un rendimiento de consultas más rápido mediante la optimización continua de tablas, incluida la clasificación avanzada y la compactación por orden z, en comparación con las tablas Iceberg no administradas, y hasta 10 veces más transacciones por segundo en comparación con las tablas Iceberg almacenadas en buckets de S3 de uso general. Utilice la replicación de S3 Tables para reducir la latencia de las consultas en los equipos distribuidos geográficamente.
Automatice las tareas de mantenimiento de tablas, incluidas la compactación, la administración de instantáneas y la eliminación de archivos sin referencia para optimizar continuamente el rendimiento y reducir los costos. Utilice la clase de almacenamiento inteligente por niveles para optimizar aún más los costos de los datos consultados activamente. Obtenga una visibilidad operativa completa con métricas granulares en CloudWatch y registros en CloudTrail para operaciones de almacenamiento, solicitudes y mantenimiento.
Acceda a las capacidades de análisis de Iceberg avanzadas y consulte datos mediante servicios conocidos de AWS, como Amazon Athena, Redshift y EMR mediante la integración de S3 Tables con la arquitectura de almacén de lago de Amazon SageMaker. Además, puede usar aplicaciones de terceros compatibles con Iceberg REST, como Apache Spark, Apache Flink, Trino, DuckDB y PyIceberg, para leer y escribir datos en S3 Tables.
Gestione las tablas como recursos de AWS de primera clase con políticas de recursos de IAM para el control de acceso a nivel de tabla. Use etiquetas para el control de acceso basado en atributos (ABAC) para optimizar la administración de permisos a escala. Proteja los datos con el cifrado de AWS KMS mediante claves administradas por el cliente para mantener el control de su estrategia de cifrado.
Funcionamiento
S3 Tables proporciona almacenamiento en S3 diseñado específicamente para almacenar datos estructurados en el formato Apache Iceberg. Dentro de un bucket de tablas, puede crear tablas como recursos de primera clase directamente en S3. Estas tablas se pueden proteger con permisos a nivel de tabla definidos en políticas basadas en la identidad o en los recursos, y se puede acceder a ellas mediante aplicaciones o herramientas compatibles con el estándar de Apache Iceberg. Al crear una tabla en el bucket de tablas, S3 conserva los metadatos necesarios para que las aplicaciones puedan consultar esos datos. Los buckets de tabla incluyen un punto de enlace del catálogo REST de Iceberg que puede ser utilizado por cualquier motor de consulta compatible con Iceberg para descubrir, acceder y actualizar los metadatos de Iceberg para las tablas de tu bucket de tablas. Esto permite que varios clientes lean y escriban datos en sus tablas de forma segura. Con el tiempo, S3 optimiza automáticamente los datos subyacentes al reescribir o “compactar” los objetos. La compactación optimiza los datos en S3 para mejorar el rendimiento de las consultas. Además, la caducidad de las instantáneas y la eliminación de archivos sin referencia optimizan el costo de almacenamiento a medida que los datos de las tablas envejecen. Para obtener más información, lea la guía del usuario.
Clientes
Genesys
Genesys es líder mundial en la nube en orquestación de experiencias impulsada por inteligencia artificial. A través de capacidades avanzadas de IA, digitales y de administración del personal, Genesys ayuda a más de 8000 organizaciones en más de 100 países a ofrecer experiencias personalizadas y empáticas a los clientes y los empleados, mientras logran una mayor agilidad y mejores resultados empresariales.
“Amazon S3 Tables será una incorporación transformadora para nuestra arquitectura de datos, especialmente con su compatibilidad administrada de Iceberg, que crea de forma eficaz una capa de vista materializada para diversas necesidades de análisis de datos. Esta oferta tiene el potencial de ayudar a Genesys a simplificar los flujos de trabajo de datos complejos mediante la eliminación de capas adicionales de administración de tablas, ya que S3 se encarga de las tareas de mantenimiento clave, como la compactación, la administración de instantáneas y la limpieza de archivos sin referencia de forma automática. La capacidad de leer y escribir tablas de Iceberg directamente desde S3 nos ayudará a aumentar el rendimiento y crear nuevas posibilidades para integrar los datos sin problemas en nuestro ecosistema de análisis. Esta interoperabilidad, combinada con las mejoras de rendimiento, posiciona a S3 Tables como parte fundamental de nuestra estrategia futura para ofrecer información de datos rápida, flexible y fiable.”
Glenn Nethercutt, director de tecnología en Genesys
De hecho
Más personas encuentran trabajo en Indeed que en ningún otro lugar. Indeed es el sitio de empleo n.º 1 del mundo (Comscore, total de visitas, marzo de 2025). Con 635 millones de perfiles de solicitantes de empleo, personas de más de 60 países y 28 idiomas acuden a Indeed para buscar trabajo, publicar currículums e investigar empresas. Más de 3,3 millones de empresas utilizan Indeed para buscar y contratar nuevos empleados. Indeed es una filial de Recruit Holdings, líder mundial en tecnología de recursos humanos y soluciones empresariales que simplifica la contratación y transforma el mundo del trabajo.
“En Indeed, aprovechamos enormes cantidades de datos para entender el mercado laboral y conectar a las personas con las oportunidades adecuadas. Al migrar nuestro lago de datos de 85 petabytes a S3 Tables, optimizaremos nuestra infraestructura de datos, reduciremos los costos y reinvertiremos esos recursos en lo que más importa: centrarnos en nuestra misión de ayudar a las personas a conseguir trabajo.”
Chris Voss, director de ingeniería de software en Indeed
Zeta Global
Zeta Global es la nube de marketing de IA que aprovecha la inteligencia artificial avanzada y los billones de señales de los consumidores para facilitar a los especialistas en marketing la adquisición, el crecimiento y la retención de clientes de manera más eficiente. A través de la plataforma de marketing Zeta, Zeta simplifica el marketing sofisticado al unificar la identidad, la inteligencia y la activación omnicanal en una sola plataforma, impulsada por una de las bases de datos patentados e IA más grandes del sector.
“La plataforma de marketing de IA de Zeta Global se basa en datos masivos, en constante cambio y procesables de inmediato. Al utilizar Amazon S3 Tables como base de nuestra plataforma de almacenamiento en el lago de 10 petabytes (que abarca más de 10 000 tablas Apache Iceberg), hemos reducido la latencia de actualización de los datos en casi un 80 %, lo que ha reducido el tiempo de obtención de información de más de 15 minutos a solo unos pocos. Este nivel de capacidad de respuesta refuerza la capacidad de Zeta para ofrecer optimización de la audiencia, ofertas y mensajes en tiempo real, y refuerza nuestro liderazgo en el marketing impulsado por la IA.”
Bharat Goyal, vicepresidente ejecutivo y jefe de ingeniería de Zeta Global
Pendulum
Pendulum es una plataforma de inteligencia de marca que tiene la cobertura más completa del mundo en contenido de video, audio y texto para identificar de forma proactiva los riesgos y las oportunidades, lo que permite tomar mejores decisiones y supervisar los análisis en toda la empresa.
“En Pendulum Intelligence, analizamos datos de cientos de millones de orígenes y canales sociales. Amazon S3 Tables ha transformado la forma en que administramos nuestro lago de datos, que procesa miles de horas de contenido de audio y video analizado y extrae el contexto de las imágenes y otros medios casi en tiempo real mediante nuestras herramientas de machine learning patentadas. Al eliminar la carga de la administración de tablas, incluida la complementación, las instantáneas y la limpieza de archivos, nuestro equipo puede centrarse en lo que más importa: obtener información procesable a partir de conjuntos de datos masivos. La integración perfecta con nuestro conjunto de análisis (Amazon Athena, AWS Glue y Amazon EMR) ha mejorado considerablemente nuestra capacidad de procesar datos complejos a escala.”
Abdurrahman Elbuni, arquitecto de big data en la nube en Pendulum
SnapLogic
SnapLogic es pionera en la integración impulsada por IA. La plataforma SnapLogic para integración generativa acelera la transformación digital en toda la empresa para diseñar, implementar y administrar agentes de IA y una integración que automatizan las tareas, toman decisiones en tiempo real y se integran sin esfuerzo en los flujos de trabajo existentes.
“Amazon S3 Tables, con compatibilidad integrada de Apache Iceberg e integración de los servicios de análisis de AWS, ayudan a las empresas a optimizar sus costos de análisis de datos y, al mismo tiempo, a transformar la forma en que utilizan los datos empresariales para las iniciativas de análisis, cumplimiento e inteligencia artificial. Cuando se automatizan las complejas tareas de administración de datos y se brindan registros de auditoría completos de los cambios en los datos, los equipos pueden analizar instantáneamente los datos históricos, mantener el cumplimiento normativo, acelerar el conocimiento empresarial y, al mismo tiempo, reducir significativamente los costos de tecnología.”
Dominic Wellington, arquitecto empresarial en SnapLogic
Zus Health
Zus es una plataforma de datos sanitarios compartidos diseñada para acelerar la interoperabilidad de los datos sanitarios al proporcionar datos de pacientes fáciles de utilizar a través de la API, componentes integrados e integraciones de EHR directas.
“Como empresa del sector de la sanidad que procesa cantidades masivas de datos de pacientes que cambian con frecuencia, decidimos invertir en Apache Iceberg, ya que resuelve muchos problemas con Apache Hive relacionados con la partición y la automatización, con el beneficio adicional de una mayor interoperabilidad. Uno de nuestros mayores desafíos con Iceberg ha sido comprender y administrar la optimización de tablas. Por lo tanto, estamos entusiasmados con S3 Tables y las capacidades de optimización administrada. Poder liberar a los desarrolladores de la sobrecarga que supone el mantenimiento de tablas nos permitirá centrarnos más en ofrecer datos de alta calidad e información valiosa a nuestros clientes.”
Sonya Huang, ingeniera de software consultora en Zus Health
Socios e integraciones
Daft
Daft es un motor unificado para la ingeniería de datos, análisis e IA/ML, que expone las interfaces DataFrame de SQL y Python como ciudadanos de primera clase y está escrito en Rust. Daft ofrece una experiencia interactiva local rápida y agradable, a la vez que se adapta sin problemas a cargas de trabajo distribuidas a escala de petabytes.
“Amazon S3 Tables es el complemento perfecto para el soporte de Daft para Apache Iceberg. Al aprovechar sus integraciones con AWS Lake Formation y AWS Glue, pudimos ampliar sin esfuerzo nuestras capacidades de lectura y escritura de Iceberg existentes a S3 Tables y, al mismo tiempo, aprovechar su rendimiento optimizado. Ansiamos la evolución de este nuevo servicio y nos complace ofrecer la mejor compatibilidad de S3 Tables de su clase para el ecosistema de ingeniería de datos y ML/IA de Python.”
Sammy Sidhu, director ejecutivo y cofundador en Daft
Dremio
Dremio es la plataforma inteligente Lakehouse que acelera la IA y el análisis al ofrecer un motor SQL líder en el mercado, un catálogo de datos abierto e interoperable y una plataforma segura, escalable y fácil de usar. Nuestro liderazgo en las comunidades Apache Iceberg, Apache Polaris (en fase de incubación) y Apache Arrow permite a las organizaciones crear arquitecturas tipo lago totalmente abiertas y de alto rendimiento, a la vez que mantienen la flexibilidad y el control, lo que elimina la dependencia de un proveedor.
“Dremio se complace en apoyar la disponibilidad general de Amazon S3 Tables. Al ser compatibles con la especificación Apache Iceberg REST Catalog (IRC), S3 Tables garantiza una interoperabilidad perfecta con Dremio, lo que permite a los usuarios beneficiarse de un motor SQL de alto rendimiento capaz de consultar las tablas de Apache Iceberg administradas en buckets de tablas S3 optimizados. Esta colaboración refuerza la importancia de los estándares abiertos en el ecosistema de Lakehouse, ya que elimina la complejidad de la integración y acelera la adopción por parte de los clientes. Gracias a la compatibilidad con IRC y Amazon S3 Tables, las organizaciones obtienen la flexibilidad y las opciones necesarias para crear una arquitectura unificada basada en un lago en la era de la IA.”
James Rowland-Jones, vicepresidente de producto en Dremio
DuckDB Labs
DuckDB Labs es la empresa fundada por los creadores de DuckDB, una herramienta popular universal de gestión de datos. La empresa emplea a los principales contribuyentes al sistema DuckDB. DuckDB es un software gratuito y de código abierto bajo la licencia del MIT y está gobernado por la Fundación DuckDB, una organización independiente sin fines de lucro. El proyecto DuckDB hace que el procesamiento analítico rápido esté disponible para una amplia audiencia gracias a su facilidad de uso y portabilidad.
Blog de almacenamiento de AWS: Optimización del acceso a los conjuntos de datos tabulares almacenados en Amazon S3 Tables con DuckDB
“Amazon S3 Tables se alinea perfectamente con la visión de DuckDB de democratizar el análisis de datos mediante formatos de archivo abiertos. La colaboración entre AWS y DuckDB Labs nos permite ampliar aún más el soporte de Iceberg en DuckDB y desarrollar una integración perfecta con S3 Tables. Creemos que la mentalidad de DuckDB y S3 Tables de compartir baterías incluidas se combina en una potente plataforma de análisis que puede gestionar una amplia gama de cargas de trabajo y, al mismo tiempo, mantener una barrera de entrada increíblemente baja.”
Hannes Mühleisen, director ejecutivo en DuckDB Labs
HighByte
HighByte es una empresa de software industrial que aborda los desafíos de arquitectura e integración de datos a los que se enfrentan los fabricantes mundiales a medida que se transforman digitalmente. HighByte Intelligence Hub, el software comprobado de Industrial DataOps de la empresa, proporciona datos modelados y listos para usar a los servicios en la nube de AWS mediante una interfaz sin código para acelerar el tiempo de integración y acelerar los análisis.
“Amazon S3 Tables es una nueva y potente característica que optimiza la administración, el rendimiento y el almacenamiento de los datos tabulares para las cargas de trabajo de análisis. La integración directa de HighByte Intelligence Hub con Amazon S3 Tables facilita a los fabricantes de todo el mundo la creación de un lago de datos transaccional abierto para sus datos industriales. S3 Tables permite la consulta instantánea de los datos sin procesar de Parquet, lo que facilita a los clientes a enviar información contextualizada desde la periferia a la nube para su uso inmediato sin procesamiento ni transformaciones adicionales. Esto tiene un gran impacto tanto en el rendimiento como en la optimización de costos para nuestros clientes mutuos.”
Aron Semle, director de tecnología en HighByte
PuppyGraph
PuppyGraph es el primer motor de consulta de gráficos en tiempo real y sin ETL, que permite a los equipos de datos consultar una casa de lago existente como un gráfico en cuestión de minutos, sin mantenimiento o migraciones de alto costo. Se escala a conjuntos de datos del tamaño de un petabyte y ejecuta consultas complejas de varios saltos en segundos, lo que potencia los casos de uso, desde la detección de fraudes hasta la ciberseguridad y la información basada en la inteligencia artificial.
“Amazon S3 ha sido durante mucho tiempo la base de la infraestructura de datos moderna, y el lanzamiento de S3 Tables marca un hito importante: acerca a Apache Iceberg a convertirse en el estándar universal para datos e IA. Esta innovación permite a las organizaciones aprovechar los formatos de tablas abiertas de alto rendimiento en S3, lo que permite el análisis de varios motores sin duplicación de datos. Para los clientes de PuppyGraph, esto significa que ahora pueden ejecutar consultas gráficas en tiempo real directamente en sus datos de S3, manteniendo información actualizada y escalable sin la sobrecarga de una ETL compleja. Nos entusiasma ser parte de esta evolución, haciendo que el análisis de gráficos sea tan fluido como los propios datos.”
Weimo Liu, cofundador y director ejecutivo en PuppyGraph
RisingWave
RisingWave Labs, fundada en 2021 en San Francisco, desarrolla RisingWave, una base de datos de streaming SQL nativa de la nube que simplifica el procesamiento de datos en tiempo real. La tecnología de la empresa combina la compatibilidad de PostgreSQL con una arquitectura de streaming moderna, que se ofrece como una solución de código abierto y como RisingWave Cloud, una plataforma totalmente gestionada.
“La integración de RisingWave con Amazon S3 Tables permite a las organizaciones aprovechar sin problemas las tablas Apache Iceberg en Amazon S3, lo que mejora sus capacidades de canalización de datos de streaming. Ya sea que esté ingiriendo datos sin procesar, transformarlos en tiempo real o escribir los resultados en S3, RisingWave facilita el trabajo con las tablas Iceberg como una extensión natural de su flujo de trabajo. Esta integración simplifica la administración de datos, reduce la complejidad operativa y permite una interoperabilidad fluida para los equipos que trabajan con análisis de streaming.”
Rayees Pasha, director de operaciones en RisingWave Labs
Snowflake
Snowflake hace que la IA empresarial sea fácil, conectada y confiable. Miles de empresas de todo el mundo, incluidas cientos de las más grandes del mundo, utilizan la nube de datos de IA de Snowflake para compartir datos, crear aplicaciones e impulsar sus negocios con IA.
Blog de almacenamiento de AWS: Conecte Snowflake a las tablas S3 mediante el punto de enlace REST de SageMaker Lakehouse Iceberg
“Nos complace llevar la magia de Snowflake a Amazon S3 Tables. Esta colaboración permite a los clientes de Snowflake leer y procesar sin problemas los datos almacenados en S3 Tables con sus configuraciones de Snowflake existentes, lo que elimina la necesidad de migraciones o duplicaciones de datos complejas. Al combinar las capacidades de análisis de rendimiento de primera clase de Snowflake con el almacenamiento eficiente de tablas Apache Iceberg de Amazon S3 Tables, las organizaciones pueden consultar y analizar fácilmente los datos tabulares almacenados en Amazon S3.”
Rithesh Makkena, director global de ingeniería de soluciones para socios en Snowflake
Starburst
Starburst impulsa la arquitectura de datos fundamental que necesitan las aplicaciones de análisis, IA y datos. Utiliza un entorno híbrido de lago de datos impulsado por Apache Iceberg para ofrecer acceso, colaboración y gobernanza a escala.
Blog de almacenamiento de AWS: Cree un lago de datos Apache Iceberg administrado con Starburst y Amazon S3 Tables
Estamos encantados de ver que Amazon S3 introduce el soporte integrado para Apache Iceberg con S3 Tables, lo que contribuye al ecosistema Iceberg Open Data Lakehouse. Con los buckets de tablas de S3, esperamos colaborar con AWS para ayudar a nuestros clientes conjuntos a llevar la potencia de un Open Lakehouse, con la tecnología optimizada de Trino, un motor MPP SQL líder de código abierto, a los datos de Amazon S3 en diversos casos de uso de análisis e IA.”
Matt Fuller, vicepresidente de producto en Starburst
StreamNative
StreamNative es una plataforma de mensajería y transmisión que potencia la inteligencia artificial y el análisis con una ingesta de datos rentable y de alto rendimiento. El motor Ursa de StreamNative permite a las empresas reducir el coste total de propiedad (TCO) en un 90 % gracias a la compatibilidad con Kafka, una arquitectura líder y un almacenamiento nativo propio de Lakehouse, lo que permite que los datos preparados para la IA sean accesibles a gran escala.
Blog de almacenamiento de AWS: Transmisión sin problemas a tablas de Amazon S3 con StreamNative Ursa Engine
“Nuestra integración con Amazon S3 Tables hace que los datos en tiempo real preparados para la IA sean más abiertos y accesibles que nunca. La arquitectura líder de Ursa en S3 ya reduce los costos de almacenamiento, y la integración directa con S3 Tables mejora aún más el rendimiento y la eficiencia. En un mundo impulsado por la IA, la gobernanza de datos es crucial. En StreamNative, nos comprometemos a ayudar a las empresas a reducir el coste total de propiedad (TCO) en un 90 % y, al mismo tiempo, a hacer que sea fácil y asequible crear aplicaciones impulsadas por IA con datos gobernados en tiempo real.”
Sijie Guo, director ejecutivo y cofundador en StreamNative