Publicado en: Aug 31, 2021
Hoy presentamos el particionamiento dinámico en Amazon Kinesis Data Firehose. Con el particionamiento dinámico, puede particionar continuamente los datos de streaming en Kinesis Data Firehose utilizando claves dentro de los datos como “customer_id” o “transaction_id” y entregar los datos agrupados en función de estas claves en los prefijos correspondientes de Amazon Simple Storage Service (Amazon S3), lo que facilita la ejecución de análisis de alto rendimiento y rentables en los datos de streaming en Amazon S3 mediante Amazon Athena, Amazon EMR y Amazon Redshift Spectrum.
La partición de los datos minimiza la cantidad de datos escaneados, optimizando el rendimiento, reduciendo los costos de las consultas de análisis en Amazon S3 y aumentando el acceso pormenorizado a los datos. Tradicionalmente, los clientes utilizan los flujos de entrega de Kinesis Data Firehose para capturar y cargar sus flujos de datos en Amazon S3. Para particionar un conjunto de datos de streaming para el análisis basado en Amazon S3, los clientes tendrían que ejecutar aplicaciones de partición entre los buckets de Amazon S3 antes de poner los datos a disposición del análisis, lo que podría resultar complicado o costoso.
Ahora, con el particionamiento dinámico, Kinesis Data Firehose agrupará continuamente los datos en tránsito mediante claves de datos definidas dinámica o estáticamente y los entregará a prefijos individuales de Amazon S3 por clave. Esto reducirá el tiempo necesario para obtener información en minutos u horas, reduciendo los costos y simplificando las arquitecturas. Junto con las funciones de conversión de formatos Apache Parquet y Apache ORC, esta característica convierte a Kinesis Data Firehose en el mejor lugar para capturar, preparar y cargar datos de streaming listos para el análisis en Amazon S3.
Consulte la guía del usuario de Kinesis Data Firehose para comenzar a utilizar el particionamiento dinámico, o visite la página de precios para obtener más información sobre los precios bajo demanda del particionamiento dinámico. El particionamiento dinámico se puede utilizar en todas las regiones comerciales de AWS en las que está disponible Kinesis Data Firehose.