Saltar al contenido principal

Características de Amazon Data Firehose

¿Por qué elegir Amazon Data Firehose?

Amazon Data Firehose ofrece la manera más sencilla de cargar datos de transmisión en almacenes de datos y herramientas de análisis. Data Firehose es un servicio totalmente gestionado que facilita la captura, la transformación y la carga de enormes volúmenes de datos de streaming de cientos de miles de fuentes en Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, tablas Apache Iceberg, Amazon S3 Tables, puntos de enlace HTTP genéricos y proveedores de servicios como Datadog, New Relic, MongoDB y Splunk, que permite análisis e información en tiempo real.

Flujos de Firehose

Abrir todo

Un flujo de Firehose es la entidad subyacente de Firehose. Firehose se utiliza mediante la creación de un flujo de Firehose y el envío de datos a este.

Características principales

Abrir todo

Puede lanzar Amazon Data Firehose y crear una transmisión de entrega para cargar datos en Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, tablas de Apache Iceberg, tablas de Amazon S3, puntos de enlace HTTP, Datadog, New Relic, MongoDB o Splunk con solo unos clics en la consola de administración de AWS. Puede enviar datos al flujo de entrega mediante una llamada a la API de Firehose, o bien con la ejecución del agente Linux que ofrecemos en el origen de datos. Data Firehose carga continuamente los datos en los destinos especificados.

Una vez lanzado, se aumenta o reduce automáticamente el escalado vertical de flujos de Firehose para administrar gigabytes por segundo o más de velocidad de datos de entrada y mantener la latencia de los datos a los niveles que especifique para la transmisión, dentro de los límites. No necesita intervención ni mantenimiento.

Puede especificar un tamaño por lotes o un intervalo por lotes para controlar la rapidez con que los datos se cargan en los destinos. Por ejemplo, puede establecer el intervalo del lote entre cero segundos y 15 minutos. Asimismo, puede especificar si los datos deben comprimirse o no. El servicio admite algoritmos de compresión comunes, entre otros, GZip, Snappy compatible con Hadoop, Zip y Snappy. El agrupamiento por lotes y la compresión de datos antes de cargarlos permite controlar la rapidez con que se reciben nuevos datos en los destinos.

Firehose admite los formatos de datos en columnas, como Apache Parquet y Apache ORC, que están optimizados para el análisis y el almacenamiento rentables mediante el uso de servicios como Amazon Athena, Amazon Redshift Spectrum, Amazon EMR y otras herramientas basadas en Hadoop. Firehose puede convertir el formato de datos de entrada de JSON a formatos Parquet u ORC antes de almacenarlos en Amazon S3 para ahorrar costos de almacenamiento y análisis.

Particione dinámicamente sus datos en streaming antes de la entrega a S3 mediante claves definidas de forma estática o dinámica como “customer_id” o “transaction_id”.  Firehose agrupa los datos según estas claves y realiza la entrega en prefijos de S3 con una clave única, lo que facilita la ejecución de análisis de alto rendimiento y rentables en S3 con Athena, EMR y Redshift Spectrum. Obtenga más información

Puede configurar Amazon Data Firehose para que prepare los datos de streaming antes de cargarlos en los almacenes de datos. Tan solo debe seleccionar una función de AWS Lambda desde la pestaña de configuración de flujo de Amazon Data Firehose en la consola de administración de AWS. Amazon Data Firehose aplicará automáticamente la función a todos los registros de datos de entrada y cargará los datos transformados en los destinos. Amazon Data Firehose proporciona esquemas de Lambda prediseñados para convertir orígenes de datos comunes, como los registros de Apache y del sistema, a formatos JSON y CSV. Puede utilizar estos esquemas prediseñados sin ningún cambio o personalizarlos más, o bien escribir sus propias funciones personalizadas. También puede configurar Amazon Data Firehose para que reintente de forma automática los trabajos con errores y para que cree copias de seguridad de los datos de streaming sin procesar.  Obtenga más información

Firehose lee fácilmente los datos de más de 20 fuentes de datos, incluidos clústeres Amazon MSK y MSK Serverless, Amazon Kinesis Data Streams, Amazon CloudWatch Logs, Amazon SNS, AWS IoT Core, etc. Amazon Data Firehose admite actualmente Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, tablas de Apache Iceberg, Amazon S3 Tables, puntos de enlace HTTP, Datadog, New Relic, MongoDB y Splunk como destinos. Puede especificar el bucket de Amazon S3, la tabla de Amazon Redshift, el dominio de Amazon OpenSearch Service, los puntos de enlace HTTP o el proveedor de servicio en el que deberían cargarse los datos.

Amazon Data Firehose ofrece la opción de que los datos se cifren automáticamente después de cargarlos en el destino. Como parte de la configuración del flujo de Firehose, puede especificar una clave de cifrado de AWS Key Management System (KMS).

Amazon Data Firehose expone varias métricas a través de la consola, así como en Amazon CloudWatch, entre las que se incluyen el volumen de datos enviados, el volumen de datos cargados en los destinos, los límites del flujo de Firehose, los números de registros acelerados y la tasa de éxito de la carga.

Con Amazon Data Firehose, solo paga por el volumen de datos que usted transmite a través del servicio y, si corresponde, por la conversión de formato de datos. También pagará por la entrega y la transferencia de datos a Amazon VPC cuando corresponda. No se requieren tarifas mínimas ni compromisos iniciales. No necesita mano de obra para operar, escalar y mantener la infraestructura o aplicaciones personalizadas a fin de capturar y cargar los datos de streaming.