Saltar al contenido principal

¿Qué es la ingesta de datos?

La ingesta de datos es el proceso de recopilar datos de varios orígenes y copiarlos en un sistema de destino para su almacenamiento y análisis. Los sistemas modernos consideran que los datos «fluyen» entre sistemas y dispositivos en diversos formatos y velocidades. Por ejemplo, los datos de los sensores inteligentes se pueden recibir de forma continua como un flujo constante de entradas de sensores, mientras que los datos de ventas de los clientes se pueden recopilar y enviar en lote al final del día. Los diferentes orígenes de datos requieren comprobaciones de validación, preprocesamiento y administración de errores antes de que los datos lleguen a su destino. La ingesta de datos incluye todas las tecnologías y procesos necesarios a fin de recopilar los datos de forma segura para su posterior análisis.

¿Por qué es importante la ingesta de datos?

El proceso de ingesta de datos es el primer paso en cualquier canalización de datos. Garantiza que los datos sin procesar se recopilen, preparen y pongan a disposición de manera adecuada para los procesos posteriores. Estas son las razones por las que la ingesta precisa de datos es esencial.

Compatibilidad con la priorización de datos

Los analistas de negocios y los científicos de datos dan prioridad a los orígenes de datos más críticos y configuran las canalizaciones de ingesta de datos para un procesamiento e integración eficientes. Según las necesidades de la operación, los datos priorizados se transfieren a la limpieza, la deduplicación, la transformación o la propagación. Estos pasos preparatorios son vitales para la eficacia de las operaciones de datos. Un enfoque priorizado mejora la eficiencia empresarial, al tiempo que agiliza el procesamiento de datos.

Eliminación de los silos de datos

Al recopilar datos de varios orígenes y convertirlos en un formato unificado, la ingesta de datos garantiza que las organizaciones puedan lograr una visión consolidada de sus activos de datos. Este proceso ayuda a evitar los silos de datos, lo que hace que la información sea más accesible en todos los departamentos para mejorar la colaboración.

Aceleración gracias a la automatización

Tras crear un sistema de ingesta de datos, los ingenieros de datos pueden configurar varios controles de automatización para acelerar aún más el proceso. Estos procesos se incorporan fácilmente a otras herramientas basadas en datos, como los modelos de IA y machine learning, que se basan en estos datos. Las canalizaciones de datos automatizadas también ayudan a simplificar el proceso general.

Mejora en los análisis

La información relevante debe estar fácilmente disponible para que el análisis de datos sea efectivo. Durante la ingesta de datos, puede combinar varios orígenes o realizar actividades de enriquecimiento de datos. La capa de ingesta de datos dirige los datos a los sistemas de almacenamiento adecuados, como almacenes de datos o data marts especializados, lo que garantiza un acceso rápido y fiable. El acceso bajo demanda a los datos permite el procesamiento y el análisis de datos en tiempo real. Su organización puede utilizar los resultados del análisis de datos para tomar decisiones empresariales más precisas.

¿Cuáles son los tipos de procesos de ingesta de datos?

La ingesta de datos y los enfoques varían según el volumen, la velocidad y el caso de uso de los datos.

Ingesta de datos por lotes

Las herramientas de ingesta por lotes recopilan datos durante un período determinado e ingieren un grupo de varias entradas de datos a la vez. Por lo general, están configurados para recuperar datos a intervalos programados, como al final del día, el fin de semana o el final del mes. Por ejemplo, el software de edición de imágenes en la nube carga automáticamente todas las imágenes editadas en la nube al final del día.

El procesamiento de datos en lotes grandes puede ser un proceso rápido o lento si implica grandes cantidades de datos. Si la transferencia es lenta y hay errores, reiniciar el lote puede resultar caro y complejo. Los ingenieros que utilizan el procesamiento por lotes crean canalizaciones tolerantes a errores que les permiten comenzar desde donde se interrumpió el lote por última vez.

Este enfoque funciona mejor cuando desea analizar datos históricos o cuando el tiempo no es relevante. Para ingerir datos en tiempo real o casi en tiempo real, con frecuencia será preferible uno de los siguientes métodos.

Ingesta de datos de transmisión

Las herramientas de ingesta de datos de transmisión recopilan datos tan pronto como se generan, por ejemplo, cuando se ingieren datos de sensores de IoT que toman lecturas continuas. Si bien la transmisión garantiza el acceso a los datos más recientes, puede consumir muchos recursos. Los ingenieros de datos deben gestionar los errores del sistema o de la red y el retraso de la red, que pueden provocar la pérdida de datos y crear brechas en la secuencia de datos.

Hay dos enfoques para la ingesta de datos de transmisión.

Ingesta basada en pull

La herramienta de ingesta consulta los orígenes y realiza la extracción de datos. Puede hacerlo de forma continua o a intervalos predeterminados.

Ingesta basada en push

El origen de datos envía los datos a la herramienta de ingesta tan pronto como genera nueva información.

Ingesta por microlotes

La ingesta de datos por microlotes divide las secuencias de datos continuas en fragmentos más pequeños y manejables denominados secuencias discretizadas. Este enfoque equilibra las ventajas de la ingesta por lotes y de transmisión. Es ideal para situaciones en las que se desea un procesamiento en tiempo real, pero la transmisión completa consume demasiados recursos. Sin embargo, el procesamiento por microlotes aún introduce cierto retraso en comparación con la ingesta pura de transmisión.

El procesamiento por microlotes es una forma rentable de obtener una ingesta de datos casi en tiempo real sin pagar los costos más altos asociados con la transmisión.

Ingesta basada en eventos

Se trata de una forma especializada de ingesta basada en push. Los sistemas basados en eventos ingieren datos cuando se produce un evento o desencadenante específico, en lugar de hacerlo de forma continua o a intervalos establecidos. Este enfoque se usa comúnmente para aplicaciones como el procesamiento de pedidos, las notificaciones a los clientes y la supervisión del sistema. Este método reduce el movimiento innecesario de datos y optimiza el uso de los recursos porque solo ingiere datos cuando lo necesita. Sin embargo, el funcionamiento eficaz depende de que los desencadenantes de eventos y los mecanismos de gestión de eventos estén bien definidos.

Captura de datos de cambio

Los sistemas de captura de datos de cambio (CDC) son un tipo de ingesta basada en eventos que se utiliza habitualmente para la replicación de bases de datos, el almacenamiento de datos incremental y la sincronización entre sistemas distribuidos. La herramienta de ingesta de datos solo ingiere los cambios realizados en una base de datos en lugar de transferir conjuntos de datos completos. Al monitorear los eventos del registro de transacciones, los CDC identifican las inserciones, actualizaciones y eliminaciones y las propagan a otros sistemas casi en tiempo real. Los CDC minimizan los costos de transferencia de datos y mejoran la eficiencia, pero requieren el soporte del sistema de base de datos subyacente y pueden generar algunos gastos de procesamiento.

¿Cuál es la diferencia entre la ingesta de datos, la integración y el ETL?

Si bien estos conceptos suelen confundirse, tienen distinciones importantes.

Ingesta de datos frente a integración de datos

La integración de datos se refiere a la combinación de diferentes conjuntos de datos en una vista unificada. Es un término amplio que abarca la transferencia de datos de varios sistemas de origen a un único sistema de destino, la fusión de los datos, la eliminación de los datos innecesarios, la eliminación de los duplicados y, a continuación, su análisis para obtener información detallada. Por ejemplo, la integración de los datos del perfil del cliente con los datos de compra de los pedidos podría aportar información sobre las preferencias de pedido de un grupo etario o ubicación demográfica en particular.

La ingesta de datos es el primer paso en cualquier proceso de integración de datos. Sin embargo, la integración de datos implica otras herramientas y tecnologías más allá de la ingesta, como los procesos de extracción, transformación y carga (ETL) y la consulta de datos.

Ingesta de datos frente a ETL y ELT

La extracción, transformación y carga (ETL) es un tipo de arquitectura de varios pasos que mejora la calidad de los datos en varias etapas o saltos. En ETL, los datos se extraen de su origen, las herramientas de análisis los transforman en los formatos deseados y, a continuación, se cargan en un sistema de almacenamiento de datos, como un almacén o un lago de datos.

La extracción, carga y transformación (ELT) es un proceso alternativo que invierte los segmentos de carga y transformación de datos de ETL. Es una arquitectura de salto único, lo que significa que los datos se cargan y se transforman en el sistema de destino.

La ingesta de datos se refiere a las etapas de extracción y carga de los procesos de ETL y ELT. Sin embargo, tanto ETL como ELT hacen más que solo ingerir datos, ya que su procesamiento forma parte de la etapa de transformación.

¿Cuáles son los desafíos de la ingesta de datos?

Estos son algunos desafíos que las organizaciones deben tener en cuenta al ingerir datos.

Escalamiento

Escalar los sistemas de ingesta de datos es un desafío para las organizaciones debido al volumen de datos y a que la velocidad de los datos aumenta con el tiempo.

Escalamiento vertical y horizontal

Las organizaciones utilizan dos estrategias principales de escalamiento. El escalamiento horizontal implica distribuir las cargas de trabajo de ingesta en varios nodos. Requiere un equilibrio de carga y una coordinación eficientes para evitar los cuellos de botella. El escalamiento vertical depende del aumento de la potencia de procesamiento dentro de un solo nodo, lo que puede ser más fácil de diseñar, pero está limitado por la potencia de procesamiento del nodo. Un desafío clave aquí es garantizar que la canalización de ingesta pueda gestionar un volumen de datos cada vez mayor sin provocar demoras ni fallas en el sistema.

Para superar los desafíos de escalamiento, puede usar Amazon Kinesis Data Streams para la ingesta de datos en tiempo real con escalamiento horizontal. Como alternativa, Amazon EMR permite a los usuarios ejecutar y escalar fácilmente Apache Spark, Trino y otras cargas de trabajo de big data.

Arquitecturas sin servidor

Las canalizaciones sin servidor son arquitecturas de ingesta de datos bajo demanda que no requieren la configuración ni el despliegue de instancias. Las arquitecturas sin servidor son las más adecuadas para patrones de ingesta de datos variables o para la ingesta basada en eventos.

Por ejemplo, las canalizaciones de ingesta sin servidor en AWS se pueden crear con Amazon Data Firehose y AWS Lambda.

Seguridad

La seguridad y el cumplimiento son preocupaciones fundamentales durante la ingesta de datos, especialmente cuando se trata de información confidencial. Las organizaciones deben cumplir con las normas de privacidad de datos, que imponen requisitos estrictos sobre la recopilación, la transmisión y el almacenamiento de datos.

Algunas de las prácticas recomendadas para la seguridad de los datos durante la ingestión incluyen las siguientes:

  • Cifrado de datos en tránsito y en reposo
  • Controles de acceso y mecanismos de autenticación
  • Técnicas de enmascaramiento y anonimización de datos para proteger información de identificación personal (PII)

Para ayudar a proteger la seguridad de los datos durante la ingesta en AWS, puede utilizar servicios como los siguientes:

Fiabilidad de la red

Las interrupciones de la red, las fallas de API y la disponibilidad inconsistente de los datos pueden interrumpir el proceso de ingesta de datos. Estos eventos crean desafíos como el daño de los datos. La sobrecarga de datos de cualquier origen puede provocar una posible pérdida de datos o ralentizar temporalmente sistemas como los almacenes de datos. La limitación adaptativa puede ser necesaria para administrar los picos en el flujo de datos. La administración de la contrapresión permite que la herramienta de ingesta de datos gestione los datos entrantes a una velocidad que coincide con su capacidad de procesamiento.

Reintentar o volver a procesar los datos fallidos es otra estrategia de gestión de errores. La herramienta de ingesta de datos envía solicitudes de reenvío al origen cuando identifica datos corruptos o faltantes. Reintentarlo aumenta la precisión, pero puede afectar al rendimiento y la latencia previstos.

Para implementar reintentos automatizados en AWS, puede crear sus propios flujos de trabajo con AWS Step Functions, mientras que Amazon Kinesis ofrece políticas y procesos configurables para administrar el flujo de datos entrantes.

Calidad de los datos

Cuando los datos llegan a la canalización de ingesta de datos desde varios orígenes, no hay garantía de que estén en un formato uniforme aplicable a la organización. Los orígenes de datos sin procesar pueden contener valores faltantes, formatos de datos incorrectos y discordancias de esquema. Esto es especialmente cierto cuando se trabaja con datos no estructurados, ya que la falta de uniformidad agrega capas de interacción y limpieza adicionales.

Las herramientas de ingesta de datos suelen incluir controles de calidad de los datos e implementar métodos para validarlos, limpiarlos y estandarizarlos. La deduplicación automatizada, la aplicación de esquemas y la detección de anomalías impulsada por la IA pueden ayudar a identificar y corregir los errores antes de que se propaguen más en la canalización de datos.

Las herramientas de calidad de datos de AWS incluyen AWS Glue Data Quality para la automatización y las reglas de calidad, y Amazon DataZone para la catalogación y la gobernanza de los datos.

¿Cómo ayudan los marcos de ingesta de datos a tomar mejores decisiones empresariales?

Un acceso más oportuno a datos precisos ayuda a los equipos a detectar tendencias con mayor rapidez, responder a las necesidades de los clientes a medida que evolucionan y ajustar las estrategias en tiempo real. Su organización estará mejor equipada para tomar decisiones basadas en la evidencia, no en presentimientos.

Generación de confianza con canalizaciones de datos seguras y confiables

Los clientes y los reguladores esperan que las empresas manejen los datos de manera responsable. Un proceso de ingesta de datos bien diseñado ayuda a cumplir estas expectativas al garantizar que los datos se puedan recopilar y transitar, y tengan un acceso seguro.

Esto tiene más beneficios además de las mejoras operativas inmediatas que observará. El cumplimiento se vuelve más confiable y demostrar un manejo seguro de los datos en sus almacenes de datos puede generar confianza interna en los equipos y fortalecer la confianza de los clientes.

Optimización del cumplimiento y la presentación de informes en toda la empresa

Un proceso de ingesta de datos fiable ayuda a que su organización cumpla con los requisitos normativos y a que se simplifiquen las auditorías. Cuando los datos de toda su empresa se recopilan de forma coherente y segura, se crea un registro de operaciones claro y rastreable, algo especialmente importante para cumplir con estándares como el Reglamento General de Protección de Datos (GDPR), la Ley de Portabilidad y Responsabilidad de los Seguros Médicos (HIPAA) o el Estándar de Seguridad de Datos del Sector de Tarjetas de Pago (PCI DSS).

La ingesta automatizada de datos reduce el riesgo de errores humanos y garantiza que los datos necesarios se recopilen de manera oportuna. Esto facilita la generación de informes precisos, la respuesta a las solicitudes de los auditores y la demostración de que sus prácticas de datos son transparentes y están controladas.

Innovación más rápida en todos los equipos

Cuando los datos se ingieren de forma fiable y están disponibles rápidamente, los equipos de toda la empresa pueden ser más ágiles. Por ejemplo, los equipos de productos, marketing y operaciones pueden probar hipótesis, medir los resultados en su sistema de gestión de relaciones con los clientes (CRM) e iterar sin esperar a que el departamento de TI prepare los conjuntos de datos. Con las canalizaciones de ingesta automatizadas, estos equipos obtienen acceso de autoservicio a datos nuevos y confiables que pueden acelerar el tiempo de obtención de información.

¿Cómo puede AWS cumplir sus requisitos de ingesta de datos?

AWS proporciona servicios y capacidades para la ingesta de diferentes tipos de datos en las bases de datos en la nube de AWS u otros servicios de análisis. Por ejemplo:

  • Amazon Data Firehose forma parte de la familia de servicios Kinesis que se escala automáticamente para adaptarse al volumen y al rendimiento de la transmisión de datos y no requiere una administración continua.
  • AWS Glue es un servicio ETL sin servidor completamente administrado que clasifica, limpia, transforma y transfiere datos de manera confiable entre diferentes almacenes con simpleza y rentabilidad.
  • AWS Transfer Family es un servicio de transferencia completamente administrado y seguro para mover archivos hacia y desde los servicios de almacenamiento de AWS.
  • Las bases de datos de AWS y AWS Database Migration Service (DMS) proporcionan mecanismos para capturar y transmitir los cambios desde todos los servicios de bases de datos de AWS. Puede usar los CDC nativos de Amazon DynamoDB o Amazon Neptune, lo que le permite reducir la complejidad de sus procesos de integración de datos. Otra opción es usar los CDC en AWS Database Migration Service (DMS), que extrae los cambios del registro de transacciones de la fuente. El DMS es un servicio de alta disponibilidad, con resiliencia para estas tareas de replicación de larga duración. A continuación, sus secuencias de datos pueden transformarse y distribuirse de forma opcional mediante Amazon MSK, Amazon Kinesis o AWS Glue.
  • Amazon Managed Streaming para Apache Kafka (Amazon MSK) es un servicio completamente administrado que facilita la tarea de crear y ejecutar aplicaciones que utilizan Apache Kafka de código abierto para la ingesta de secuencias.

Puede instalar las plataformas de ingesta de datos personalizadas en Amazon EC2 y Amazon EMR, así como crear sus propias capas de almacenamiento y procesamiento de secuencias. De ese modo, puede evitar la fricción del aprovisionamiento de la infraestructura y obtener acceso a varios marcos de almacenamiento y procesamiento de transmisiones.

Para comenzar a utilizar la ingesta de datos en AWS, cree una cuenta gratuita hoy mismo.