Arquitectura de datos moderna en AWS
Funcionamiento de la arquitectura de datos moderna
La arquitectura de datos moderna parte del principio de que la adopción de un enfoque único para el análisis con el tiempo conlleva riesgos. No se trata simplemente de integrar un lago de datos con un almacenamiento de datos, sino de integrar un lago de datos, un almacenamiento de datos y almacenes creados para fines específicos, con lo que se consigue una gobernanza unificada y una fácil transferencia de datos. Gracias a una arquitectura de datos moderna en AWS, los clientes pueden crear con rapidez lagos de datos escalables, utilizar una amplia y exhaustiva variedad de servicios de datos personalizados, garantizar el cumplimiento mediante acceso a datos, seguridad y gobernanza unificados, escalar sus sistemas a bajo coste sin poner en riesgo el rendimiento y compartir de manera sencilla datos en toda la organización, de modo que pueden tomar decisiones con velocidad y agilidad a escala.

Por qué necesita una arquitectura de datos moderna
Los volúmenes de datos aumentan a un ritmo sin precedentes, de terabytes a petabytes y a veces a exabytes. Los enfoques tradicionales de análisis de datos en las instalaciones no pueden gestionar estos volúmenes de datos porque no son lo suficientemente escalables y resultan demasiado caros. Varias empresas se encuentran en el proceso de recopilar todos sus datos a partir de diversos silos para agruparlos en un solo lugar, que muchos denominan lago de datos, para realizar análisis y ML directamente sobre esos datos. En otras ocasiones, estas mismas empresas almacenan otros datos en almacenes de datos creados para fines específicos y así poder analizar y obtener rápidamente información a partir de datos estructurados y no estructurados. Este traslado de datos puede ser “desde el interior hacia el exterior”, “desde el exterior hacia el interior”, “alrededor del perímetro” o “uso compartido” porque los datos tienen gravedad.
-
Desde el interior hacia el exterior
-
Desde el exterior hacia el interior
-
Alrededor del perímetro
-
Uso compartido
-
Gravedad de los datos
-
Desde el interior hacia el exterior
-
Traslado de datos desde el interior hacia el exterior
Los clientes almacenan los datos en un lago de datos y luego trasladan una parte de esos datos a un almacén de datos creado para fines específicos en el que se realizan actividades adicionales de machine learning o análisis.
Ejemplo: los datos de secuencias de clics de las aplicaciones web se pueden recopilar directamente en un lago de datos, y una parte de esos datos se puede trasladar a un almacenamiento de datos para la elaboración de informes diarios. Denominamos a este concepto como traslado de datos desde el interior hacia el exterior.
-
Desde el exterior hacia el interior
-
Traslado de datos desde el exterior hacia el interior
Los clientes almacenan los datos en almacenes de datos creados para fines específicos, como un almacenamiento de datos o una base de datos, y trasladan esos datos a un lago de datos para realizar análisis sobre ellos.
Ejemplo: copian en su lago de datos los resultados de las consultas sobre las ventas de productos en una región determinada a partir de un almacenamiento de datos para ejecutar algoritmos de recomendación de productos en un conjunto de datos más amplio mediante ML.
-
Alrededor del perímetro
-
Traslado de datos alrededor del perímetro
Integre sin problemas el lago de datos, el almacenamiento de datos y los almacenes de datos creados para fines específicos.
Ejemplo: pueden copiar en el servicio de búsqueda los datos del catálogo de productos almacenados en su base de datos para facilitar la búsqueda en su catálogo de productos y aliviar las consultas de búsqueda de la base de datos.
-
Uso compartido
-
Traslado de datos de uso compartido
Los clientes utilizan una arquitectura de datos moderna para facilitar la gobernanza y el uso compartido de datos dentro de fronteras de gobernanza lógicas o físicas para crear dominios de datos en consonancia con las líneas de negocio
-
Gravedad de los datos
-
Gravedad de los datos
A medida que los datos en estos lagos de datos y almacenes creados para fines específicos crecen, se hace más difícil trasladar todos estos datos porque los datos tienen gravedad. Es igualmente importante garantizar que los datos puedan llegar fácilmente a donde se necesitan, con los controles adecuados, para permitir el análisis y la obtención de información.
Pilares de la arquitectura de datos moderna
Las organizaciones se encuentran en el proceso de recopilar los datos a partir de varios silos para agruparlos en un solo lugar y realizar actividades de análisis y machine learning sobre esos datos. Para obtener el máximo valor, es preciso aprovechar una arquitectura de datos moderna que permita trasladar los datos entre los lagos y los almacenes de datos creados para fines específicos con facilidad. Esta forma moderna de arquitectura requiere lo siguiente:
-
Lagos de datos escalables
Decenas de miles de clientes ejecutan sus lagos de datos en AWS.
En la actualidad, la configuración y la administración de lagos de datos implican muchas tareas manuales que tardan mucho tiempo. AWS Lake Formation automatiza estas tareas para que pueda crear y proteger el lago de datos, en cuestión de días en lugar de meses. Para el almacenamiento en el lago de datos, Amazon S3 es el mejor lugar para crear un lago de datos gracias a los siguientes beneficios: una durabilidad inigualable de 11 nueves y una disponibilidad del 99,99 %; las mejores capacidades de seguridad, conformidad y auditoría con control de acceso y registro de auditoría de nivel de objeto; la mayor flexibilidad con cinco niveles de almacenamiento; y, el menor costo con precios a partir de menos de 1 USD por TB al mes.
-
Servicios de análisis diseñados para fines específicos
AWS proporciona el portafolio más amplio y más profundo de servicios de análisis personalizados y optimizados para casos de uso de análisis específicos.
Todos estos servicios se han diseñado para ser los mejores de su categoría. Esto implica que nunca se debe elegir entre el rendimiento, la escala o el coste al utilizarlos, pues obtiene los tres sin comprometer ninguno. Por ejemplo, Amazon Redshift es tres veces más rápido y, como mínimo, un 50 % más barato que cualquier otro almacenamiento de datos en la nube. Spark se ejecuta en Amazon EMR 1,7 veces más rápido que Apache Spark 3.0 estándar. Además, puede ejecutar análisis a escala de petabytes a menos de la mitad del coste de las soluciones en las instalaciones tradicionales.
-
Acceso unificado a los datos
A medida que los datos de los lagos de datos y de los almacenes de datos creados para fines específicos crecen, con frecuencia es necesario tener la capacidad de trasladar fácilmente una parte de esos datos de un almacén de datos a otro.
AWS simplifica la combinación, el traslado y la replicación de datos entre varios almacenes de datos y el lago de datos. Por ejemplo, AWS Glue proporciona capacidades de integración completa de datos, lo que facilita el descubrimiento, la preparación y la combinación de datos para el análisis, el aprendizaje automático y el desarrollo de aplicaciones, a la vez que Amazon Redshift puede consultar datos fácilmente en el lago de datos de S3. Ningún otro proveedor de análisis permite trasladar los datos de forma tan sencilla, a escala, a donde más se necesitan.
-
Gobernanza unificada
Uno de los elementos más importantes de la arquitectura de análisis moderna es la capacidad de los clientes de autorizar, administrar y auditar el acceso a los datos.
Esto puede ser complicado, ya que la administración de la seguridad, el control de acceso y los seguimientos de auditoría en todos los almacenes de datos de la organización es compleja, requiere mucho tiempo y es propensa a errores. AWS le brinda la capacidad de gobernanza necesaria para administrar el acceso a todos sus datos de su lago de datos y almacenes de datos personalizados desde un único lugar. AWS Lake Formation le permite definir y administrar de manera centralizada las políticas de seguridad, gobernanza y auditoría, lo cual da lugar a un control de acceso uniforme para el uso compartido de datos en toda la empresa.
-
Rentable y de alto rendimiento
AWS está comprometido con ofrecer el mejor rendimiento al menor coste posible en todos los servicios de análisis. Innovamos constantemente para mejorar el precio y el rendimiento de nuestros servicios.
Además de ofrecer un rendimiento líder en el sector para los servicios de análisis, S3 Intelligent Tiering permite a los clientes ahorrar hasta un 70 % en costes de almacenamiento para los datos almacenados en el lago de datos, a la vez que Amazon EC2 ofrece acceso a una selección líder en el sector de más de 200 tipos de instancias, hasta 100 Gbps de ancho de banda de red y la capacidad de elegir entre instancias de spot, reservadas o a petición.
Más clientes están beneficiándose de una arquitectura de datos moderna en AWS que en cualquier otro sitio
-
Grupo BMW
-
Para acelerar la innovación y democratizar el uso de los datos a escala, el Grupo BMW migró su lago de datos en las instalaciones a uno con tecnología de Amazon S3; BMW ahora procesa TB de datos de telemetría de millones de vehículos diariamente y resuelve los problemas antes de que afecten a los clientes.
-
Nielsen
-
Nielsen, una empresa global de medición y análisis de datos, aumentó drásticamente la cantidad de datos que puede capturar, procesar y presentar a sus clientes todos los días mediante el uso de una moderna tecnología en la nube. Pasó de medir 40 000 hogares diarios a más de 30 millones.
-
Engie
-
ENGIE es una de las principales empresas de servicios públicos de Francia, con 160 000 empleados y 40 unidades de negocio que operan en 70 países. Su lago de datos de casi 100 TB de Common Data Hub utiliza los servicios de AWS para satisfacer las necesidades empresariales en ciencia de datos, marketing y operaciones.
Socios
Descubra cómo nuestros socios ayudan a las organizaciones a crear una arquitectura de datos moderna en AWS.

Cloudera
Ejecutar Cloudera Enterprise en AWS proporciona a los usuarios empresariales y de TI una plataforma de administración de datos que puede actuar como base para el procesamiento y el análisis de datos modernos.
/Informatica_icon_solutionspace.b413aef928d0d5cb73d65ffe147b99059a187b46.png)
Informatica Cloud
Informatica Cloud proporciona integración optimizada para los servicios de datos de AWS con conectividad nativa a más de 100 aplicaciones.

Dataguise
Dataguise es el líder en ejecución segura de negocios, ya que entrega soluciones de seguridad centradas en los datos que detectan y protegen los datos confidenciales de las empresas, sin importar dónde estén ubicados ni quién necesite utilizarlos.

Alluxio Data Orchestration
Alluxio Data Orchestration permite a los clientes aprovechar mejor los servicios clave de AWS, como EMR y S3 para las cargas de trabajo de análisis e IA.
Introducción

AWS Data-Driven Everything
En el programa AWS Data-Driven EVERYTHING (D2E), AWS se asociará con nuestros clientes para moverse más rápido, con mayor precisión y con un alcance mucho más ambicioso para poner en marcha su propio volante de inercia de datos.
Más información »

AWS Data Lab
AWS Data Lab ofrece compromisos de ingeniería conjuntos y acelerados entre los clientes y los recursos técnicos de AWS para generar resultados tangibles que agilicen las iniciativas de modernización de análisis y datos.

Arquitectura de referencia de big data y análisis de AWS
Conozca las prácticas recomendadas de arquitectura para el análisis de datos en la nube, el almacén de datos y la gestión de datos en AWS.