Soluciones de análisis y resiliencia de Data Lake en AWS

Por Hugo Rozestraten, Arquitecto de Soluciones AWS Brasil y
Carolina Ferreira, Arquitecto de Soluciones AWS Brasil

Uno de los problemas que surgen cuando trabajamos con Data Lake y soluciones analíticas es la resiliencia, ya que el consumo de datos adquiere cada vez más importancia para el negocio y se ve afectado de diversas maneras por la disponibilidad o intermitencia de los datos.

La resiliencia es la capacidad de una carga de trabajo para recuperarse de interrupciones de infraestructura o servicio, adquirir dinámicamente recursos informáticos para satisfacer la demanda y mitigar las interrupciones.

Desde el punto de vista empresarial, la resiliencia está relacionada con los riesgos potenciales que la pérdida de datos, el retraso, la fuga o el compromiso pueden traer. En el sector financiero, uno de los más avanzados en esta materia, el riesgo para la resiliencia se define y gestiona en función de consideraciones empresariales:

Impacto financiero: calculado como pérdida de facturación por cada minuto que una aplicación no está disponible
Respuesta a la normativa: el riesgo potencial de una multa o restricciones comerciales debido al incumplimiento de las normas exigidas por los organismos reguladores;
Oportunidad de negocio: el impacto de la pérdida de clientes debido al incidente de disponibilidad;
Reputación: negocio a largo plazo afectado por la explotación de incidentes por parte de la prensa;
Usuarios afectados: la magnitud del impacto en los clientes debido al incidente;
Pérdida de datos: riesgo de pérdida de información confidencial o información crítica del cliente durante el incidente;

Estos impactos empresariales, cuando se traducen en la arquitectura de aplicaciones de datos, se reflejan en algunas perspectivas:

Durabilidad: Una vez almacenados los datos, si hay algún incidente, ¿existe el riesgo de pérdida de datos?
Disponibilidad: En un incidente, ¿cuánto tiempo durarán los usuarios sin acceso a los datos? ¿Cuánto tiempo se tarda en restablecer el acceso? ¿Cómo se ven afectadas las integraciones? Si tengo un acceso máximo, ¿aún está disponible mi solución?
Latencia: Los usuarios necesitan tener acceso a los datos en el momento adecuado para tomar decisiones. ¿Puede un incidente retrasar la entrega de estos datos?
Seguridad: ¿El acceso a la información está restringido a las personas que pueden acceder a ella? En caso de que se produzca un incidente, ¿podría una persona acceder a los datos sin autenticación ni autorización?
Regulación: ¿Contiene la solución las certificaciones requeridas y se adhiere a los procesos establecidos por los organismos reguladores?
Costo: sobre todo, las soluciones más resistentes tienden a tener un costo más alto porque asumen redundancia y replicación para aumentar la tolerancia a fallos, lo que aumenta considerablemente los componentes de la arquitectura.

Las aplicaciones tienen requisitos de disponibilidad y durabilidad señalados por el objetivo de tiempo de recuperación (RTO), el tiempo de recuperación después de la falla, que refleja la falta de disponibilidad en el tiempo, y el objetivo de punto de recuperación (RPO), que se refiere a los datos perdidos generados justo antes de la falla y que aún no tienen un replicación o copia.

En la siguiente tabla, un ejemplo de la industria financiera de clasificar la criticidad de las aplicaciones y sus respectivos RTO y RPO para diseñar soluciones resilientes:

KPI	Platino o Nivel 1	Oro o Tier 2	Plata o Tier 3	Bronce o Tier 4
RTO	2 horas	< 8 horas	24 horas	Más de 48 horas
RPO	<30 segundos	< 4 horas	24 horas	72 horas
Disponibilidad	99.99%+	99.9%	98%	95%

Se observó que los ambientes en la categoría Platinum tienen RTO y RPO menores en comparación con otras clases. Esto se debe, por lo tanto, en el análisis de negocio, ya sea por impacto financiero, obligaciones regulatorias u otros factores de riesgo, estos entornos generan una gran pérdida si se interrumpen.

Infraestructura da AWS

Para comprender las posibilidades de las arquitecturas resilientes para Data Lake y las soluciones de análisis en AWS, es importante comprender la estructura de las regiones y las zonas de disponibilidad.

Regiones

Una región de AWS es una ubicación física en el mundo donde agrupamos centros de datos. Llamamos Zona de disponibilidad (AZ) a cada grupo lógico de centros de datos dentro de una región. Cada región de AWS consta de varias AZs aisladas y separadas físicamente en un área geográfica, por lo que en la región sa-este-1 (Sao Paulo) tenemos conjuntos separados de centros de datos para una alta disponibilidad.

Cada AZ cuenta con alimentación, refrigeración y seguridad física independientes y está conectada a través de redes redundantes de latencia ultrabaja.

Las aplicaciones de AWS que requieren una alta disponibilidad pueden diseñar sus aplicaciones para que se ejecuten en varias zonas de disponibilidad para lograr una tolerancia a fallos aún mayor dentro de la misma región. Las regiones de infraestructura de AWS cumplen los más altos niveles de seguridad, cumplimiento normativo y protección de datos.

Zonas de disponibilidad

Una zona de disponibilidad (AZ) es uno o más centros de datos distintos con alimentación, red y conectividad redundantes en una región de AWS.

Todas las AZs de una región están interconectadas por redes de alto ancho de banda y baja latencia, como se muestra arriba. La fibra metropolitana dedicada y totalmente redundante se utiliza para ofrecer redes de alto rendimiento y baja latencia.

Todo el tráfico entre las AZs está encriptado y cada zona de área está físicamente separada por una distancia significativa (decenas de kilómetros) de las demás, aunque todas están dentro de un radio de hasta 100 km uno del otro.

Solución analítica

La siguiente solución analítica consta de varios componentes, que tienen como fuente de datos un entorno «local», que es el comienzo de muchos entornos analíticos en AWS.

Desde la ingestión hasta el consumo de datos, tenemos diferentes fuentes de datos, como bases de datos relacionales, datos de streaming y archivos. Estos se almacenan en Amazon S3, transformados por Amazon EMR y AWS Glue , y se consumen utilizando un almacén de datos de Amazon Redshift y un motor de consulta de Amazon Athena. En cuanto al problema de gestión, la gestión del acceso está controlada por AWS Lake Formation y los datos se catalogan mediante el catálogo de datos de AWS Glue.

Ingestión

Para la ingestión de datos de streaming tenemos opciones que pueden capturar continuamente gigabytes de datos por segundo de cientos de miles de fuentes. Algunos ejemplos incluyen secuencias de clics de sitios web, transmisión de eventos de base de datos, transacciones financieras, fuentes de redes sociales, registros de TI y eventos de seguimiento de ubicación.

Amazon Kinesis Data Streams (KDS) es un servicio de transmisión de datos en tiempo real con escalabilidad y resiliencia masivas, es un servicio totalmente gestionado por AWS y se configura el volumen de datos por segundo y la infraestructura de servicios se aprovisiona Transparente, con un alto nivel de utilizando el concepto Multi-AZ (zonas de disponibilidad múltiple).

Amazon Kinesis Data Firehose es la forma más sencilla de cargar datos de transmisión de forma fiable en lagos de datos, almacenes de datos y servicios de análisis. Puede capturar, transformar y entregar datos de transmisión a servicios de Amazon S3, Amazon Redshift y Amazon Elasticsearch Service; endpoints HTTP genéricos y proveedores de servicios como Datadog, Nueva Reliquia, MongoDB y Splunk. Su infraestructura también se aprovisiona de forma transparente, con alta disponibilidad mediante el concepto Multi-AZ (varias zonas de disponibilidad).

Amazon MSK es un servicio totalmente gestionado que facilita la creación y ejecución de aplicaciones que utilizan Apache Kafka para procesar datos de streaming. Apache Kafka es una plataforma de código abierto para crear aplicaciones y canalizaciones de datos de streaming en tiempo real. El servicio también tiene disponibilidad Multi-AZ, donde se configura la replicación para sus temas y se replican en diferentes zonas de disponibilidad, al igual que los agentes de Kafka, que se configuran en 3 zonas de disponibilidad para la conmutación por error automática.

Para la ingestión de datos de bases de datos se utilizan comúnmente tres herramientas, de acuerdo con cada caso de uso:

AWS Data Migration Service : captura de datos de cambio y carga completa (CDC);
AWS Lake Formation BluePrints : carga completa basada en clave y configuración incremental, muy rápida y sencilla mediante componentes de AWS Glue
Sqoop (dentro de Amazon EMR): carga completa e incremental basado en clave;

Servicio de migración de datos de AWS

AWS Database Migration Service (AWS DMS) es un servicio en la nube que facilita la migración de bases de datos relacionales, almacenes de datos, bases de datos NoSQL y otros tipos de almacenamiento de datos. AWS DMS le permite realizar migraciones de carga completa y replicar continuamente los cambios desde mi origen (CDC), lo que permite mantener el destino sincronizado con la fuente de datos.

Puede realizar migraciones homogéneas de una tecnología a sí misma, como de Oracle in situ a Oracle RDS en AWS, o migraciones heterogéneas, de una plataforma a otra, como migrar datos de un servidor SQL Server a MySQL Server. Para el tipo de migración heterogénea, puede utilizar AWS Schema Conversion Tool (AWS SCT) para traducir esquemas de base de datos en una nueva plataforma.

Todas las fuentes y destinos admitidos por AWS DMS se pueden encontrar en la documentación.

Lago Formación Azul

AWS Lake Formation es un servicio que facilita la configuración de un lago de datos seguro. Lake Formation permite recopilar y catalogar los datos almacenados en bases de datos y servicios de almacenamiento de objetos, trasladar datos a un nuevo lago de datos en Amazon S3, limpiar y ordenar datos mediante algoritmos de aprendizaje automático y, por último, la protección en el acceso a datos confidenciales

Lake Formation crea un flujo de trabajo que encapsula una actividad completa de extracción, transformación y carga (ETL) compuesta por varias tareas. Losflujos de trabajo generan rastreadores, trabajos y desencadenadores de AWS Glue para orquestar la carga y actualización de datos. También puede crear flujos de trabajo en AWS Glue. Debido a que Lake Formation permite crear un flujo de trabajo a partir de unblueprint, la creación de esos flujos de trabajo es simple y automatizada.

Sqoop

Apache Sqoop es una herramienta para transferir datos entre bases de datos de Amazon S3, Hadoop, HDFS y RDBMS. Al estar presente en Amazon EMR, el proceso de implementación de Apache Sqoop se puede realizar con unos pocos clics. Sqoop puede escribir resultados en una tabla HCatalog en Amazon S3. Además, en EMR, Sqoop puede ayudarle a mover datos de bases de datos a través de la conexión JDBC a la base de datos, como MariaDB, PostgreSQL, SQL Server, MySQL y Oracle.

Para el almacenamiento de archivos y el almacenamiento en bloques podemos usar las herramientas: Familia de transferencia para SFTP y sincronización de datos.

AWS DataSync

AWS DataSync es un servicio de transferencia de datos en línea que simplifica, automatiza y acelera el movimiento de datos entre los sistemas de almacenamiento locales y los servicios de almacenamiento de AWS, así como entre los propios servicios de AWS. Este servicio automatiza gran parte del flujo de movimiento de datos, como monitoreo, escritura, cifrado, comprobación de integridad de datos, optimización del ancho de banda y recuperación de fallos.

AWS DataSync puede copiar datos entre el sistema de archivos de red (NFS), el bloque de mensajes de servidor (SMB), AWS Snowcone, los depósitos de Amazon Simple Storage Service (Amazon S3) y los archivos almacenados en Amazon Elastic File System (Amazon EFS) o Amazon FSX para Windows File Server.

Transferencia de AWS a SFTP

AWS Transfer proporciona transferencia de archivos administrada directamente a S3 (importación y exportación) y admite el protocolo de transferencia segura de archivos (SFTP), el protocolo de transferencia de archivos sobre SSL (FTPS) y el Protocolo de transferencia de archivos (FTP). Con este servicio, no necesita configurar la infraestructura, incluido el ajuste de escalabilidad y la arquitectura Multi-AZ.

Almacenamiento

Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes del sector.

La estrecha integración de Amazon S3 con herramientas de análisis de gran volumen, la capacidad de trabajar con archivos de cualquier formato, la replicación de datos dentro de la región y el bajo costo lo convierten en la solución ideal para mantener todos los datos sin procesar ingeridos y datos analíticos generados en grandes volúmenes y particionados.

Amazon S3 ofrece funciones de gestión fáciles de usar para que pueda organizar sus datos y configurar controles de acceso detallados para cumplir requisitos específicos, ya sean empresariales, organizativos o de conformidad. Amazon S3 está diseñado para ofrecer una durabilidad del 99,999999999% (11.9 s) y almacena datos para millones de aplicaciones para empresas de todo el mundo.

También con respecto a Amazon S3, aislamos lógicamente los datos para que la administración del acceso sea más fácil, creando separación entre los datos sin procesar, el escenario, los análisis y los datos de entorno aislado.

Los permisos de Amazon S3 son muy granulares y se pueden controlar completamente a través de AWS Lake Formation, que es un servicio que facilita la ingerir, limpiar, catalogar, transformar y proteger sus datos y ponerlos a disposición para su análisis.

Todos los datos de S3 se replican al menos seis (seis) veces, en 3 conjuntos diferentes de centros de datos en la misma región (por ejemplo, São Paulo), de modo que ya disponemos de copias de seguridad totalmente disponibles de todos los datos, que aún se pueden gestionar mediante el control de versiones de todos los objetos. Debido al bajo costo de almacenamiento, no se borran datos sin procesar, pero se trasladan a modalidades de facturación aún más pequeñas, como la clase de almacenamiento Glacier, lo que permite por razones de auditoría o eventual cambio en las transformaciones es posible volver a procesar cualquier dato de Data Lake.

Procesamiento

Amazon EMR es un servicio gestionado con Spark y Hadoop (Hive, Sqoop, Pig, etc.) que permite el procesamiento de datos de bajo costo y utiliza Amazon S3 como almacenamiento permanente.

En Amazon EMR, los clústeres transitorios (clústeres que se apagan automáticamente después de finalizar los trabajos) generalmente reducen la necesidad de tiempo de máquina en un entorno analítico al 5%. Además, con Amazon EMR, solo puede utilizar unas pocas máquinas o escalar a cientos o miles de nodos, de modo que podamos trabajar de forma lineal con cualquier volumen de datos.

Otro punto importante es que para los mismos datos en Amazon S3 podemos probar nuevas versiones de software sin afectar a otras aplicaciones.

Amazon EMR le permite utilizar portátiles (Jupyter o Zeppelin) que facilitan el desarrollo de nuevas transformaciones y scripts.

AWS Lake Formation/Glue Workflow le permite crear una programación de pasos en Amazon EMR utilizando un shell de Python, colocando dependencias y acciones en paralelo o secuencial. Esta misma ubicación se puede utilizar para activar la creación de tablas o la ejecución de procedimientos en Amazon Redshift.

Almacén de datos

Para modelos multidimensionales, Amazon Redshift permite la unión de dos mundos previamente separados, Data Lake y Data Warehouse.

Con Amazon Redshift Spectrum , podemos acceder a los datos de Data Lake en Amazon S3 con un alto rendimiento y se une a las tablas de dimensiones internas en Redshift. Redshift Spectrum simplifica el acceso a los datos ya que un único punto final ODBC/JDBC puede consultar cualquier dato en Data Lake o Redshift.

Redshift tiene instantáneas automáticas, disponibles en cualquier zona de disponibilidad de la región en la que se encuentra y, en cualquier momento, puede utilizar estas instantáneas para crear un clúster restaurado o restaurar tablas individuales.

Exploración de datos

Amazon Athena es un servicio escalable sin servidor que ofrece un motor SQL con Presto directamente a Data Lake.

El bajo costo del servicio junto con el alto rendimiento y la escalabilidad que no requiere configuración, hacen que las consultas ad hoc se ejecuten en cuestión de segundos sin afectar el procesamiento en otros componentes de la arquitectura, como EMR y Redshift.

Puede tener acceso granular y control de uso para grupos de usuarios de Amazon Athena.

Resistencia de la solución

En la siguiente figura tenemos los servicios clave de las soluciones analíticas y cómo se distribuyen, en su mayor parte, automáticamente entre las zonas de disponibilidad de una región.

Para la resiliencia de datos en una región, Amazon S3 crea automáticamente una copia automática de todos los datos en tres zonas de disponibilidad distintas dentro de la región, como Sao Paulo, por ejemplo. De esta forma, todos los datos de Amazon S3 tienen 6 copias que se gestionan automáticamente, sin necesidad de configuración adicional y decenas de kilómetros entre cada centro de datos, lo que garantiza la recuperación incluso en una catástrofe de pérdida en hasta dos zonas de disponibilidad.

El control de versiones es una opción de Amazon S3 y se puede utilizar para conservar, recuperar y restaurar todas las versiones de cada objeto almacenado en un depósito de Amazon S3. Con el control de versiones, puede recuperarse fácilmente de acciones no deseadas del usuario y bloqueos de aplicaciones.

Esta replicación de datos en S3 hace que el procesamiento de Amazon EMR se produzca en cualquiera de las AZs sin tener que anclarlo a una zona de disponibilidad específica. Por función transitoria, este clúster puede subir a una u otra zona de disponibilidad, realizar el procesamiento y apagar, subiendo en la siguiente ejecución en una de las otras AZs.

Amazon Redshift replica todos los datos dentro de un clúster de Data Warehouse cuando se carga y también realiza copias de seguridad continuas de los nuevos datos en S3. Amazon Redshift mantiene al menos tres copias de sus datos (la original, la réplica en nodos informáticos y una copia de seguridad en Amazon S3). La replicación a S3 ya permite restablecer el entorno Redshift en otra zona de disponibilidad de la región en caso de fallo, pero podemos aumentar esta seguridad implementando la replicación de backup en otra región mediante la funcionalidad de replicación entre regiones.

Amazon EMR tiene volúmenes de almacenamiento interno, pero los datos procesados siempre se conservan en Amazon S3, aprovechando la resistencia de este nivel. Al igual que con Redshift, en caso de pérdida de nodos dentro del clúster se restablecen sin pérdida de datos, y en caso de fallo del clúster, en menos de 15 minutos puede tener otro clúster en el aire en otro o en la misma zona de disponibilidad que elija.

AWS DMS se basa en Multi-AZ que tiene una copia síncrona para conmutación por error a otra zona de disponibilidad en caso de falla principal para la continuidad de la replicación de datos.

AWS Glue Managed Services, AWS Lake Formation, Amazon AWS Transfer for SFTP, Amazon Kinesis y Amazon MSK son servicios que están disponibles en 3 AZs, con conmutación por error transparente en caso de pérdida de una zona de disponibilidad.

Recuperación de falhas

Si consideramos un entorno dentro de una región, los componentes de la arquitectura tienen la resiliencia de cada servicio. Por ejemplo, un error en la recuperación de un nodo de clúster de Redshift es instantánea porque los datos ya están replicados en otro nodo y, si el clúster falla, toda la recuperación es de Amazon S3. La recuperación también se puede hacer desde una tabla si ha habido algún error de programación humana o lógica. De forma predeterminada, las instantáneas de Redshift se producen cada 5 GB de datos u 8 horas, pero se pueden programar para que se produzcan con una frecuencia máxima de 1 hora.

La arquitectura en su conjunto tiene la capacidad de resistencia para completar el fallo de una zona de disponibilidad.

Los datos de Amazon S3 se replican 6 veces y son la base de datos de Amazon Athena y Amazon EMR, por lo que su alta disponibilidad y durabilidad ofrecen a Athena y EMR un RPO bastante bajo. La copia de seguridad mediante instantánea de Redshift también se encuentra en Amazon S3.

Dentro de una región, considerando la falla de una zona de disponibilidad completa (conjunto de centros de datos):

KPI	Dados no Amazon S3	AWS Glue catálogo	Amazon Athena	Amazon Redshift	Amazon EMR
RTO	0	0	0	<15 minutos	<15 minutos
RPO	0	0	0 (datos s3)	0 (datos s3) < 2 horas ou 5G (datos internos)	0 (datos s3) (datos internos transientes)
Disponibilidade projetada	99.99%	99.99%	99.95%	99.95%	99.95%
Durabilidade projetada	99.999999999%
Categoria	Platino	Platino	Oro	Oro	Oro

Para la replicación entre regiones, Amazon S3 ahora está disponible con RTO y RPO casi cero. Los datos de catálogo de pegamento también se pueden replicar en una región secundaria, al igual que las instantáneas de Redshift. En este caso, Athena y Glue estarán disponibles como datos de S3, mientras que Amazon EMR estará disponible en menos de 15 minutos, mientras que Redshift se restaura desde una instantánea transversal de región en minutos con RPO de aproximadamente 2 horas de acuerdo con el programa de instantáneas.

Resiliencia multiregión

Para la continuidad del negocio después de una falla de región completa, podemos habilitar la replicación de datos entre regiones (CRR) de Amazon S3, que copia automáticamente los archivos escritos en la segunda región, por ejemplo, desde São Paulo a una región de Norteamérica.

La replicación de datos de Amazon S3 permite la copia automática y asincrónica de objetos de depósito. Los depósitos configurados para la replicación de objetos pueden pertenecer a la misma cuenta de AWS o cuentas diferentes. El objeto se puede replicar en un solo depósito de destino o en varios rangos de destino. Los depósitos de destino pueden estar en diferentes regiones de AWS o en la misma región que el depósito de origen.

Esta copia a otra región permite una recuperación casi cero en el tiempo (RTO=0) y con una diferencia de dígitos de segundos (RPO <10 segundos) incluso si falla una región completa.

Amazon Redshift también se puede configurar para copiar instantáneas automáticamente en otra región de AWS, especificar la región de AWS de destino en la que copiar instantáneas. Para las instantáneas automatizadas, también puede especificar el período de retención para mantenerlas en la región de AWS de destino. Una vez copiada una instantánea automatizada en la región de AWS de destino y alcanza el período de tiempo de retención allí, se elimina de la región de AWS de destino.

Para alcanzar los niveles más altos de disponibilidad, además de los servicios de replicación de datos entre regiones, se utiliza en gran medida la automatización de la infraestructura como código con AWS CloudFormation . Puede crear la misma infraestructura de una región a otra, lo que permite consistencia y consistencia en las configuraciones y tamaños de cada servicio, como Redshift y EMR.

Para crear un backend de espejo en otra región a partir de una plantilla de Clouformation con EMR y Redshift tarda de 10 a 15 minutos, si no hay tales componentes, el tiempo es inferior a 5 minutos.

Amazon Route 53, el servicio DNS global, se puede utilizar para señalar nombres globales, como la conmutación por error entre regiones, a las API en función de la disponibilidad o la latencia.

Amazon Redshift puede aumentar la resistencia a través de una arquitectura de varios clústeres mediante Route 53 y carga duplicada en paralelo.

Utilizando una técnica de carga dual y Route 53 para acceso DNS, puede crear un entorno Redshift activo-activo, reduciendo RPO y RTO a casi cero en caso de que se produzca un error de AZ completo.

La recuperación de AZ fallida se realiza a partir de una instantánea y aplicar las cargas de las dos últimas horas, recordando que los datos en Redshift generalmente se cargan y se mantienen en S3 y están completamente disponibles para una nueva carga.

Resumen

La resiliencia de Amazon S3 se basa en un entorno con una durabilidad muy alta 99,999999999%, disponibilidad del 99,99% y RPO y RTO casi cero para los datos de Amazon S3 y, en consecuencia, para las aplicaciones que lo consumen.

El almacenamiento que utiliza Amazon Redshift sirve de forma nativa a la mayoría de los entornos analíticos, pero cuando se requiere un RTO y un RPO muy bajos, puede trabajar con entornos activo-activos de doble carga. Sin embargo, referimos estos entornos solo a cargas de trabajo muy críticas y datos que realmente impactan en el negocio en caso de pérdida o tiempo de recuperación de 15 minutos.

Con un entorno de continuidad del negocio en mente, la copia automatizada de datos multiregión permite la recuperación completa del entorno con RTO de segundos.

Este artículo fue traducido del Blog de AWS en Portugués

Sobre os autores

Carolina Ferreira es Arquitecta de Soluciones en AWS para clientes de varios segmentos, con un área detallada en Analytics.

Hugo Rozestraten es Especialista en Arquitectos de Soluciones analíticas de AWS y trabaja con clientes latinoamericanos.

Referencias:

https://d1.awsstatic.com/Industries/Financial%20Services/Overview/Resilient%20Applications%20on%20AWS%20for%20Financial%20Services.pdf

https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/wellarchitected-reliability-pillar.pdf#s-99.99-scenario

https://aws.amazon.com/blogs/big-data/building-multi-az-or-multi-region-amazon-redshift-clusters/

Blog de Amazon Web Services (AWS)