Blog de Amazon Web Services (AWS)
Replicación de Datos de Mainframe en Tiempo Real a AWS con tcVISION de Treehouse Software
Por Andy Jones, Senior Technical Representative en Treehouse Software,
Joseph Brady, Director of Business Development en Treehouse Software,
y Phil de Valence, Solutions Architect for Mainframe Modernization en AWS
Los clientes que aún tienen datos críticos para el negocio bloqueados en mainframes quieren explotar estos datos con los servicios ágiles de Amazon Web Services (AWS) para fines analíticos, crear nuevos canales de comunicación y desarrollar rápidamente nuevas innovaciones.
Afortunadamente, tcVISION de Treehouse Software replica datos en tiempo real y bidireccionalmente entre mainframes y AWS para permitir estos nuevos casos de uso.
Treehouse Software es un socio AWS Partner Network (APN) Standard Technology que sirve a clientes empresariales de todo el mundo con soluciones para la migración y replicación de datos de mainframe a la nube bidireccionales en tiempo real sin ningún esfuerzo de programación.
En esta publicación, describimos los principales casos de uso del cliente de Treehouse Software, la solución técnica tcVISION en AWS, y compartimos un ejemplo práctico de cómo replicar datos en tiempo real desde DB2 z/OS a Amazon Aurora.
Datos de Mainframe a Casos de Uso de Clientes de AWS
Los almacenes de datos de mainframe a menudo contienen grandes cantidades de datos complejos y críticos en formatos legados propietarios. Estos datos pueden ser difíciles de extraer e inconsistentes con bases de datos modernas, tipos de datos y herramientas de datos.
El software de replicación tcVISION resuelve este problema al replicar datos en bases de datos modernas de AWS en tiempo real y permite los siguientes casos de uso:
Analíticos
Tan pronto como los datos del mainframe se desbloquean y están disponibles dentro de un almacén de datos de AWS, como Amazon Simple Storage Service (Amazon S3), los clientes pueden usar la amplia gama de servicios de analíticos y machines learning para acceder fácilmente a todos los datos relevantes, sin comprometer la seguridad o gobernanza. Los clientes seleccionan los servicios de datos de AWS, desde el catálogo de datos y el procesamiento de datos hasta análisis interactivos, análisis en tiempo real, análisis operativos, dashboards y bodegas de datos.
Innovación
Una vez que los datos de mainframe están en AWS, los clientes innovan creando nuevas funciones con velocidad en la nube. Por ejemplo, algunos optan por crear microservicios con un stack serverless completo a través de AWS Lambda, accediendo a sus datos de mainframe. Otros deciden hacer que los datos de mainframe estén disponibles para nuevos canales, como usuarios móviles a través de Amazon API Gateway o dispositivos de voz como Amazon Alexa. Los datos de mainframe también se pueden mover fácilmente a modelos de machine learning.
Finalmente, los clientes pueden aprovechar la infraestructura global de AWS para implementar aplicaciones con datos clave de mainframe a nivel mundial, entregando rápidamente innovaciones en todo el mundo.
Migración incremental
Al fragmentar una gran migración de mainframe a AWS, algunos clientes tienen que sincronizar los datos entre su mainframe y AWS. La replicación de datos bidireccional en tiempo real permite una migración incremental sin desarrollar manualmente el código de sincronización de datos.
Resumen técnico de tcVISION
tcVISION es un producto de software de replicación de datos que realiza la sincronización en tiempo real de las fuentes de datos de mainframe a los almacenes de datos de AWS. Permite que los datos de mainframe críticos sean consumidos por los servicios de AWS.
Figura 1 –.Descripción general de la arquitectura tcVISION en AWS.
tcVISION admite muchas fuentes de datos de mainframe para escenarios en línea y fuera de línea. Los datos se pueden replicar desde IBM DB2 z/OS, DB2 z/VSE, VSAM, IMS/DB, CA IDMS, CA DATACOM o Software AG ADABAS. tcVISION puede replicar datos en muchos destinos, incluidos Amazon Aurora, Amazon Relational Database Service (Amazon RDS) o Amazon S3. Para obtener más información, consulte la lista completa de fuentes y destinos de tcVISION compatibles
tcVISION tiene componentes de software instalados en el mainframe y en una instancia de Windows o Linux Amazon Elastic Compute Cloud (Amazon EC2)
A menudo, los clientes establecen múltiples entornos, como desarrollo, control de calidad (QA) y producción, cada uno de los cuales se asocia con un LPAR diferente de mainframe que aloja un tcVISION Manager y se comunica con un tcVISION Manager correspondiente instalado en una instancia de Amazon EC2. Estos componentes se comunican a través de TCP/IP o SSL/TLS utilizando VPN o AWS Direct Connect.
tcVISION almacena metadatos en una base de datos relacional, como Amazon RDS. Los componentes de tcVISION Manager son administrados por tcVISION Control Board, que puede instalarse localmente o en una instancia de Amazon EC2. Esto permite a los usuarios de tcVISION crear metadatos, crear y controlar scripts de replicación y controlar la interacción de la base de datos. La arquitectura de producto de tcVISION está diseñada para minimizar la utilización de recursos de mainframe.
Los metadatos de los entornos de origen y destino se adquieren a través de tcVISION Control Board. Las fuentes y los destinos se pueden mapear uno a uno, uno a muchos, muchos a uno y muchos a muchos. Hay inteligencia integrada para comprender los tipos y almacenes de datos de sistemas legados mainframe y sistema de gestión de bases de datos relacionales (RDBMS).
El Control Board facilita el mapeo de los copybooks de mainframe, redefine, diccionarios de datos, catálogos de datos, páginas de códigos, mapeo de tipos de datos y más a través de la interfaz fácil de usar. El Repository Editor permite a los usuarios controlar las transformaciones de datos.
tcVISION Modos de replicación
El proceso de sincronización de tcVISION requiere una carga masiva inicial de la base de datos fuente de mainframe hacia el destino en AWS como Aurora, Amazon RDS o Amazon S3. Después de la carga masiva inicial, la captura de datos de cambio (CDC) de tcVISION se utiliza para mantener los datos de mainframe y la fuente de datos de AWS en sincronización constante.
Todo el proceso está diseñado para tener un impacto mínimo en el mainframe, lo que significa que no hay interrupción de la base de datos de origen durante la carga masiva y una utilización mínima de los recursos del mainframe durante la carga masiva y la replicación continua.
Carga masiva
La carga masiva de tcVISION realiza la carga inicial de la base de datos de destino, utilizando datos de origen de mainframe. Los datos de origen se pueden leer directamente desde el almacén de datos de mainframe o se pueden leer desde una copia de seguridad o descarga de mainframe. La carga masiva proporciona traducción automática de tipos de datos de mainframe, como campos empaquetados EBCDIC.
En general, el mayor rendimiento se logra mediante el uso de la copia de seguridad o la descarga de datos frente a una lectura directa de la base de datos del mainframe. Mover los datos descargados o copia de seguridad a la instancia de tcVISION Amazon EC2 requerida y usar cargadores nativos de bases de datos minimiza el I/O de la red y reduce el tiempo de carga.
Replicación en Tiempo Real
tcVISION CDC permite la sincronización en tiempo real entre el mainframe y las fuentes de datos de AWS, como Amazon RDS. tcVISION utiliza el registro nativo asociado con cada base de datos de mainframe para capturar los cambios de datos en la plataforma de mainframe. Esto incluye adiciones, actualizaciones y eliminaciones de registros de datos específicos.
Para mayor confiabilidad, tcVISION opera sobre una base transaccional ACID, solo aplica transacciones comprometidas y puede reiniciar CDC automáticamente.
Replicación Bidireccional
Cuando los datos necesitan ser replicados desde el mainframe a un origen de datos de AWS y de regreso desde el origen de datos de AWS al mainframe, tcVISION usa CDC en las bases de datos de origen y destino. Tiene capacidades incorporadas para soportar completamente la replicación bidireccional:
- La «prevención de bucle» garantiza que solo se actúen los cambios de datos no realizados por tcVISION.
- La «detección de conflictos» permite a los usuarios predefinir acciones específicas que se tomarán cuando se encuentren conflictos de datos durante la replicación bidireccional. Por ejemplo, se puede especificar una regla de detección de conflictos para cambiar un INSERT a una UPDATE cuando ya existe un registro de base de datos.
Seguridad, Alta Disponibilidad y Escalabilidad
tcVISION proporciona la calidad de servicio requerida por las cargas de trabajo de datos empresariales para seguridad, disponibilidad y escalabilidad.
Desde una perspectiva de seguridad, la autenticación y el control de acceso para tcVISION pueden controlarse mediante LDAP, Active Directory o un producto SAF de mainframe, como RACF, ACF2 o Top Secret. Los datos en tránsito entre los gerentes de tcVISION (mainframe-a-AWS) y el Control Board pueden encriptarse a través de SSL/TLS. Los archivos CDC basados en almacenamiento temporal en bloque pueden residir en forma cifrada en el disco.
Figura 2 – Arquitectura de alta disponibilidad de tcVISION en AWS.
Durante el procesamiento de CDC de tcVISION, se debe mantener una alta disponibilidad en el entorno de AWS. La instancia de Amazon EC2, que contiene tcVISION Manager, es parte de un Grupo de Auto Scaling distribuido a través de Zonas de Disponibilidad (AZ) con mínimo y máximo de una instancia de Amazon EC2
Si falla, se inicia la instancia de reemplazo de Amazon EC2 tcVISION Manager y se comunica su dirección IP al mainframe tcVISION Manager. El mainframe tcVISION Manager inicia la comunicación con el reemplazo de Amazon EC2 tcVISION Manager.
Una vez que se reinicia Amazon EC2 tcVISION Manager, continúa procesando en su próximo punto de reinicio lógico, utilizando una combinación de los archivos LUW y Restart Files. Los archivos LUW contienen transacciones de datos confirmadas que aún no se han aplicado a la base de datos de destino. Los archivos de reinicio contienen un puntero a la última transacción capturada y confirmada y datos CDC no confirmados en cola. Ambos tipos de archivo se almacenan en un repositorio de datos de alta disponibilidad, como Amazon Elastic File System (EFS)
Para las cargas de trabajo de producción, Treehouse Software recomienda activar las bases de datos de metadatos y destino Multi-AZ.
La escalabilidad de tcVISION depende del tipo de proceso de replicación que realice. tcVISION puede ejecutar en paralelo concurrente el procesamiento simultáneo de carga masiva en una sola instancia de Amazon EC2 o en varias instancias, lo que brinda escalabilidad horizontal. Las tablas muy grandes se pueden cargar más rápido dividiendo el proceso en múltiples tareas, ya sea por intervalos arbitrarios o mediante el filtrado de filas. El filtrado de filas puede usar una llave, llave de partición, fecha, etc.
El escalado de tcVISION para el procesamiento de CDC puede lograrse ejecutando múltiples flujos de replicación paralelos. El primer paso es analizar los archivos incluidos en las transacciones lógicas, ya que estos archivos deben procesarse juntos en secuencia.
El proceso CDC de tcVISION garantiza la integridad de cada transacción lógica, y estos archivos deben procesarse juntos. Por ejemplo, los conjuntos de tablas que no participan en transacciones comunes pueden dividirse en tareas paralelas creando múltiples scripts de procesamiento.
La consistencia transaccional se mantiene dentro de una tarea, por lo que es importante que las tablas en tareas separadas no participen en transacciones comunes. Este enfoque utiliza múltiples scripts tcVISION para crear flujos de replicación separados que paralelizan las lecturas en la transformación de datos de origen y las escrituras en la base de datos de destino.
Replicación tcVISION de Mainframe DB2 z/OS a Amazon Aurora
El Panel de control de tcVISION es una interfaz gráfica de usuario (GUI) de Windows que permite a los usuarios configurar el flujo de replicación entre varias plataformas de bases de datos, incluido el mainframe de IBM y AWS. Usando el panel de control y los asistentes integrados, los usuarios pueden definir los metadatos y el mapeo entre el mainframe y la base de datos objetivo en AWS.
La siguiente secuencia de pantallas muestra los pasos necesarios para crear los metadatos y scripts de tcVISION para replicar datos de mainframe DB2 z/OS a Amazon Aurora.
Primero, accedemos al Panel de Control de tcVISION.
Luego iniciamos sesión en Amazon Aurora compatible con MySQL.
A continuación, iniciamos sesión en DB2 z/OS.
Creamos metadatos que son específicos para la entrada (DB2) y la salida (Aurora) y la definición de replicación. En este ejemplo, las tablas de DB2 se asignan a tablas compatibles con Amazon Aurora MySQL.
El asistente de metadatos tcVISION solicita la información requerida para la replicación de la base de datos del mainframe a AWS. Para DB2 z/OS, solicita el subsistema DB2 del mainframe.
tcVISION presenta las tablas contenidas en el catálogo de DB2 z/OS en el mainframe. Seleccionamos los esquemas y las tablas asociadas para la replicación.
Una vez que completamos las pasos requeridos en el asistente tcVISION, la herramienta define automáticamente el mapeo entre el origen y el destino. El Asistente de importación de metadatos de tcVISION crea una asignación predeterminada que maneja los problemas de conversión de tipos de datos, como EBCDIC a ASCII, conversión de Endianness, páginas de códigos, redefine los tipos de datos y más.
Después de crear los metadatos de tcVISION, tcVISION nos permite crear automáticamente el DDL para crear la base de datos de destino en Aurora.
Los scripts de datos de tcVISION se crean a través de asistentes. Los scripts de datos controlan la replicación de datos desde el origen (DB2 z/OS) al destino (Aurora). Los scripts de carga masiva tcVISION son un tipo de script de datos que realiza la carga inicial de la base de datos Aurora.
El script a continuación muestra los datos a los que se accede directamente desde la base de datos de mainframe DB2 z/OS. Otra alternativa que reduce el consumo de MIPS es leer los datos de una copia de imagen de DB2.
Después de la ejecución del script de carga masiva, podemos ver estadísticas de replicación de la carga masiva de DB2 en Aurora.
Para capturar cambios continuos en DB2 en tiempo real, creamos un script de replicación CDC de DB2 z/OS.
La replicación de CDC se inicia desde el Panel de Control de tcVISION. El mainframe se comunica con el administrador de replicación tcVISION basado en Amazon EC2. El tablero de control tcVISION muestra una representación gráfica de la replicación.
La replicación CDC ahora está activa capturando y replicando cambios de datos cada vez que ocurren en el lado de DB2 z/OS. Luego decidimos probarlo haciendo un cambio en la tabla DB2 z/OS.
Este cambio es procesado y replicado por tcVISION. El panel de control de tcVISION muestra las estadísticas que destacan que se realizó una actualización.
Ahora validando en Aurora, notamos que el cambio de DB2 z/OS se ha propagado con éxito a Aurora.
tcVISION en AWS Marketplace
Los clientes pueden iniciar tcVISION en la nube de AWS en minutos y preconfigurado a través de AWS Marketplace. Hay tres productos tcVISION en AWS Marketplace:
- tcVISION Mainframe Batch Integration – Este producto carga datos directamente desde una copia descargada de base de datos, copia de imagen o copia de seguridad. En consecuencia, no requiere una conexión activa a la unidad central. Requiere obtener una licencia por separado de Treehouse Software.
- tcVISION Distributed Database Integration – Este producto permite replicar datos entre una base de datos distribuida de origen y una base de datos distribuida de destino. Incluye una licencia de software y se factura como pago por uso.
- tcVISION Enterprise Change Data Capture Integration – Este producto permite replicar datos de mainframe a objetivos de AWS de forma continua y en tiempo real. Admite muchas de las bases de datos de mainframe de origen o archivos de datos, y muchos de los almacenes de datos de AWS de destino descritos anteriormente. Requiere obtener una licencia por separado de Treehouse Software.
Aprenda más sobre tcVISION
Solicite una demostración en vivo de tcVISION replicando datos de un mainframe a AWS. Simplemente complete el formulario de solicitud de demostración de Treehouse, y un representante se pondrá en contacto para programar una fecha y hora convenientes.
Treehouse Software – APN Partner Spotlight
Treehouse Software es un socio Standard Technology de APN. Proporcionan soluciones para mainframe bidireccional a la nube en tiempo real, sistemas abiertos, migración de datos LUW y replicación.
Contacte a Treehouse Software | Resumen de la Solución | Compre en Marketplace
* ¿Ya trabajó con Treehouse Software? Califique a este socio
* Para revisar un APN Partner, debe ser un cliente de AWS que haya trabajado con ellos directamente en un proyecto.
Revisores técnicos – idioma local
João Aragão Pereira
FSI Solution Architect, Amazon Web Services
Javier Cristancho
Solutions Architect, Amazon Web Services