Blog de Amazon Web Services (AWS)
Análisis de Big Data para detección de fraudes usando la Región de AWS México
Por Aridai Solís y Servio Reyes, arquitectos de soluciones en AWS.
En este blog presentaremos cómo implementar una arquitectura de big data mediante un lago de datos para la detección de fraudes en transacciones bancarias en México. Esta solución cumple con las regulaciones establecidas por la Comisión Nacional Bancaria y de Valores (CNBV), incluyendo la Ley de Instituciones de Crédito, Ley del Mercado de Valores, y Ley para Regular las Instituciones de Tecnología Financiera.
AWS anunció el 26 de febrero del 2024 el lanzamiento de una nueva región de centros de datos en México, programada para inicios de 2025. Esta infraestructura permitirá a los clientes acceder a los servicios de AWS con menor latencia para usuarios locales y la posibilidad de almacenar datos dentro del territorio mexicano.
Las organizaciones podrán aprovechar las capacidades de la nueva región de AWS en México para almacenar y procesar datos de manera segura y escalable, permitiéndoles alcanzar los siguientes objetivos estratégicos:
- Cumplimiento de requisitos de residencia de datos en territorio mexicano
- Centralización de datos de múltiples orígenes
- Procesamiento ágil de datos con cómputo en paralelo
- Implementación de modelos de machine learning (ML) de baja latencia para detección de fraudes
- Alta disponibilidad y durabilidad de datos
- Plataforma resiliente y segura
- Gobernanza de datos en múltiples ambientes (data mesh)
En este blog proponemos una arquitectura basada en los servicios que estarán disponibles durante el primer año de operación de la región AWS México. El diseño se centra en la implementación de un lago de datos (data lake) que permite gestionar diversas fuentes de información.
Lago de Datos (Data Lake)
El lago de datos propuesto implementa un flujo completo que abarca la recolección, transformación, análisis, visualización y explotación de datos.
1. Como primer paso para la construcción del lago de datos, es fundamental identificar las fuentes de información y los ambientes donde residen. Este análisis inicial permitirá determinar la estrategia óptima de centralización y definir los mecanismos de ingesta más apropiados según la velocidad requerida para el procesamiento de datos.
2. Recolección de datos:
a. Para datos existentes en AWS, se pueden implementar dos aproximaciones: Compartir información mediante acceso entre cuentas para evitar duplicidad, y establecer conexiones federadas para acceso directo.
b. Para la replicación entre bases de datos en diferentes regiones, AWS Database Migration Service (AWS DMS) permite la transferencia de datos casi en tiempo real. Este servicio implementa Change Data Capture (CDC) para gestionar únicamente los cambios incrementales, optimizando así el rendimiento del proceso de replicación.
c. En el caso de sistemas de archivos, AWS DataSync ofrece una solución resiliente y segura que automatiza y acelera la transferencia de datos entre infraestructura local y servicios de almacenamiento AWS. Este servicio facilita la copia de información entre recursos compartidos, sistemas de archivos distribuidos y servicios de almacenamiento de objetos como Amazon S3.
3. La centralización de esquemas y metadatos se realiza mediante AWS Glue Data Catalog, que ofrece dos métodos de implementación: la configuración manual o el descubrimiento automatizado utilizando AWS Glue Data Crawler. Esta última opción facilita significativamente la administración y actualización continua del catálogo de datos.
4. Para gestionar la seguridad, AWS Lake Formation permite crear y administrar definiciones de acceso granular. Este servicio facilita el control preciso de permisos, permitiendo especificar qué entidades pueden acceder a los datos a diferentes niveles: origen, tabla, fila e incluso celda. Esta capacidad garantiza un control robusto y flexible de la seguridad de los datos.
5. Transformación de datos:
a. El proceso de ingesta centraliza los datos provenientes de múltiples orígenes en uno o varios buckets de Amazon S3. Para optimizar los costos de almacenamiento, se recomienda implementar políticas de ciclo de vida que gestionen automáticamente los objetos almacenados según su antigüedad y frecuencia de acceso.
b. Para el procesamiento de datos en tiempo real (streaming), AWS ofrece múltiples soluciones que permiten la ingesta y transformación de datos: un Sink de Apache Kafka, AWS Glue Streaming ETL, Amazon Kinesis Data Streams, o Amazon Kinesis Data Firehose. Cada una de estas opciones facilita la agregación y transformación de datos en tiempo real según los requerimientos específicos.
c. En cuanto a datos transaccionales que requieren propiedades ACID (Atomicity, Consistency, Isolation, and Durability), se sugiere enviar los datos a bases de datos relacionales (como podrían ser MySQL, SQL Server, PostgreSQL, etc.) o, para entornos NoSQL, se sugiere utilizar Amazon DynamoDB.
6. Una vez centralizados los datos, AWS Glue se encarga de orquestar las transformaciones necesarias para su limpieza y preparación para consumo. Este servicio aprovecha la potencia de Apache Spark para realizar procesamiento en paralelo, lo que permite manejar grandes volúmenes de datos de manera eficiente. La arquitectura implementa múltiples buckets de Amazon S3 para almacenar los objetos centralizados, lo que facilita la experimentación y minimiza el impacto cuando surgen nuevos requerimientos del negocio. Para optimizar el procesamiento, es crucial seleccionar el formato de archivo más adecuado. Se recomienda utilizar formatos columnares como Apache Parquet, que ofrecen mejor rendimiento en consultas analíticas y menor consumo de almacenamiento.
7. Análisis y visualización de datos:
a. Detección de Fraudes: Despliegues de modelos para la detección de personas o transacciones fraudulentas por medio de la plataforma personalizada de Amazon Sagemaker. Amazon Sagemaker permite crear modelos desde cero o utilizar modelos prediseñados que se pueden personalizar según las necesidades específicas, facilitando así la detección de fraudes de manera eficiente y rápida.
b. Manejo de riesgos: Analítica de tendencias de riesgos por medio de frameworks abiertos y otras aplicaciones en Amazon EMR, incluyendo modelos de predicción usando Amazon Sagemaker.
c. Reportería: Búsqueda ad-hoc de información particular o registros puntuales usando ANSI-SQL o Spark con Amazon Athena y uso de data warehouses en Amazon Redshift para cruce de información.
d. Compartir datos: Por medio de Redshift Data Sharing usted puede compartir la información a otros clústeres de Redshift o permitir que múltiples areas en su organización accedan a un data warehouse centralizado.
8. Tras el despliegue de los modelos de prevención y detección de fraudes, la solución permite procesar verificaciones tanto individuales como en lotes a través de endpoints de SageMaker, utilizando AWS Lambda como intermediario. La exposición de estos servicios se realiza mediante Amazon API Gateway, que actúa como punto de entrada seguro para que las aplicaciones y flujos autorizados puedan consumir estas capacidades de análisis.
9. La gestión de seguridad y monitoreo se implementa mediante varios servicios complementarios. Para el control de accesos, AWS Identity and Access Management (AWS IAM) junto con AWS Organizations proporcionan las herramientas necesarias para administrar de manera centralizada los permisos y accesos a la infraestructura en AWS. El monitoreo integral de la solución se logra mediante dos servicios clave:
a. AWS CloudTrail genera un registro de todas las acciones generadas por mecanismos manuales y automatizados.
b. AWS CloudWatch se encarga de consolidar las métricas operativas de todos los servicios utilizados en la arquitectura.
En conclusión, hemos presentado una arquitectura de big data para la implementación de modelos de detección de fraudes aprovechando la nueva región de AWS México. Esta solución permite a las organizaciones del sector financiero mexicano:
- Centralizar datos de múltiples orígenes de manera segura y eficiente
- Procesar grandes volúmenes de información con baja latencia, cumpliendo los requisitos de residencia de datos
- Implementar y desplegar modelos de machine learning para detectar fraudes en tiempo real
- Garantizar alta disponibilidad y durabilidad de datos críticos
- Establecer una robusta gobernanza de datos en múltiples ambientes
La arquitectura propuesta, basada en servicios clave de AWS como Amazon S3, AWS Glue, AWS Lake Formation, Amazon SageMaker, y Amazon Redshift, ofrece la flexibilidad necesaria para adaptarse a los requerimientos específicos de cada organización, proporcionando una base sólida para el análisis de big data y la detección de fraudes.
Esta guía detallada, junto con la documentación y ejemplos referenciados, facilitará a los equipos técnicos y de negocio el diseño e implementación de flujos de trabajo que respondan óptimamente a sus necesidades particulares, asegurando una solución escalable, segura y alineada con las regulaciones del sector financiero mexicano.
Autores
![]() |
Aridai Solis es una arquitecta de soluciones en AWS México. Su principal interés es el análisis de datos así como la inteligencia de negocios. |
![]() |
Servio Tulio Reyes Castillo es arquitecto de soluciones en AWS México. Le interesan las ciencias de la computación y las tecnologías aeroespaciales. |