Blog de Amazon Web Services (AWS)

Análisis sin límites: arquitectura de big data escalable y segura de FINRA

Por Equipo del blog de AWS para el sector público

El autor invitado de esta publicación es John Brady, profesional en sistemas de seguridad de la información, vicepresidente de ciberseguridad y de la información, Autoridad Reguladora de la Industria Financiera

 

La Autoridad Reguladora de la Industria Financiera (FINRA) supervisa más de 3900 firmas de seguridad con aproximadamente 640 000 brókeres. Cada día, observamos la venta y compra de casi 6 mil millones de participaciones en los mercados de acciones estadounidenses. Contamos con una tecnología lo suficientemente potente como para poder detectar fraudes, abusos y negociaciones en las que se haga un uso indebido de información privilegiada. De hecho, FINRA procesa aproximadamente 6 terabytes de datos y 37 mil millones de registros de media al día para hacernos una idea completa y holística del mercado de acciones en EE. UU. Las bolsas pueden generar más de 75 mil millones de registros en los días más ajetreados.

FINRA fue capaz de habilitar análisis seguros, escalables y flexibles en la nube con una arquitectura de análisis que se beneficia de Amazon Simple Storage Service (Amazon S3). Ampliamos un patrón de lago de datos con EMR, Hbase y Amazon S3 a fin de permitir consultas de acceso aleatorias e interactivas en billones de registros que abarcan más de 600 terabytes de datos.

Antes de la nube, la capacidad fija y los tiempos de preparación de los aprovisionamientos se interponían en los análisis. Con AWS, ahora podemos ampliar el almacenamiento en línea sin problemas y escalar la informática de forma dinámica para así satisfacer las demandas de nuestros científicos de datos y análisis y seguir el ritmo cuando los volúmenes del mercado alcancen su pico. Conservamos una copia de archivos en cada conjunto de datos en Amazon S3, protegemos los datos con cifrado y políticas de acceso, procesamos directamente los datos en Amazon S3 siempre que sea posible y transformamos o extraemos datos para rendir todavía más cuando lo necesitemos.

Sin embargo, hacer un seguimiento de los más de 300 millones de objetos que hay en Amazon S3 puede suponer un reto. ¿Qué datos tenemos? ¿Dónde se usan los datos? ¿Cuántas versiones de estos datos existen? ¿Cuál es el origen de estos datos? ¿Cuál es la política de retención?

Entre en herd, nuestra herramienta de coordinación y catálogo de datos de código abierto. Con herd, podemos hacer un seguimiento de los datos y catalogarlos eficientemente en un repositorio de datos unificado, captar información sobre auditorías y ascendencia de los datos para nuestro entorno altamente regulado y, además, acceder programáticamente a estos datos. Todo esto nos permite separar la informática del almacenamiento en AWS, lo que abre las puertas a una escalabilidad casi infinita.

La arquitectura de lago de datos de Amazon S3, junto con herd, nos permite:

  • Aprovechar almacenamiento rentable e infinitamente seguro con Amazon S3
  • Escalar la informática hacia arriba y hacia abajo, independientemente del almacenamiento
  • Ejecutar varias cargas de trabajo de análisis al mismo tiempo sobre la misma copia de datos
  • Proporcionar un conjunto de datos centralizado para varias plataformas de análisis
  • Aprovechar los precios de spot de AWS para optimizar los costos

El lago de datos ha eliminado los obstáculos y ha bajado el costo de la curiosidad. Esto permite que los analistas se hagan una idea rápida y completa de un pedido en el tiempo, lo que ayuda a determinar si se ha infringido una regla. Los analistas de FINRA pueden optimizar cargas de trabajo interactivas y en lote sin riesgos, así como también analizar datos sobre el mercado de años previos en minutos u horas, en lugar de en semanas o meses.

Además de los casos de uso de los lagos de datos y de big data, FINRA moverá aproximadamente 200 bases de datos relacionales a la nube. Al usar Amazon RDS for PostgreSQL, hemos devuelto el control a nuestros desarrolladores. Ahora podrán iniciar instancias para experimentar y probar cosas nuevas, en lugar de tener que aprovisionarse de una nueva instancia de base de datos. Esto nos permite resolver problemas con mayor rapidez y, además, experimentar con nuevas versiones y tecnologías de bases de datos, como Amazon Aurora.

 

Este artículo fue traducido del Blog de AWS en Inglés.

 


Equipo del blog de AWS para el sector público

Con sede en Arlington, Virginia, el equipo del blog de AWS para el sector público escribe sobre temas relacionados con el gobierno, la educación y las organizaciones sin fines de lucro de todo el mundo. Obtenga más información sobre AWS para el sector público en nuestro sitio web (https://aws.amazon.com/government-education/), o síganos en Twitter (@AWS_gov, @AWS_edu y @AWS_Nonprofits).

 

Use los datos para impulsar el crecimiento empresarial. Logre una innovación constante con el volante de inercia de datos