Discover reduce la cantidad de tiempo necesaria para realizar el análisis y obtener información gracias a AWS

2020

Discover Financial Services proporciona productos crediticios y bancarios para ayudar a los clientes a cumplir sus objetivos financieros, como establecer un buen historial crediticio, pagar la matrícula de su educación universitaria y consolidar deudas. Tanto en el área interna como la externa, la empresa depende en gran medida de los datos y el análisis para poder cumplir esa promesa y destacarse en un sector en extremo competitivo. Brandon Harris, el director de Tecnología de ciencia de datos en Discover Financial Services, indica: “Tenemos muchos datos de los clientes”. Además, explica: “Tenemos que utilizar esos datos como un factor que nos destaque para poder proporcionar a los clientes una mejor experiencia todo el tiempo”.

A lo largo de los años, surgieron prácticas de análisis individuales en el marco de los equipos y las unidades de negocio que conforman Discover. En total, 12 equipos reunían entre 8 y 10 conjuntos de herramientas. Cada práctica requería un conjunto de habilidades específico, además de diversas herramientas. El equipo de líderes de Discover consideraba que integrar esas prácticas y esos equipos podía mejorar los procesos de análisis y crear herramientas uniformes en toda la organización.

Por lo general, el equipo de tecnología de Discover crea soluciones nuevas de manera interna, ya que prefiere controlar las tecnologías por completo y administrar sus propios centros de datos. A Harris y su equipo se les encargó la tarea de crear una plataforma centralizada que permitiera a los científicos de datos de la empresa trabajar de manera colaborativa en un entorno común, una estación de trabajo interna que se dedica a la ciencia de datos y se conoce como Air9.

Discover Financial Services Creates Environments Where Data Scientists Can Collaborate
kr_quotemark

Amazon EFS se ajusta perfectamente a nuestras necesidades de escalabilidad y costos. Además, gracias a la excelente colaboración de la comunidad de Kubernetes, ya existen capacidades en torno al almacenamiento para el servicio”.

Brandon Harris
Director de Tecnología de ciencia de datos, Discover Financial Services

Creación de una plataforma de ciencia de datos nativa en la nube

Uno de los primeros principios de diseño que acordó empezar a implementar el equipo de Harris para Air9 es que la diversidad representa una fortaleza. Harris indica: “No solo en la diversidad de los equipos y sus experiencias, sino también en la presencia de diversas estrategias y herramientas”. También aclaró: “No queríamos presentar una estrategia para la ciencia de datos que se adapte a todos los casos para esta comunidad de análisis de larga data”.

El equipo de Harris determinó que Kubernetes representaba una excelente opción para el alojamiento de Air9, ya que muchas de las herramientas de ciencia de datos que la empresa ya utilizaba se podían colocar en contenedores sin problemas. Los contenedores dedicados permitirían disponer de cargas de trabajo aisladas, además de permitir a los usuarios instalar paquetes personalizados y efectuar cambios en sus entornos. Realizar dichos cambios en un entorno de varios usuarios resultaría complicado. Como Discover ha sido cliente de Amazon Web Services (AWS) desde hace ya mucho tiempo, además de ser usuario de Amazon Simple Storage Service (Amazon S3), el equipo también decidió implementar instancias de Amazon Elastic Compute Cloud (Amazon EC2). Gracias a esta estrategia, alrededor de 883 científicos de datos de diversos países ya pueden elegir el tamaño, el tipo y la cantidad de instancias de Amazon EC2 que prefieran, además de establecer que la aplicación monte de manera automática esas instancias para sus conjuntos de datos.

Mejora en la escalabilidad, el almacenamiento y el costo con AWS

La capacidad de almacenamiento compartido con un almacén de archivos completamente administrado y nativo en la nube representaba otro componente crítico de Air9. Harris indica: “Si ya está ejecutando todos estos entornos diferentes, debe haber una manera común de guardar los datos y trabajar de manera colaborativa”.

Sin embargo, el proyecto enfrentó ciertas dificultades cuando el equipo de Discover empezó a diseñar la capa de almacenamiento. Harris explica: “Los equipos de análisis contaban con conjuntos de datos muy grandes en el almacenamiento de datos en la nube, pero teníamos que crear un plan para que contaran con almacenamiento local para su propio trabajo, además de un mecanismo para compartir datos entre los miembros del equipo y entre equipos diferentes”. Además, indicó: “Esta capa de almacenamiento también debía ser muy resistente y capaz de crecer bastante con el paso del tiempo”.

Harris y su equipo buscaban una solución de almacenamiento distribuido de código abierto para utilizarla como su capa de almacenamiento de la plataforma de ciencia de datos. Sin embargo, poco tiempo después, ejecutar y administrar dicha solución se volvió costoso y requería mucho tiempo. Harris explica: “Cuando observamos que los costos mensuales asociados a la ejecución de nuestra propia plataforma de almacenamiento superaban los costos por recursos informáticos, nos dimos cuenta de que algo no estaba bien”. Agrega: “En última instancia, el exceso de costo se atribuía al factor de replicación que corresponde al almacenamiento distribuido, pero no nos sentíamos cómodos con la idea de sacrificar el factor de replicación para reducir los costos”.

Por la buena experiencia del equipo con Amazon EC2 en el área de informática de la plataforma, analizó los servicios administrados de AWS para el almacenamiento y decidió implementar Amazon Elastic File System (Amazon EFS). Harris explica: “Amazon EFS se ajusta perfectamente a nuestras necesidades de escalabilidad y costos. Además, gracias a la excelente colaboración de la comunidad de Kubernetes, ya existen capacidades en torno al almacenamiento para el servicio. AWS también nos permitió utilizar diferentes entornos para distintos tipos de datos, de manera que pudiéramos proteger mejor los tipos de datos con niveles más altos de confidencialidad”.

Antes, cada equipo tenía un directorio de usuario y un directorio de equipo. Con Amazon EFS, la empresa logró proporcionar con facilidad acceso compartido a diferentes herramientas, proyectos y conjuntos de datos del área de ciencia de datos para que se trabaje de manera colaborativa de forma más simple. Las capacidades de archivo de datos a largo plazo, junto con los costos generales bajos de Amazon S3, también permitieron que Discover personalizara los procesos de creación de copias de seguridad de manera que tenga una segunda copia de los datos disponible para guardarla.

Harris explica: “Utilizamos Amazon EFS como esa capa de colaboración, pero también tenemos un archivo y una capa de registro histórico para los diferentes conjuntos de datos o los distintos fines de administración del ciclo de vida”. Además, indica: “Debemos conservar determinados tipo de datos durante una cantidad específica de años. Amazon S3 y la clase de almacenamiento Amazon S3 Glacier han permitido que nos aseguremos de almacenar de forma rentable todos los datos que utilizan y crean nuestros científicos de datos”.

Mejora en la colaboración y reducción de la cantidad de tiempo necesaria para obtener información

Hoy en día, Air9 logra potenciar la productividad y la eficiencia de los científicos de datos de Discover gracias a que les permite ejecutar aplicaciones de análisis en una ubicación central en AWS, colaborar en un entorno de almacenamiento compartido donde se aprovechan orígenes de datos estructurados y no estructurados, y procesar y almacenar datos de múltiples orígenes. Esto permite a los científicos de datos de Discover analizar los datos en búsqueda de información de manera más sencilla y rápida.

La actualización de la plataforma de datos anterior llevaba semanas debido, en primera instancia, a las restricciones en torno al almacenamiento y a la necesidad de ajustar el tamaño de los clústeres de almacenamiento antiguos cuando se requería más capacidad de almacenamiento. Como Amazon EFS realiza todas estas tareas en segundo plano, el equipo ahora puede actualizar la plataforma de datos en cuestión de horas. La plataforma también habilita el autoservicio, lo que ayuda a los científicos de datos a seguir siendo productivos sin afectar la experiencia de sus colegas. Harris comenta: “En nuestro entorno en las instalaciones anterior, no contábamos con mecanismos que facilitaran estas conversaciones e interacciones entre los científicos de datos”.

Con la solución de AWS, Harris calcula que su equipo ha logrado reducir un 90 % la cantidad de tiempo que dedica a administrar el almacenamiento. Además, gracias a que depende de AWS para administrar el servicio y proporcionar la capacidad de redundancia en lugar de tener que diseñar y crearla de manera interna, Discover ha logrado reducir los costos entre un 50 % y un 60 %.

Estos cambios también permiten que Discover progrese en sus esfuerzos de transformación digital generales. Harris explica: “Antes, necesitábamos semanas para brindar a los usuarios las herramientas que requerían para realizar sus trabajos”. Agrega: “En la actualidad, logramos hacerlo en cuestión de horas para que dichos usuarios puedan empezar a obtener información y aportar valor a los clientes casi de inmediato”.

Para obtener más información, visite aws.amazon.com/efs.

Arquitecturas de referencia

Arquitecturas de referencia


Acerca de Discover Financial Services

Discover Financial Services es una empresa que ofrece servicios de pago y banca digital. Se fundó en 1985 y tiene su oficina central al norte de Chicago. Su misión es ayudar a las personas a gastar su dinero de manera más inteligente, además de a administrar mejor sus deudas y ahorrar más.

Beneficios de AWS

  • Reduce la cantidad de tiempo dedicada a administrar el almacenamiento un 90 % y los costos entre un 50 % y un 60 %
  • Escala los recursos informáticos y de almacenamiento bajo demanda
  • El almacenamiento compartido permite a los científicos de datos trabajar de manera más colaborativa
  • Personaliza los procesos de creación de copias de seguridad gracias a la capacidad de almacenamiento ilimitada
  • Actualiza la plataforma de datos en tan solo horas en lugar de semanas
  • Los científicos de datos pueden concentrarse en la información en lugar de la tecnología

Servicios de AWS utilizados

Amazon Elastic File System

Amazon Elastic File System (Amazon EFS) ofrece un sistema de archivos NFS simple, escalable, elástico y completamente administrado para utilizarlo con los servicios en la nube de AWS y los recursos que se encuentren en las instalaciones. Está diseñado para ajustar su escala hasta petabytes según se requiera sin interrumpir el funcionamiento de las aplicaciones y mediante el aumento y la reducción automática de su capacidad a medida que agrega o elimina archivos. De esta manera, se elimina la necesidad de aprovisionar y administrar la capacidad para adaptarse al crecimiento.

Más información »

Amazon S3

Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes en el sector.

Más información »

Amazon S3 Glacier y S3 Glacier Deep Archive

Amazon S3 Glacier y S3 Glacier Deep Archive son clases de almacenamiento en la nube de Amazon S3 seguro, duradero y de muy bajo costo para archivar datos y realizar copias de seguridad a largo plazo.

Más información »

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) es un servicio web que proporciona capacidad informática en la nube segura y de tamaño modificable. Está diseñado para simplificar el uso de la informática en la nube a escala web para los desarrolladores. La sencilla interfaz de servicios web de Amazon EC2 permite obtener y configurar capacidad con mínima fricción.

Más información »


Introducción

Organizaciones de todos los tamaños y de todos los sectores se transforman y cumplen sus misiones todos los días gracias a AWS. Contacte con nuestros expertos e inicie hoy mismo su proceso de traspaso a la nube de AWS.