Ancestry acelera el análisis de datos genómicos con Amazon EFS

2020

Ancestry® es líder mundial en historia familiar y genómica del consumidor, y utiliza árboles genealógicos, registros históricos y ADN para ayudar a las personas en sus viajes de descubrimiento personal. Ancestry cuenta con más de 18 millones de personas en su red de ADN de consumidores. AncestryDNA® utiliza la ciencia genómica avanzada para ayudar a los miembros a descubrir nuevos detalles sobre sus antecedentes familiares, ya que les brinda más formas de explorar sus coincidencias de ADN, conectarse con regiones más precisas y obtener información sobre la información genética de salud y los rasgos personales.

El equipo de AncestryDNA está conformado por docenas de científicos, incluidos genetistas de poblaciones, biólogos computacionales, estadísticos, epidemiólogos, científicos de datos genómicos y bioinformáticos, que desarrollan algoritmos para analizar datos genéticos y de otro tipo que representan varios terabytes de almacenamiento. Anteriormente, el equipo gestionaba por sí mismo sus clústeres de almacenamiento conectado a la red (NAS) escalables localmente, pero carecía de la capacidad de escalar rápidamente los recursos de almacenamiento y computación sin supervisión, aprovisionamiento y planificación avanzada para anticipar las necesidades futuras. «Nuestros datos crecen constantemente y uno de nuestros retos era cómo escalar a medida que crecía nuestra red genética», afirma la Dra. Eurie Hong, PhD, vicepresidenta de genómica de AncestryDNA. «Queríamos ampliar la capacidad de procesamiento para cumplir con un tamaño de conjunto de datos que aumentaba cuadráticamente para el análisis».

El equipo científico de AncestryDNA también necesitaba más elasticidad para soportar cargas de trabajo impredecibles. «Nuestros flujos de trabajo pueden ser muy irregulares y era difícil asignar el presupuesto cuando no podíamos predecir la cantidad de disco y computación que necesitaríamos para el año», afirma el Dr. Asher Baltzell, PhD, gerente de bioinformática en Ancestry.

lab analysis of new corona virus, clinic laboratory chemical research of infection. Covid-19 concept.
kr_quotemark

«Gracias a Amazon EFS, no es necesario que nos preocupemos por escalar las cargas de trabajo de investigación, ya que el sistema puede crecer de manera automática para satisfacer las necesidades de los investigadores, independientemente de los requisitos de computación y almacenamiento».

Dr. Eurie Hong, PhD
Vicepresidenta de Genómica de AncestryDNA

Traslado de las cargas de trabajo de investigación genómica a AWS

El equipo científico de AncestryDNA decidió trasladarse a Amazon Web Services (AWS). «En general, nuestra empresa había empezado a migrar a AWS y estábamos interesados en la escalabilidad y la flexibilidad de la nube», afirma Baltzell.

El equipo utiliza Amazon Elastic Compute Cloud (Amazon EC2) para la computación bajo demanda y Amazon Elastic File System (Amazon EFS), un sistema de archivos de red (NFS) elástico, escalable y totalmente gestionado, como sistema de archivos de datos compartidos. «Los científicos suelen trabajar con servidores de archivos tradicionales, por lo que sabíamos que queríamos algo similar a lo que nuestros investigadores habían utilizado antes», afirma Hong. «Gracias a Amazon EFS, no tenemos que preocuparnos por la implementación o la administración continua, ya que Amazon EFS proporciona la escalabilidad y la elasticidad necesarias para hacer frente a nuestra carga de trabajo cambiante». AncestryDNA también se basa en Amazon Simple Storage Service (Amazon S3).

El equipo científico de AncestryDNA pudo completar la migración antes de lo previsto, sin afectar los plazos del proyecto ni interrumpir la productividad del equipo de ciencia de datos.

Se puede escalar fácilmente para satisfacer las necesidades informáticas y de almacenamiento de los científicos

Ancestry ahora puede realizar investigaciones alineadas con su Proyecto de Diversidad Humana de Ancestry sin tener que preocuparse por los límites de almacenamiento de datos. «Gracias a Amazon EFS, no es necesario que nos preocupemos por escalar las cargas de trabajo de investigación, ya que el sistema puede crecer de manera automática para satisfacer las necesidades de los investigadores, independientemente de los requisitos de computación y almacenamiento», afirma Hong.

Además, dado que Amazon EFS es un sistema de archivos en la nube totalmente gestionado, AncestryDNA evitó la necesidad de crear y administrar sus propios servidores NFS. «No queremos gastar nuestro tiempo y dinero en crear y gestionar nuestro propio sistema de archivos; queremos centrarnos en la investigación», afirma Hong. «Podemos hacerlo mediante Amazon EFS».

Ganar elasticidad para soportar los picos de carga de trabajo y optimizar los costes

Ancestry ahora tiene la elasticidad que necesita cuando tiene que gestionar aumentos o disminuciones impredecibles de la carga de trabajo. «La elasticidad y la flexibilidad que obtenemos con Amazon EFS son enormes para nosotros», afirma Baltzell. Además, con Amazon EC2, el equipo puede optimizar los costes. «Los investigadores pueden utilizar más recursos a la vez y no pagar por recursos inactivos. En lugar de ejecutar 10 servidores todo el tiempo, podemos ejecutar 100 servidores solo durante el tiempo que sean necesarios. Eso también nos facilita la predicción y la gestión de los costes».

Incorporación más rápida de nuevos científicos

Amazon EFS ofrece un entorno coherente con el sistema local anterior de Ancestry, al ofrecer a los científicos de datos carpetas personales y de proyectos compartidas, todas ellas montables desde sus cuadernos de análisis de ciencia de datos de Jupyter y RStudio para facilitar la gestión de los trabajos. Además, incorporar nuevos científicos es fácil, ya que el entorno de nube en el que trabajan utiliza los mismos métodos de acceso y almacenamiento de datos a los que están acostumbrados. Como cuentan con un sistema de archivos conocido, los científicos pueden utilizar los servicios de AWS adyacentes que podrían ayudarlos a acelerar su ritmo de innovación, en lugar de dedicar su tiempo a aprender a realizar cálculos y análisis. Los científicos del equipo también utilizan Amazon EMR para respaldar la investigación que se basa en el marco de macrodatos de Hadoop.

Los científicos de AncestryDNA ahora pueden centrarse más en la innovación. «Gracias a AWS, podemos invertir más tiempo en identificar nuevas maneras de ayudar a que los clientes encuentren su historial familiar único», afirma Hong. «Seguiremos intentando encontrar métodos que ayuden a nuestros clientes a entender mejor a sus familias y descubrir cómo su genética puede informarles sobre su salud futura».

Acerca de Ancestry

Ancestry es un proveedor líder de historia familiar y genómica del consumidor. Con una colección de más de 27 000 millones de registros y más de 18 millones de personas en su creciente red de ADN, Ancestry ayuda a los clientes a descubrir su historia familiar y a obtener información práctica sobre su salud y bienestar. Durante más de 30 años, millones de personas han elegido Ancestry como la plataforma para descubrir, preservar y compartir la información más importante sobre sí mismas y sus familias.

Beneficios de AWS

  • Permite a varios científicos realizar investigaciones genómicas
  • Aumenta o reduce automáticamente los recursos de computación y almacenamiento
  • Incorpora a nuevos científicos de forma más rápida y sencilla

Servicios de AWS utilizados

Amazon Elastic File System

Amazon Elastic File System (Amazon EFS) ofrece un sistema de archivos NFS simple, escalable, elástico y completamente gestionado para utilizarlo con los servicios en la nube de AWS y los recursos locales.

Más información »

Amazon S3

Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes en el sector.

Más información »

Amazon Elastic Compute Cloud

Amazon Elastic Compute Cloud (Amazon EC2) es un servicio web que proporciona capacidad de computación en la nube segura y de tamaño modificable.

Más información »

Amazon EMR

Ejecución y escalado sencillos de Apache Spark, Hive, Presto y otros marcos de macrodatos

Más información »


Introducción

Cada día crece el número de empresas de todos los tamaños y sectores que consiguen transformar sus negocios gracias a AWS. Contáctese con nuestros expertos e inicie hoy mismo su proceso de traspaso a la nube de AWS.