DNAnexus y Amazon Web Services (AWS) impulsan la tecnología detrás de la plataforma de análisis de investigación del Biobanco del Reino Unido

Resumen ejecutivo

Los investigadores de todo el mundo necesitaban poder acceder de forma segura al Biobanco del Reino Unido, una base de datos biomédica del tamaño de un petabyte y un recurso de investigación. DNAnexus, socio de AWS, utilizó Amazon S3 y Amazon EC2 para crear y operar una plataforma escalable que permite a los usuarios aprobados ver y analizar de forma segura las «copias electrónicas» de los archivos en un entorno virtual. Esto garantizó la seguridad de los datos de salud y democratizó el acceso a los investigadores que carecen de su propia infraestructura de almacenamiento y análisis.

Comprender los diferentes factores

Para comprender y tratar enfermedades complejas como la diabetes tipo 2, el cáncer y la enfermedad de Alzheimer, los científicos deben comprender la relación entre los factores genéticos, ambientales y del estilo de vida a lo largo del tiempo. Los datos longitudinales de esta naturaleza son extremadamente difíciles de recopilar, por lo que la comunidad científica mundial se beneficiará enormemente de un conjunto de datos biomédicos y un recurso de investigación colaborativo y a gran escala conocido como Biobanco del Reino Unido.

Según un estudio de 2019 sobre la demencia, con datos de 196 383 participantes del Biobanco del Reino Unido, seguir un estilo de vida saludable puede reducir el riesgo de demencia, independientemente del riesgo genético. Los resultados mostraron que las intervenciones podrían compensar el riesgo genético de demencia. Un estudio realizado en 2018 con 472 000 participantes del Biobanco del Reino Unido de entre 40 y 69 años concluyó que el tabaquismo, la diabetes y la hipertensión arterial aumentan el riesgo de ataque cardíaco más en las mujeres que en los hombres. En las mujeres, la presión arterial alta se asoció con un 80 por ciento más de riesgo que en los hombres en general. Entre los pacientes con diabetes tipo I, el riesgo de sufrir un ataque cardíaco fue casi tres veces mayor en mujeres que en hombres, mientras que en los pacientes con diabetes tipo 2, el riesgo de las mujeres fue un 47 por ciento mayor.

Entre 2006 y 2010, el Biobanco del Reino Unido reclutó a 500 000 voluntarios de todo el Reino Unido. Cada uno proporcionó información detallada sobre su estilo de vida y sus medidas físicas, incluidas muestras de sangre, orina y saliva que se almacenarán para su análisis futuro. El Biobanco del Reino Unido estableció una recopilación continua de datos, junto con la integración de registros médicos electrónicos, que ha generado decenas de miles de puntos de datos para cada participante. Los datos completos de genotipado se agregaron en 2017 y los datos de secuenciación del genoma completo de los 500 000 participantes se pondrán a disposición del público a principios de 2023 (el componente de secuenciación se completó recientemente). El Biobanco del Reino Unido prevé que su base de datos superará los 40 petabytes de datos en 2025.

El objetivo colectivo de esta recopilación de datos a gran escala es ayudar a los investigadores aprobados de todo el mundo a comprender, prevenir y tratar mejor una amplia gama de enfermedades. Sin embargo, un conjunto de datos de este tamaño y complejidad crea un reto de gestión de datos sin precedentes. Ahí es donde entra DNAnexus. DNAnexus, socio especializado en ciencias biológicas de AWS desde hace mucho tiempo, se fundó en 2009 con la misión de ayudar a los investigadores científicos a acceder, analizar y poner en funcionamiento datos biomédicos complejos de forma segura. Su plataforma escalable fomenta la colaboración y permite a los usuarios analizar varios tipos de datos en conjunto, incluidos los datos genómicos y clínicos. Esta es una característica crucial para los investigadores que trabajan para descifrar enfermedades complejas.

«El principal reto consistía en reunir los datos en un solo lugar para que los investigadores pudieran analizar millones de métricas en una amplia gama de tipos de datos, incluidos la genética, el estilo de vida y las imágenes, todo ello sin replicar los datos», afirma Asha Collins, gerente general de
Biobancos en DNAnexus. «Y lo que es igual de importante, teníamos que abordar la forma de proporcionar la computación y el almacenamiento de datos necesarios para que los investigadores pudieran trabajar realmente con este enorme conjunto de datos con facilidad».

En 2020, DNAnexus y AWS iniciaron una colaboración de tres años con el Biobanco del Reino Unido para democratizar el acceso a los datos. Juntos, sustituyeron las costosas y lentas descargas de datos por una innovadora plataforma de análisis de investigación (RAP) basada en la nube que permite
a los investigadores acceder y analizar toda la base de datos del Biobanco del Reino Unido de forma segura desde cualquier parte del mundo. Junto con el desarrollo inicial, el Biobanco del Reino Unido comprendió que el éxito dependía de la capacidad de la plataforma para gestionar cantidades crecientes de datos y proporcionar herramientas de análisis en un entorno centralizado.

«El principal reto consistía en reunir los datos en un solo lugar, de modo que los investigadores pudieran analizar millones de métricas de diferentes tipos de datos, incluidos los genéticos, el estilo de vida y las imágenes, todo ello sin replicar los datos. Y lo que es igual de importante, teníamos que abordar la forma de proporcionar la computación y el almacenamiento de datos necesarios para que los investigadores pudieran trabajar con este enorme conjunto de datos con facilidad». 

-Asha Collins, gerente general de Biobancos de DNAnexus

Compartir «copias electrónicas»

Inicialmente, los investigadores accedieron a los archivos del Biobanco del Reino Unido a través de sistemas de entrega de datos personalizados, que empaquetaban los primeros datos tabulares para que los investigadores los descargaran y analizaran en sus propios entornos. Sin embargo, a medida que se disponía de más datos y un grupo más amplio de investigadores solicitaba el acceso, el enfoque individual se hizo insostenible. A finales de 2021, se había aprobado el acceso a la base de datos y recursos de investigación del Biobanco del Reino Unido a más de 28 000 científicos del mundo académico e industrial de más de 90 países.

«Ahora estamos llegando a una escala en la que no es eficiente ni rentable para todos estos grupos mantener múltiples copias de los datos en todo el mundo», afirma Mark Effingham, director ejecutivo adjunto del Biobanco del Reino Unido. «Necesitábamos adoptar un enfoque diferente, en el que pudiéramos llevar a nuestros investigadores aprobados a un entorno en el que pudieran utilizar los datos».

DNAnexus creó una alternativa segura que redujo la infraestructura y la carga de costes impuesta a los usuarios del Biobanco del Reino Unido. Se almacena una única versión de los datos mediante Amazon Simple Storage Service (Amazon S3), una infraestructura escalable basada en la nube que puede respaldar y mantener el ritmo del crecimiento continuo del Biobanco del Reino Unido.

La plataforma proporciona los datos de forma inteligente a los investigadores, minimizando la duplicación de datos. Los investigadores no tienen acceso directo a estos archivos. En cambio, funcionan a través de un entorno virtual que proporciona «copias electrónicas» de los subconjuntos de datos a los que están autorizados a acceder.

La colaboración también aprovecha Amazon Elastic Compute Cloud (Amazon EC2), un servicio que proporciona capacidad de computación segura y de tamaño ajustable en la nube. Con Amazon EC2, DNAnexus ofrece una plataforma flexible y escalable en la que los investigadores solo pagan cuando realizan análisis. La plataforma también puede aprovechar las instancias puntuales de spot de Amazon EC2, que están disponibles con un descuento de hasta el 90 por ciento en comparación con los precios bajo demanda, de modo que incluso los trabajos más importantes se pueden ejecutar de forma económica.

«Trabajar con DNAnexus y AWS en esta plataforma crea un área en la que los investigadores no solo pueden participar y ejecutar sus propios análisis de datos, sino que también pueden utilizar de forma rentable una infraestructura en la nube, la computación y el almacenamiento escalables para respaldar esos análisis independientemente del lugar desde el que trabajen», afirma Effingham. «Estamos orgullosos de proporcionar una plataforma de investigación que maximiza el valor de los datos y democratiza el acceso para todos los investigadores de todo el mundo».

Acceso seguro mediante seudonimización

Compartir información sobre medio millón de participantes con registros médicos vinculados es un reto desde el punto de vista de la privacidad de los datos. Para proteger estos datos, preservando al mismo tiempo el valor de los numerosos puntos de datos biomédicos interconectados, DNAnexus desarrolló un sistema de seudonimización.

«Nos permite conservar una copia de los datos entre bastidores, lo que supone un importante ahorro de costes», explica Collins. «Esos datos se seudonimizan adecuadamente y se «copian automáticamente» en un área virtual donde ven exactamente los archivos y los campos tabulares para los que se han aprobado, con los cambios apropiados en los nombres de los archivos».

El Biobanco del Reino Unido se basa en medidas de seguridad mejoradas, lo que exige que cada investigador obtenga una copia ligeramente diferente de los datos. Las identificaciones de los participantes están seudonimizadas para todos y cada uno de los investigadores. Estas ID están incrustadas tanto en el nombre del archivo como en el propio contenido, lo que permite a DNAnexus desarrollar su soporte de seudonimización. Aprovechando las «copias electrónicas» descritas anteriormente, así como algunos mecanismos de descarga segura, la plataforma cumplió con estos exigentes requisitos para miles de investigadores sin duplicar ninguno de los datos.

DNAnexus desarrolló esta funcionalidad para abordar la creciente necesidad de plataformas que puedan mediar en el acceso seguro a los conjuntos de datos demográficos multiómicos, que siguen creciendo.

La base de datos del Biobanco del Reino Unido ya ha demostrado ser un recurso poderoso para la comunidad investigadora mundial, ya que impulsa nuevos descubrimientos científicos que podrían mejorar la salud pública. La plataforma de Análisis de la Investigación tiene el potencial de aumentar la velocidad y la escala de los descubrimientos científicos y democratizar el acceso, lo que permite a los investigadores aprobados aportar sus propios análisis a los datos de cualquier parte del mundo para avanzar en la comprensión de las enfermedades humanas. Además, la RAP resuelve la complejidad asociada a la integración y armonización de los datos genómicos y clínicos. También facilita una mayor colaboración entre los investigadores al permitir a los usuarios analizar múltiples tipos de datos y trabajar en el mismo proyecto de investigación dentro de la plataforma basada en la nube. Es probable que este éxito impulse un mayor crecimiento, lo que reforzará la elección del Biobanco del Reino Unido de colaborar con socios como DNAnexus y AWS, conocidos por sus soluciones escalables y ágiles.

Biobanco

Acerca del cliente

El Biobanco del Reino Unido es una base de datos biomédica y un recurso de investigación a gran escala que contiene información genética y de salud detallada de medio millón de participantes del Reino Unido. La base de datos se amplía periódicamente con datos adicionales y es accesible a nivel mundial para los investigadores autorizados que realizan investigaciones vitales sobre las enfermedades más comunes y potencialmente mortales. Es uno de los principales contribuyentes al avance de la medicina y el tratamiento modernos y ha permitido varios descubrimientos científicos que mejoran la salud humana.

Acerca de DNAnexus

DNAnexus ha creado una plataforma en la nube segura y confiable para acceder, analizar y traducir los datos biomédicos del mundo, lo que impulsa a una comunidad científica que genera avances que cambiarán vidas en el campo de la sanidad y las ciencias biológicas.

Publicado en mayo de 2022