Historias de clientes / Ciencias biológicas

2023
Logotipo de BioNTech

BioNTech acelera 500 veces el procesamiento de datos para los flujos de trabajo de proteómica con AWS

Descubre cómo BioNTech aceleró el procesamiento de datos de espectrometría de masas mediante flujos de trabajo paralelos para reducir 500 veces en el tiempo de procesamiento.

Se redujo entre el 50 % y el 75 %

los tiempos de búsqueda de archivos

Se redujo significativamente

el costo de las instancias de computación

Se ejecutaron cientos

de búsquedas de datos de forma simultánea

Mejoró

la productividad de los científicos al mismo tiempo que se mantiene una sólida seguridad de los datos

Aumentó

la accesibilidad y la reutilización de los datos en la organización

Información general

Con sede en Alemania, BioNTech es una empresa global que se especializa en el desarrollo de inmunoterapias y vacunas para el cáncer, enfermedades infecciosas, como la vacuna de Pfizer-BioNTech para el COVID-19. La espectrometría de masas (EM) es una tecnología poderosa para la identificación directa de péptidos unidos a moléculas del antígeno leucocitario humano (HLA) a partir de tejido tumoral o líneas celulares derivadas de pacientes. Estos inmunopeptidomas HLA pueden evaluarse como fuente de descubrimiento de antígenos para terapias celulares y usarse para entrenar modelos de machine learning con el fin de guiar el desarrollo de vacunas. 

BioNTech pretendía mejorar aún más sus flujos de trabajo para almacenar, organizar y procesar terabytes de datos de EM para hacerlos más eficientes y escalables. Decidió migrar su software EM local y su almacenamiento de datos a Amazon Web Services (AWS), lo que permitió un manejo escalable y seguro de última generación. En la actualidad, BioNTech ha acelerado el tiempo para obtener datos y ha facilitado que los investigadores compartan y colaboren datos de EM mediante AWS Storage Gateway, un servicio que brinda a las aplicaciones locales acceso a almacenamiento en la nube prácticamente ilimitado.

Young female tech or scientist performs protein assay

Oportunidad | Uso de AWS Storage Gateway para agilizar y acelerar aún más el procesamiento de los datos de espectrometría de masas de BioNTech

La espectrometría de masas es una metodología poderosa para la inmunopeptidómica. Esto se debe a su capacidad de detectar e identificar miles de péptidos únicos unidos a HLA en un solo análisis de tejidos y líneas celulares clínicamente relevantes. Un conjunto de datos sin procesar producido en una única adquisición es una amplia colección de espectros que se pueden buscar en una base de datos de proteomas de referencia para identificar péptidos y proteínas. En los flujos de trabajo de proteómica e inmunopeptidómica, los paquetes de software como Spectrum Mill MS Proteomics Software son componentes vitales para procesar y analizar grandes volúmenes de datos de EM que se recopilan de forma rutinaria. 

Hasta 2022, la empresa ejecutaba este software en servidores propios. Los científicos tenían que mover los datos manualmente desde los equipos a las estaciones de trabajo locales que ejecutaban Spectrum Mill. Estos dispositivos se llenaban rápidamente, lo que requería pasos adicionales para archivar los datos. “Nuestros datos totales eran fácilmente de 10 a 15 terabytes, y trasladarlos al dispositivo local requirió mucho tiempo y fue un desafío”, afirma Akhil Chaudhary, ingeniero de Datos de BioNTech. “A medida que nuestras actividades de investigación crecían, nuestra recopilación de datos de esclerosis múltiple también aumentaba significativamente”, afirma Michael McCarthy, solutions architect, BioNTech. “El hardware local ya no podía soportar nuestra escala”. 

Para acelerar el procesamiento de datos y el acceso a los resultados interpretados, el equipo de biología computacional de BioNTech necesitaba una forma de procesar cientos de solicitudes simultáneamente con diferentes parámetros de búsqueda y bases de datos de secuencias de proteínas. Esto formaba parte de su esfuerzo por maximizar la información sobre péptidos y proteínas para realizar descubrimientos novedosos. El departamento se puso en contacto con el equipo de BioNData, un grupo central de datos y análisis de la empresa, para crear herramientas que permitieran escalar horizontalmente las capacidades de procesamiento de datos. El equipo eligió AWS para crear un modelo de datos de laboratorio híbrido y crear una API de escalado horizontal. “En EE. UU., contamos con una larga trayectoria en el uso exitoso de AWS para el desarrollo de productos”, afirma McCarthy. “Fue la elección natural”.

kr_quotemark

En AWS, nuestros científicos generan y comparten una cantidad exponencialmente mayor de datos con el objetivo de encontrar terapias eficaces, específicas y personalizadas para los pacientes. “En realidad, el límite es la imaginación. Aún no he encontrado algo que no pueda crear en AWS”.

Michael McCarthy
solutions architect, BioNTech

Solución | Aceleración masiva del procesamiento de datos mediante flujos de trabajo paralelizados

En la primera fase, el objetivo de BioNTech era poder transferir datos de forma fluida desde el equipo de EM a la nube y alojar Spectrum Mill en AWS. La segunda fase consistió en crear un sistema para ejecutar las solicitudes de búsqueda simultáneamente. 

Para transferir los datos sin procesar de EM a la nube, BioNTech instaló el agente de AWS Storage Gateway en todos los equipos. Una vez adquiridos, los datos brutos de espectrometría de masas se transfieren de forma rápida y automática a Amazon Simple Storage Service (Amazon S3), un servicio de almacenamiento de objetos diseñado para recuperar cualquier cantidad de datos desde cualquier lugar. “La velocidad es extremadamente rápida. Un archivo de 5 GB solo tarda entre 5 y 10 segundos en aparecer en Amazon S3”, afirma Chaudhary. Con múltiples instrumentos generando grandes conjuntos de datos, este flujo de trabajo de datos de EM permite una migración más eficiente de los datos a una ubicación centralizada para facilitar el acceso para su procesamiento y archivo. 

El equipo de biología computacional de BioNtech adoptó rápidamente el nuevo flujo de trabajo. “Todo el mundo utiliza el sistema basado en la nube y los investigadores lo encuentran mucho más sencillo”, afirma McCarthy. “Automatizamos la administración de datos en AWS, lo que permite a los científicos centrarse en la ciencia”. 

A continuación, el equipo instaló Spectrum Mill en Amazon Elastic Compute Cloud (Amazon EC2), lo cual proporciona una capacidad de computación segura y de tamaño variable para prácticamente cualquier carga de trabajo. “Al ejecutar Spectrum Mill en la nube, reducimos los tiempos de búsqueda individuales entre un 50 y un 75 %”, afirma Chaudhary. Además, BioNTech ejecuta instancias de spot de Amazon EC2, las cuales pueden ejecutar cargas de trabajo tolerantes a fallos con hasta un 90 % de descuento en comparación con los precios bajo demanda. Como la empresa solo paga por el tiempo que usa las instancias, ha reducido los costos de procesamiento de manera significativa. 

Para escalar la cantidad de flujos de trabajo que puede ejecutar a la vez, el equipo utiliza imágenes de máquina de Amazon, que proporciona la información necesaria para lanzar una instancia, y Amazon EC2 Auto Scaling, que puede agregar o eliminar capacidad de procesamiento para satisfacer la demanda cambiante. “Ahora, llevamos a cabo nuestras búsquedas entre un 50 y un 75 % más rápido y, con Amazon EC2 Auto Scaling, podemos ejecutar cientos de instancias en paralelo, lo que acelera enormemente el procesamiento de datos hasta 500 veces”, afirma McCarthy. 

BioNTech administra los flujos de trabajo de Spectrum Mill mediante Amazon Simple Queue Service (Amazon SQS), un servicio de cola de mensajes totalmente gestionado. Además, la empresa utiliza Amazon API Gateway, un servicio para crear, mantener y proteger las API a cualquier escala, para ejecutar búsquedas en Spectrum Mill. Luego, recupera los datos de un almacén de datos en Amazon Redshift, que ofrece una excelente relación precio-rendimiento para el almacenamiento de datos en la nube. Los equipos científicos utilizan estos conjuntos de datos para identificar objetivos terapéuticos y crear algoritmos de inteligencia artificial para el diseño de vacunas. 

El equipo conecta los resultados procesados con los consumidores de datos de toda la empresa mediante data.all, una herramienta de código abierto para compartir conjuntos de datos entre cuentas de AWS. Como resultado, los investigadores ya no necesitan dedicar tiempo a la administración de datos. “En AWS, nuestros científicos generan y comparten exponencialmente mayor de datos con el objetivo de encontrar terapias eficaces, específicas y personalizadas para los pacientes”, afirma McCarthy.

Resultado | Aumento de la velocidad y la escalabilidad para manejar más flujos de trabajo

BioNTech ha visto rápidamente los beneficios de sus nuevos flujos de trabajo en AWS. “Podríamos rehacer todo el trabajo de los últimos 7 años en 60 horas por una fracción del costo original”, afirma Chaudhary. En su siguiente fase, el equipo busca mejorar y automatizar las herramientas de análisis de espectrometría de masas para reducir la tasa de falsos descubrimientos de péptidos. También está creando un envoltorio gráfico alrededor de su API para que todos los equipos de BioNTech puedan beneficiarse de esta en sus flujos de trabajo diarios.

“El proyecto Spectrum Mill es solo el primero de muchos que estamos planificando”, afirma McCarthy. “Este proyecto nos dio la confianza de que podemos resolver problemas similares para nuestros equipos globales. En realidad, el límite es la imaginación. Aún no he encontrado algo que no pueda crear en AWS”.

Acerca de BioNTech

BioNTech es una empresa global de investigación y desarrollo de inmunoterapia que crea y fabrica inmunoterapias activas y lleva a cabo ensayos clínicos de tratamientos y vacunas para el cáncer y otras enfermedades.

Servicios de AWS utilizados

AWS Storage Gateway

AWS Storage Gateway es un conjunto de servicios de almacenamiento en la nube híbrida que brinda acceso en las instalaciones a un almacenamiento en la nube prácticamente ilimitado.

Obtenga más información »

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) ofrece la plataforma de computación más amplia y completa, con más de 750 instancias y la posibilidad de elegir el procesador, almacenamiento, redes, sistema operativo y modelo de compra más reciente, en función de lo que mejor se ajuste a las necesidades que plantea su carga de trabajo. 

Obtenga más información »

Amazon S3

Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes en el sector. 

Obtenga más información »

Amazon SQS

Con Amazon Simple Queue Service (Amazon SQS), puede enviar, almacenar y recibir mensajes entre componentes de software de cualquier volumen sin perder mensajes ni requerir la disponibilidad de otros servicios.

Obtenga más información »

Más historias de clientes del sector de las ciencias biológicas

no se encontraron elementos 

1

Comenzar

Organizaciones de todos los tamaños y de todos los sectores transforman sus negocios y cumplen sus misiones todos los días con AWS. Contacte nuestros expertos y comience hoy mismo su propia jornada en AWS.