Histórias de clientes / Ciências biológicas

2023
Logotipo da BioNTech

A BioNTech acelera o processamento de dados para fluxos de trabalho de proteômica em 500 vezes usando a AWS

Saiba como a BioNTech acelerou o processamento de dados de espectrometria de massa usando fluxos de trabalho paralelizados para diminuir o tempo de processamento em 500 vezes.

50% a 75%

de redução nos tempos de pesquisa de arquivos

Redução significativa

no custo das instâncias de computação

Execução de centenas

de pesquisas de dados simultaneamente

Melhoria

da produtividade dos cientistas, mantendo uma forte segurança de dados

Aumento na

acessibilidade e reutilização de dados na organização

Visão geral

Sediada na Alemanha, a BioNTech é uma empresa global especializada no desenvolvimento de imunoterapias e vacinas, como a vacina Pfizer-BioNTech para COVID-19, para câncer e doenças infecciosas. A espectrometria de massa (MS) é uma tecnologia potente para identificação direta de peptídeos ligados a moléculas do antígeno leucocitário humano (HLA) em tecidos tumorais ou linhagens celulares derivadas de pacientes. Esses imunopeptídeos de HLA podem ser interrogados como uma fonte de descoberta de antígenos para as terapias baseadas em células e usados para treinar modelos de machine learning para derivar informações para o desenvolvimento de vacinas. 

A BioNTech pretendia melhorar ainda mais os fluxos de trabalho para armazenar, organizar e processar terabytes de dados de MS para torná-los mais eficientes e escaláveis. Ela decidiu migrar o software de MS e armazenamento de dados on-premises para o Amazon Web Services (AWS), permitindo um tratamento escalável e seguro de última geração. Agora, a BioNTech acelerou o tempo de obtenção de insights e simplificou para os pesquisadores o compartilhamento e a colaboração nos dados de MS usando o AWS Storage Gateway, um serviço que fornece aplicações on-premises com acesso a um armazenamento em nuvem praticamente ilimitado.

Young female tech or scientist performs protein assay

Oportunidade | Usar o AWS Storage Gateway para simplificar e acelerar ainda mais o processamento dos dados de espectrometria de massa da BioNTech

A espectrometria de massa é uma metodologia potente para imunopeptídeos porque pode detectar e identificar milhares de peptídeos exclusivos ligados ao HLA em uma única análise de tecidos e linhagens celulares clinicamente relevantes. O conjunto de dados brutos produzido em uma única aquisição é uma grande coleção de espectros que podem ser pesquisados em um banco de dados do proteoma de referência para produzir identificações de peptídeos e proteínas. Em fluxos de trabalho de proteômica e com imunopeptídeos, softwares como o Spectrum Mill MS Proteomics Software são componentes vitais no processamento e análise de grandes volumes de dados de MS que são coletados rotineiramente. 

Até 2022, a empresa executava esse software em servidores locais. Os cientistas precisavam mover dados manualmente dos computadores instrumentais para as estações de trabalho locais que executavam o Spectrum Mill, e esses dispositivos se enchiam rapidamente, exigindo etapas adicionais para arquivar os dados. “O total dos nossos dados chegava facilmente a 10 a 15 terabytes, e movê-los para o dispositivo local era demorado e desafiador”, diz Akhil Chaudhary, engenheiro de dados da BioNTech. “À medida que nossas atividades de pesquisa cresciam, nossa coleta de dados de MS também aumentava significativamente”, diz Michael McCarthy, arquiteto de soluções da BioNTech. “O hardware local não suportava mais a nossa escala.” 

Para acelerar o processamento de dados e o acesso aos resultados interpretados, a equipe de biologia computacional da BioNTech precisava de uma maneira para processar centenas de solicitações simultaneamente com diferentes parâmetros de pesquisa e bancos de dados de sequência de proteínas como parte do esforço para maximizar as informações de peptídeos e proteínas para novas descobertas. O departamento abordou a equipe da BionData — um grupo central de dados e análises dentro da empresa — para criar ferramentas para escalar horizontalmente os recursos de processamento de dados. A equipe escolheu a AWS para criar um modelo híbrido de dados de laboratório e criar APIs com escalabilidade horizontal. “Nos EUA, temos uma longa história de uso bem-sucedido da AWS nos produtos”, diz McCarthy. “Foi a escolha natural.”

kr_quotemark

Na AWS, nossos cientistas estão gerando e compartilhando exponencialmente mais dados com o objetivo de encontrar terapias efetivas, direcionadas e personalizadas para os pacientes. Na verdade, o limite é a imaginação, e eu ainda não encontrei algo que eu não pudesse criar na AWS."

Michael McCarthy
Arquiteto de soluções, BioNTech

Solução | Acelerar massivamente o processamento de dados usando fluxos de trabalho paralelizados

Na primeira fase, o foco da BioNTech era poder mover dados perfeitamente dos computadores instrumentais de MS para a nuvem e hospedar o Spectrum Mill na AWS. A segunda fase envolveu a criação de um sistema para executar as solicitações de pesquisa simultaneamente. 

Para mover os dados brutos de MS para a nuvem, a BioNTech instalou o atendente do AWS Storage Gateway em cada computador instrumental. Após a aquisição, os dados brutos de MS são movidos automaticamente e com rapidez para o Amazon Simple Storage Service (Amazon S3), um serviço de armazenamento de objetos criado para recuperar qualquer quantidade de dados de qualquer lugar. “A velocidade é extremamente alta. Um arquivo de 5 GB leva apenas 5 a 10 segundos para aparecer no Amazon S3”, diz Chaudhary. Com vários instrumentos gerando grandes conjuntos de dados, esse pipeline de dados de MS permite uma migração mais eficiente dos dados para uma localização centralizada a fim de facilitar o acesso para processamento e arquivamento. 

A equipe de biologia computacional da BioNTech adotou rapidamente o novo fluxo de trabalho. “Todo mundo está usando o sistema baseado em nuvem, e os pesquisadores o acham muito mais simples”, diz McCarthy. “Automatizamos o gerenciamento de dados na AWS, permitindo que os cientistas se concentrem na ciência.” 

Em seguida, a equipe instalou o Spectrum Mill no Amazon Elastic Compute Cloud (Amazon EC2), que oferece capacidade computacional segura e redimensionável para praticamente qualquer workload. “Ao executar o Spectrum Mill na nuvem, reduzimos os tempos de busca individual em 50 a 75 por cento”, diz Chaudhary. Além disso, a BioNTech executa instâncias spot do Amazon EC2, que podem executar cargas de trabalho tolerantes a falhas com até 90% de desconto em comparação com os preços sob demanda. Como a empresa paga apenas pelo tempo de uso das instâncias, ela reduziu significativamente os custos de computação. 

Para escalar o número de fluxos de trabalho que podem ser executados por vez, a equipe usa o Amazon Machine Images, que fornece as informações exigidas para lançar uma instância, e o Amazon EC2 Auto Scaling, que pode adicionar ou remover capacidade computacional para atender às mudanças na demanda. “Agora, a execução das nossas pesquisas é 50% a 75% mais rápida e com o Amazon EC2 Auto Scaling, podemos executar centenas de instâncias em paralelo, acelerando enormemente o processamento de dados em até 500 vezes”, diz McCarthy. 

A BioNTech gerencia os fluxos de trabalho do Spectrum Mill usando o Amazon Simple Queue Service (Amazon SQS), um serviço de enfileiramento de mensagens totalmente gerenciado. E a empresa usa o Amazon API Gateway, um serviço para criar, manter e proteger APIs em qualquer escala, para executar pesquisas no Spectrum Mill. Em seguida, eles extraem os dados de um data warehouse no Amazon Redshift, que oferece excelente relação preço/desempenho para armazenamento de dados em nuvem. Esses conjuntos de dados são usados pelas equipes científicas para identificar alvos terapêuticos e criar algoritmos de inteligência artificial para o design das vacinas. 

A equipe conecta os resultados processados com consumidores de dados em toda a empresa com data.all, uma ferramenta de código aberto para compartilhar conjuntos de dados entre as contas da AWS. Como resultado, os pesquisadores não precisam mais gastar tempo com o gerenciamento de dados. “Na AWS, nossos cientistas estão gerando e compartilhando exponencialmente mais dados com o objetivo de encontrar terapias eficazes, direcionadas e personalizadas para os pacientes”, diz McCarthy.

Resultado | Expandir a velocidade e a escalabilidade para mais fluxos de trabalho

A BioNTech viu rapidamente os benefícios dos novos fluxos de trabalho na AWS. “Poderíamos refazer todo o trabalho dos últimos 7 anos em 60 horas por uma fração do preço”, diz Chaudhary. Na próxima fase, a equipe busca melhorar e automatizar as ferramentas de análise de espectrometria de massa para reduzir a taxa de falsa descoberta de peptídeos. Também está criando um invólucro gráfico em torno da API para que todas as equipes da BioNTech possam se beneficiar da API nos fluxos de trabalho diários.

“O projeto Spectrum Mill é apenas o primeiro de muitos que estamos planejando”, diz McCarthy. “Esse projeto inspirou a confiança de que podemos resolver problemas semelhantes para nossas equipes globais. Na verdade, o limite é a imaginação, e eu ainda não encontrei algo que eu não pudesse criar na AWS."

Sobre a BioNTech

A BioNTech é uma empresa global de pesquisa e desenvolvimento de imunoterapia, que cria e fabrica imunoterapias ativas e realiza estudos clínicos sobre tratamentos e vacinas para câncer e outras doenças.

Serviços da AWS usados

AWS Storage Gateway

O AWS Storage Gateway é um conjunto de serviços de armazenamento na nuvem híbrida que oferece acesso on-premises a armazenamento virtual na nuvem praticamente ilimitado.

Saiba mais »

Amazon EC2

O Amazon Elastic Compute Cloud (Amazon EC2) oferece a plataforma de computação mais ampla e aprofundada, com mais de 750 instâncias e opções de processadores, armazenamentos, redes, sistemas operacionais e modelos de compras mais recentes para ajudar você a atender melhor às necessidades da sua workload. 

Saiba mais »

Amazon S3

O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos que oferece escalabilidade, disponibilidade de dados, segurança e performance líderes do setor. 

Saiba mais »

Amazon SQS

O Amazon Simple Queue Service (SQS) permite que você envie, armazene e receba mensagens entre componentes de software em qualquer volume, sem perder mensagens ou precisar que outros serviços estejam disponíveis.

Saiba mais »

Mais histórias de clientes de ciências biológicas

nenhum item encontrado 

1

Comece a usar

Organizações de todos os portes, em todos os setores, estão transformando seus negócios e cumprindo suas missões todos os dias usando a AWS. Entre em contato com nossos especialistas e comece sua própria jornada para a AWS hoje mesmo.