고객 성공 사례 / 생명 과학

2023년
BioNTech 로고

AWS를 사용하여 단백질체학 워크플로의 데이터 처리 속도를 500배 높인 BioNTech

BioNTech가 병렬화된 워크플로를 통해 질량분석 데이터 처리 속도를 높여 처리 시간을 500배 단축한 과정에 대해 알아보세요.

50%~75% 단축

파일 검색 시간

큰 비용 절감

컴퓨팅 인스턴스 비용

동시 실행

수백 건의 데이터 검색

개선

과학자의 생산성 개선 및 강력한 데이터 보안 유지

증가

조직 내 데이터 접근성 및 재사용성 증가

개요

독일에 본사가 있는 BioNTech는 암과 감염병에 대한 면역요법 및 백신 개발(예: Pfizer와 BioNTech의 코로나19 백신)을 전문으로 하는 글로벌 기업입니다. 질량분석(MS)은 환자 유래 종양 조직 또는 세포주에서 인간 백혈구 항원(HLA) 분자에 결합된 펩타이드를 직접 식별할 수 있는 강력한 기술입니다. 이러한 HLA 면역펩티돔은 세포 기반 치료법의 항원 발견을 위한 원천으로서 연구될 수 있으며 백신 개발 정보를 제공하기 위한 기계 학습 모델을 훈련하는 데 사용할 수 있습니다. 

BioNTech는 테라바이트 규모의 MS 데이터를 저장, 정리, 처리하는 워크플로를 더욱 개선하여 효율성과 확장성을 높이고자 했습니다. 이를 위해 확장 가능하고 안전한 최첨단 처리가 가능하도록 온프레미스 MS 소프트웨어 및 데이터 스토리지를 Amazon Web Services(AWS)로 마이그레이션하기로 결정했습니다. 이제 BioNTech는 온프레미스 애플리케이션에 사실상 무제한의 클라우드 스토리지 액세스를 제공하는 서비스인 AWS Storage Gateway를 이용하여 인사이트 도출 시간을 단축하고 연구원들이 MS 데이터를 더 쉽게 공유하고 협업할 수 있도록 했습니다.

Young female tech or scientist performs protein assay

기회 | AWS Storage Gateway를 사용하여 BioNTech의 질량분석 데이터 처리를 더욱 간소화하고 가속화

질량분석은 면역펩티도믹스를 위한 강력한 방법입니다. 임상적으로 관련 있는 조직 및 세포주에 대한 단일 분석으로 수천 개의 고유한 HLA 결합 펩타이드를 검출하고 식별할 수 있기 때문입니다. 단일 수집으로 생성된 원시 데이터 세트는 참조 단백체 데이터베이스를 검색하여 펩타이드 및 단백질 식별 정보를 얻을 수 있는 대규모 스펙트럼 모음입니다. 단백질체학 및 면역펩티도믹스 워크플로에서 Spectrum Mill MS Proteomics Software와 같은 소프트웨어 패키지는 일상적으로 수집되는 대량의 MS 데이터를 처리하고 분석하는 데 중요한 요소입니다. 

2022년까지는 로컬 서버에서 이 소프트웨어를 실행했습니다. 과학자들은 데이터를 계측기 컴퓨터로부터 Spectrum Mill을 실행하는 로컬 워크스테이션으로 수동으로 옮겨야 했고, 이러한 장치는 빠르게 가득 차서 데이터를 보관하기 위한 추가 단계가 필요했습니다. BioNTech의 Data Engineer인 Akhil Chaudhary는 “전체 데이터는 10~15테라바이트에 달하곤 했는데, 이를 온프레미스 장치로 옮기는 것은 시간이 많이 걸리고 어려운 일이었습니다”라고 말합니다. BioNTech의 Solutions Architect인 Michael McCarthy는 “연구 활동이 늘어남에 따라 MS 데이터 수집도 크게 증가했습니다. 로컬 하드웨어로는 더 이상 이 규모를 지탱할 수 없었습니다”고 했습니다. 

데이터 처리와 해석된 결과에 대한 액세스 속도를 높이기 위해 BioNTech의 Computational Biology 팀은 새로운 발견을 위해 펩타이드 및 단백질 정보를 극대화하기 위한 노력의 일환으로 다양한 검색 파라미터와 단백질 서열 데이터베이스를 사용하여 수백 건의 요청을 동시에 처리할 수 있는 방법이 필요했습니다. 이 부서는 회사 내 중앙 데이터 및 분석 그룹인 BioNData 팀에 연락하여 데이터 처리 능력을 수평적으로 확장할 수 있는 도구를 구축했습니다. BioNData 팀은 하이브리드 랩 데이터 모델을 구축하고 수평적으로 확장되는 API를 만들기 위해 AWS를 선택했습니다. McCarthy는 “미국에서 우리는 오랫동안 제품에 AWS를 성공적으로 사용해 왔다”며, “당연한 선택이었다”고 했습니다.

kr_quotemark

AWS에서 우리 과학자들은 환자를 위한 효과적이고 표적화된 맞춤 치료법을 찾기 위해 훨씬 더 많은 데이터를 생성하고 공유하고 있습니다. 상상할 수 있는 모든 것을 이룰 수 있습니다. 저는 아직 AWS에서 구축할 수 없는 것을 찾지 못했습니다.”

Michael McCarthy
BioNTech Solutions Architect

솔루션 | 병렬화된 워크플로를 사용하여 대규모 데이터 처리 가속화

첫 단계에서 BioNTech는 MS 계측기 컴퓨터에서 클라우드로 데이터를 원활하게 옮기고 AWS에 Spectrum Mill을 호스팅하는 데 중점을 두었습니다. 두 번째 단계는 검색 요청을 동시에 실행할 수 있는 시스템을 구축하는 것이었습니다. 

MS 원시 데이터를 클라우드로 옮기기 위해 BioNTech는 모든 계측기 컴퓨터에 AWS Storage Gateway 에이전트를 설치했습니다. 수집 후 MS 원시 데이터는 어디서나 원하는 만큼 데이터를 검색할 수 있도록 구축된 객체 스토리지 서비스인 Amazon Simple Storage Service(S3)에 자동으로 신속히 옮겨집니다. “속도가 엄청 빠릅니다. 5GB 용량의 파일이 Amazon S3에 표시되는 데 5~10초밖에 걸리지 않습니다”라고 Chaudhary는 말합니다. 여러 계측기가 대규모 데이터세트를 생성하면서 이 MS 데이터 파이프라인은 중앙 집중식 로컬라이제이션으로 데이터를 보다 효율적으로 마이그레이션하여 처리 및 보관을 위한 데이터 액세스를 용이하게 합니다. 

BioNTech의 Computational Biology 팀은 새로운 워크플로를 빠르게 받아들였습니다. McCarthy는 “모두가 클라우드 기반 시스템을 사용하고 있고, 연구원들은 이 시스템이 훨씬 간단하다고 생각합니다. AWS에서 데이터 관리를 자동화함으로써 과학자들이 과학에 집중할 수 있게 되었습니다”라고 밝혔습니다. 

이어서 Computational Biology 팀은 안전하고 규모 조정이 가능한 컴퓨팅 용량을 제공하여 거의 모든 워크로드를 지원하는 Amazon Elastic Compute Cloud(Amazon EC2)에 Spectrum Mill을 설치했습니다. “클라우드에서 Spectrum Mill을 실행함으로써 개별 검색 시간을 50~75% 단축했습니다”라고 Chaudhary는 말합니다. 그 밖에도 BioNTech는 온디맨드 가격 대비 최대 90% 할인된 가격으로 내결함성 워크로드를 실행할 수 있는 Amazon EC2 스팟 인스턴스를 실행하고 있습니다. 인스턴스를 사용한 시간에 대해서만 비용을 지불하므로 컴퓨팅 비용이 크게 절감되었습니다. 

한 번에 실행할 수 있는 워크플로의 수를 조정하기 위해 인스턴스를 시작하는 데 필요한 정보를 제공하는 Amazon Machine Image와 변화하는 수요에 맞춰 컴퓨팅 능력을 추가하거나 제거할 수 있는 Amazon EC2 Auto Scaling을 이용하고 있습니다. McCarthy는 “이제 50%~75% 더 빠르게 검색을 실행하고 있고, Amazon EC2 Auto Scaling으로 수백 개의 인스턴스를 병렬로 실행할 수 있어서 데이터 처리 속도를 최대 500배까지 크게 높일 수 있었다”고 밝혔습니다. 

BioNTech는 완전관리형 메시지 대기열 서비스인 Amazon Simple Queue Service(Amazon SQS)를 사용하여 Spectrum Mill의 워크플로를 관리합니다. 또한 모든 규모에서 API를 생성, 유지 관리, 보호하는 서비스인 Amazon API Gateway를 사용하여 Spectrum Mill 검색을 실행합니다. 이후 클라우드 데이터 웨어하우징에 있어 뛰어난 가격 대비 성능을 제공하는 Amazon Redshift의 데이터 웨어하우스에서 데이터를 가져옵니다. 과학 연구를 진행하는 팀에서는 이러한 데이터세트를 사용하여 치료 표적을 식별하고 백신 설계를 위한 인공지능 알고리즘을 구축합니다. 

AWS 계정 전체에 데이터세트를 공유하기 위한 오픈 소스 도구인 data.all을 사용하여 처리된 결과를 회사 전체의 데이터 소비자와 연결합니다. 따라서 연구자들은 더 이상 데이터 관리에 시간을 할애할 필요가 없습니다. McCarthy는 “AWS에서 우리 과학자들은 환자를 위한 효과적이고 표적화된 맞춤 치료법을 찾기 위해 훨씬 더 많은 데이터를 생성하고 공유하고 있습니다”라고 말합니다.

성과 | 속도와 확장성을 더 많은 워크플로로 확대

BioNTech는 AWS에서 이루어지는 새 워크플로의 이점을 빠르게 확인했습니다. Chaudhary는 “지난 7년간의 모든 작업을 저렴한 가격으로 60시간 만에 다시 수행할 수 있었다”고 했습니다. 다음 단계로 질량분석 도구를 개선하고 자동화하여 펩타이드의 거짓 발견 비율을 낮추는 방안을 모색하고 있습니다. 또한 BioNTech의 모든 팀이 일상적인 워크플로에서 API의 이점을 활용할 수 있도록 API를 중심으로 그래픽 래퍼를 만들고 있습니다.

“Spectrum Mill 프로젝트는 우리가 계획하고 있는 많은 것 중에 첫 번째에 불과합니다”라고 McCarthy는 말합니다. “이 프로젝트를 통해 전 세계의 팀을 위해 비슷한 문제를 해결할 수 있다는 자신감이 생겼습니다. 상상할 수 있는 모든 것을 이룰 수 있습니다. 저는 아직 AWS에서 구축할 수 없는 것을 찾지 못했습니다.”

BioNTech 소개

BioNTech는 능동 면역요법을 개발 및 제조하고 암과 그 밖의 질병에 대한 치료제 및 백신의 임상시험을 수행하는 글로벌 면역요법 연구개발 기업입니다.

사용된 AWS 서비스

AWS Storage Gateway

AWS Storage Gateway는 거의 무제한의 클라우드 스토리지 액세스를 온프레미스에 제공하는 하이브리드 클라우드 스토리지 서비스 세트입니다.

자세히 알아보기 »

Amazon EC2

Amazon Elastic Compute Cloud(Amazon EC2)는 워크로드의 요구 사항에 가장 잘 부합할 수 있도록 750개가 넘는 인스턴스, 그리고 최신 프로세서, 스토리지, 네트워킹, 운영 체제 및 구매 모델의 옵션을 포함한 가장 포괄적이고 심층적인 컴퓨팅 플랫폼을 제공합니다. 

자세히 알아보기 »

Amazon S3

Amazon Simple Storage Service(S3)는 업계 최고 수준의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 객체 스토리지 서비스입니다. 

자세히 알아보기 »

Amazon SQS

Amazon Simple Queue Service(Amazon SQS)를 사용하면 메시지 손실을 우려하거나 다른 서비스를 사용할 필요 없이 소프트웨어 구성 요소 간에 어떤 볼륨의 메시지든 전송, 저장 및 수신할 수 있습니다.

자세히 알아보기 »

더 많은 생명 과학 고객 사례

항목을 찾을 수 없음 

1

시작하기

모든 산업에서 다양한 규모의 조직이 AWS를 통해 매일 비즈니스를 혁신하고 임무를 수행하고 있습니다. 지금 전문가와 상담하고 AWS로의 여정을 시작하세요.