Quantitative Biology Center, AWS를 사용하여 새로운 유전체 연구 가속화

QuadX

유전자 발현 차이 분석

Quantitative Biology Center(QBiC)의 연구원은 매일 HPC(고성능 컴퓨팅) 플랫폼을 사용하여 유전체 데이터를 분석하고 유전자 발현 차이(예: 정상 조직과 병든 조직 간의 차이)를 결정합니다. QBiC은 독일 튀빙겐 대학교에 위치하며 대학 내의 유전체 연구와 전 세계 조직의 다른 연구 활동을 지원합니다.

QBiC의 HPC 워크로드는 대부분 온프레미스 데이터 센터에서 호스팅됩니다. 그런데 연구 데이터의 볼륨이 급속도로 증가하면서 QBiC은 빠르고 비용 효율적인 조정이 어려워질 것으로 예측되고 있습니다. QBiC의 생물정보학 선임 연구원인 Alex Peltzer는 “데이터 볼륨이 크게 증가하면서 온프레미스 인프라가 제공할 수 있는 것보다 훨씬 더 많은 계산 용량이 필요하다는 것을 알게 되었다”면서 “플랫폼을 사용하는 연구원들도 더 많은 데이터를 분석하고 연구를 빠르게 완료하려면 더 높은 성능이 필요했다”고 말합니다. QBiC은 FAIR 데이터 원칙, 즉 검색 가능성, 액세스 가능성, 상호 운용 가능성 및 재현 가능성에 따른 데이터 처리에 가장 높은 가치를 둡니다. Peltzer는 “FAIR 처리 요구 사항을 충족하려면 효율적인 조정이 필요한데, 쉽게 조정할 수 없었다”고 말합니다.

“평가 중인 설정에서 AWS Batch의 자동화와 오케스트레이션을 통해 유전체 연구 시간을 50% 단축할 수 있을 것으로 확인되었습니다.”

Alex Peltzer, 튀빙겐 대학교 Quantitative Biology Center 생물정보학 선임 연구원

  • Quantitative Biology Center 소개
  • Quantitative Biology Center(QBiC)는 독일의 튀빙겐 대학교 부속 연구소입니다. QBiC에서는 내부 및 외부 연구원의 유전체 데이터 분석 및 처리 작업을 위한 HPC 연구 플랫폼을 호스팅합니다.

  • 이점
    • 단일 연구 프로젝트에서 1십만 개의 유전체 샘플 처리 가능
    • 유전체 연구 시간을 50% 단축
    • 유전자 발현 차이에 대한 연구 속도 개선
    • 분석 비용 절감
  • 사용된 AWS 서비스

HPC 연구 플랫폼과 AWS 기반 클라우드 컴퓨팅 활용

확장성과 성능에 대한 QBiC의 요구 사항은 Amazon Web Services(AWS) 클라우드로 이어졌습니다. Peltzer는 “클라우드에서는 요구 사항이 충족될 것임을 알았는데, AWS는 다른 제공업체보다 더 발전된 기술을 제공한다”고 말합니다. 또한 AWS는 소프트웨어 컨테이너를 사용하여 확장 가능한 과학 워크플로를 지원하는 Nextflow 및 nf-core 프레임워크와도 통합됩니다. Peltzer는 “AWS는 Nextflow와 아주 잘 연동되는데 다른 어떤 클라우드 제공업체도 이 통합을 지원할 수 없었다”면서 “이 통합이 없었다면 많은 시간과 비용을 들여 예약 기능을 직접 다시 써야 했을 것”이라고 말합니다.

QBiC은 인텔 제온 스케일러블 프로세서로 구동되는 Amazon Elastic Compute Cloud(Amazon EC2) 인스턴스를 기존 온프레미스 인프라에 활용하기로 선택했습니다. QBiC은 이제 AWS에서 Nextflow를 실행하여 워크플로 관리를 지원하고 AWS Batch를 사용하여 Nextflow 배치 작업의 자동화 및 오케스트레이션을 수행합니다.

또한 조직은 Amazon EC2 스팟 인스턴스를 사용하여 분석 비용을 절감하고 있습니다. EC2 스팟 인스턴스는 AWS의 예비 컴퓨팅 용량으로, 온디맨드 인스턴스 대비 최대 90% 할인된 요금으로 제공됩니다. Peltzer는 “Amazon EC2 스팟 인스턴스를 사용하여 분석 비용을 절감하고 있다”면서 “이렇게 절감한 비용을 연구에 투입할 수 있다”고 말합니다.

1십만 개의 유전체 샘플 처리

AWS 기반 Nextflow에서 분석 워크로드를 실행하면 QBiC은 병렬 처리를 활용하고 필요에 따라 규모를 조정할 수 있습니다. Peltzer는 “AWS를 사용하면 단일 연구 프로젝트에서 30개 유전체 샘플을 처리하든 1십만 개 샘플을 처리하든 HPC 플랫폼을 빠르게 스케일 업하거나 스케일 다운할 수 있다”고 말합니다. 또한 QBiC과 연구 고객들은 유전체 염기서열 결정 작업의 신뢰성이 향상되는 것을 경험했습니다. Peltzer는 “작업 처리를 위해 대기 중인 사람이 많은 경우에도 시스템 중단과 성능 저하에 대해 걱정할 필요가 없다”고 말합니다. 현재 이 연구 설정은 기술적 연구 프로젝트에서 실행되지만 현재의 결과를 보면 프로덕션 사용으로 전환될 가능성이 높습니다.

유전체 연구 시간을 50% 단축

벤치마킹 프로젝트에서 QBiC은 Amazon EC2 및 AWS Batch를 사용하여 대학과 센터 리소스를 공유하는 민간 연구 조직에 대한 모든 작업의 연구 및 처리 시간을 단축했습니다. Peltzer는 “평가 중인 설정에서 AWS Batch의 자동화와 오케스트레이션을 통해 유전체 연구 시간을 50% 단축할 수 있을 것으로 확인되었다”면서 “온프레미스 환경에 비해 훨씬 더 빠르게 작업을 수행할 수 있다”고 말합니다.

결과적으로 QBiC과 독일 전역의 다른 연구 기관에서는 AWS 클라우드 애플리케이션을 사용할 가능성이 높은 것으로 보고 있습니다. 이 분산 인프라는 QBiC에서 유전자 발현을 분석하는 연구를 빠르게 완료하여 암과 관련이 있는 돌연변이를 찾는 데 도움이 될 수 있습니다. Peltzer는 “AWS에서 유전체 염기서열 결정을 수행할 때는 식물과 동물 데이터를 사용하여 실험 치료에 따라 특정 유전자의 발현이 어떻게 달라지는지 관찰한다”고 말합니다.

QBiC은 연구 요구 사항이 증가함에 따라 계속해서 AWS 서비스의 사용을 평가할 것입니다. Peltzer는 “향후 몇 년 안에는 우리 센터가 독일 최대 규모의 공공 유전체 염기서열 결정 허브가 될 것으로 기대한다”면서 “이를 가능하게 하는 데 AWS가 많은 도움이 될 것”이라고 말합니다.

자세히 알아보기

자세히 알아보려면 aws.amazon.com/hpc를 방문하세요.