텍사스 주 휴스턴의 Baylor College of Medicine에는 연방 기금이 지원되는 미국 내 유전체 염기 서열 분석 센터 세 곳 중 하나인 Human Genome Sequencing Center(HGSC)가 있습니다. HGSC의 프로젝트 중 하나인 CHARGE(Cohorts for Heart and Aging Research in Genomic Epidemiology) 프로젝트는 전 세계 5개 연구소의 과학자 200명 이상으로 이루어진 컨소시엄으로서 노화와 심장병의 원인 유전자를 파악하는 연구를 합니다. 현재 진행 중인 컨소시엄인 CHARGE 프로젝트는 미국 국립 심폐 혈액 연구소(NHLBI)의 대규모 집단 연구와 유럽의 유사 연구에서 진행되는 유전자 시료와 표현형 데이터를 분석합니다. CHARGE와 Baylor College of Medicine은 협업을 통해 수많은 연구 참가자들의 염기 서열을 분석하고 Baylor의 Mercury 분석 파이프라인을 통해 이들을 처리함으로써 유전적 변이가 뇌졸중 및 심장병의 예방과 치료에 어떤 역할을 할 수 있는지에 대한 과학자들의 이해를 높입니다. Baylor에는 매달 약 24테라바이트의 콘텐츠(원시 데이터 약 1PB)를 산출하는 20개의 염기 서열 분석기가 있습니다. 연구 참가자는 현재 14,000명에 이릅니다. 데이터 리소스의 규모는 혁신적인 데이터 솔루션을 필요로 합니다.

DNAnexus는 DNA 염기 서열 분석 센터와 연구자들을 위한 데이터 관리, 차세대 염기 서열 데이터 분석, 안전한 협업을 제공합니다. DNAnexus의 서비스는 고객 특유의 학문적 또는 상업적 요구를 충족할 수 있도록 확장되는 단일한 통합 시스템을 통해 제공됩니다. 이 통합 시스템에는 무엇보다 계산 및 저장을 위한 온디맨드 인프라, 생물정보학 및 클라우드 컴퓨팅 지원, 규정을 준수하는 안전한 협업이 포함됩니다. Amazon Web Services(AWS)에 구축된 DNAnexus PaaS 솔루션은 학문 기관, 정부 연구소, 생물 약제학 회사, 진단 테스트 공급업체에 의해 사용되고 있습니다.

사람들에게 특정 질환이나 질병이 어떻게 발생하는지 파악하기 위해 지난 세기 동안 수많은 연구에서 환자의 일생을 추적했습니다. DNA 염기 서열 분석 도구와 방대한 데이터 세트 관리 능력이 발전하면서 이런 연구 결과들이 이제는 CHARGE 프로젝트의 일환으로 다시 분석되고 있습니다. 전 세계의 CHARGE 과학자들은 이 데이터를 활용하여 질병의 원인과 예방법을 연구하고 있습니다.

그러나 DNA 염기 서열 분석 장치의 효율이 향상되고 유전체 시험이 일반화되면서 분석해야 할 데이터의 양은 실로 방대해졌습니다. CHARGE 프로젝트에서 사용되는 데이터만 430TB를 넘기 때문에 관심을 가진 과학자들에게 데이터를 배포하는 것조차 만만치 않다는 것이 밝혀졌습니다. 예전에는 데이터가 들어 있는 하드 드라이브를 암호화한 다음 CHARGE 프로젝트에 참여하는 200명 이상의 과학자들에게 우편으로 보냈는데, 정보 공유가 지연되고 데이터 보안에도 문제가 있었습니다. Baylor의 수석 프로그래머 과학자인 Narayanan Veeraraghavan은 "하드 드라이브를 이렇게 많은 사람에게 배송해야 한다면 물류가 끔찍할 것입니다."라고 말합니다. "모든 지점에서 데이터를 암호화해야 합니다. 워낙 많은 하드 드라이브가 워낙 많은 과학자들의 손을 거치다 보면 숱한 실패가 있기 마련인데, 보안 지침을 모두가 따를 수는 없기 때문입니다."

인프라의 어려움만 해도 상당했습니다. "데이터 저장과 컴퓨팅의 특정 요구를 충족하기 위한 인프라 구축에만 두 달이 걸립니다."라고 Veeraraghavan은 말합니다. "이 기간 동안 기술이 바뀔 수 있고, 프로토콜이 바뀔 수 있으며, 염기 서열 분석 플랫폼이 업데이트되면 염기 서열 분석 장치의 출력이 두 배로 늘어납니다. 그러니 하드웨어 요구를 계획하고 추정하는 데 들인 시간 동안 수요가 두 배로 뛰는 셈이죠." Baylor는 또 과학자들이 운영 체제를 넘나들며 도구를 공유할 수 있기를 원했습니다.

Veeraraghavan은 로컬 계산 부담이 "프로젝트를 좌절시킬 수 있습니다."라고 말합니다. "대규모 작업과 엄청난 양의 데이터 저장이 가능해야 합니다. 우리에게는 다른 솔루션이 필요했고, 그렇지 않으면 CHARGE 연구의 비용은 감당 못할 정도로 늘어났을 겁니다. 필요한 컴퓨팅 리소스를 자체적으로 충당하기는 어렵거나 불가능했습니다."

Baylor에 필요한 것은 물리적 인프라 구축을 위한 지연 없이 안전하고 효과적인 전 세계 협업을 제공할 수 있는 경제적이고 유지 관리가 간편한 솔루션이었습니다. "우리에게는 인프라 구축에 몇 달을 소모할 여유가 없었고, 효율적이고 안전한 양방향 공유가 필요했습니다."라고 Veeraraghavan은 말합니다.

또한, 솔루션은 임상 표준과 HIPAA 요구 사항을 충족할 수 있을 만큼 유연해야 했습니다. "이러한 점을 모두 고려한 결과, 자연스럽게 DNAnexus와 AWS 클라우드로 마음이 기울었습니다."

Baylor가 파트너로 결정한 DNAnexus는 임상 및 연구 기업들이 분석 파이프라인과 데이터를 AWS 클라우드로 효율적이고 안전하게 옮길 수 있게 해 주는 API 기반 PaaS를 제공합니다. DNAnexus는 고객들이 업계에서 인정받는 도구 및 참조 리소스와 더불어 전용 알고리즘을 클라우드로 포팅하여 맞춤형 워크플로를 만들 수 있게 해 줍니다. DNAnexus PaaS는 전적으로 AWS에서 구축되므로 DNAnexus는 시스템을 AWS 클라우드에서 오케스트레이션된 20,000개 이상의 동시 컴퓨팅 코어, 1PB의 스토리지, 수백만 시간의 분석, 수십만 개의 컴퓨팅 작업까지 확장할 수 있었습니다. AWS는 DNAnexus에 BAA(Business Associates Agreement)도 제공했고, 이를 통해 DNAnexus는 미국은 물론 국제적으로도 동급 최고의 보안과 보건 법률 준수를 제공할 수 있었습니다. 고객들은 AWS를 통해 HIPAA 준수 워크로드를 구축하고 실행할 수 있습니다.

CHARGE 프로젝트는 Baylor의 분석 파이프라인인 Mercury를 사용하여 데이터를 처리합니다. Mercury 파이프라인은 염기 서열 분석 장치의 원시 데이터를 사용해 이 데이터를 최종 결과물인 주석이 달린 변이 검출 파일로 변환함으로써 임상적으로 유의미할 수 있는 변이를 식별합니다. 다운스트림 과학자들은 3차 분석을 실시하여 추가 연구 질문 해결에 매달립니다. 소수의 연구자들은 각 유전 표지의 생물 작용을 더욱 자세히 살펴보는 도구를 개발 중인데, 예측 유전자와 보호 유전자에 관한 새로운 발견을 통해 데이터를 재처리할 수 있습니다. 연구자들은 DNAnexus 플랫폼을 사용해 서로 다른 도구를 비교하고 지리적 경계를 넘어 이를 공유할 수 있습니다.

DNAnexus는 Amazon Simple Storage Service(Amazon S3)와 Amazon Glacier를 사용하여 1PB 이상의 게놈 데이터를 저장합니다. DNAnexus에서 만든 명령줄 도구는 과학자들에게 DNA 데이터를 염기 서열 분석 장치에서 클라우드로 직접 업로드할 수 있는 옵션을 제공하므로, 값비싼 온프레미스 스토리지 인프라가 필요 없습니다. Amazon Elastic Compute Cloud(Amazon EC2)는 DNA 분석 자체를 호스팅합니다. DNAnexus가 개발한 맞춤형 큐잉 시스템은 Amazon EC2 인스턴스에서 작동하며 데이터 처리 중단에 대처하도록 설계되었습니다.

DNAnexus는 비용 최적화를 위해 웹사이트, 고객 프런트엔드 포털, DNA 시각화 도구 및 백엔드 클라우드, 작업 관리 서비스 등 대화형 서비스에 Amazon EC2 예약 인스턴스를 사용합니다.

DNAnexus.arch

그림 1. AWS 클라우드상의 Baylor HGSC 아키텍처

Baylor와 DNAnexus는 AWS가 제시하는 모범 사례를 이용해 Mercury 파이프라인에 대한 액세스를 제어함으로써 CHARGE 데이터를 보호합니다. "우리는 사람들의 민감한 의학적 정보를 다룹니다."라고 Veeraraghavan은 말합니다. "1개의 파이프라인을 사용하고 그 파이프라인에 대한 액세스를 제어하면 위험이 최소화되는 환경을 구축할 수 있습니다." AWS의 엄격한 보안 프로토콜을 통해 DNAnexus는 HIPAA, CLIA 및 기타 복잡한 규제 수단에 부합하는 동급 최고의 보안, 준수, 감사 표준을 제공할 수 있습니다. DNAnexus의 최고 클라우드 책임자인 Omar Serang은 "우리는 전에는 불가능했던 규모의 안전한 규정 준수 환경에서 계산 인프라를 요하는 초거대 규모의 임상 연구를 지원할 수 있습니다."라고 말합니다.

Baylor는 AWS와 DNAnexus로 옮긴 후 첫 번째 분석을 10일 안에 완료했고(로컬 인프라를 사용하던 때에 비해 다섯 배 빠른 속도), 결과를 신속히 공유할 수 있었습니다. 분석에는 21,000개의 코어가 소요됐는데, Amazon EC2 XL 인스턴스 하나에는 16개의 가상 코어가 있습니다. "AWS 클라우드를 사용하면 데이터가 수백 테라바이트에 이르더라도 빠른 협업이 가능합니다." Veeraraghavan의 말입니다. "사람들이 이 데이터를 처리할 수 있는 중앙 영역을 둘 수 있으면 대역폭뿐 아니라 막대한 계산 리소스를 구입하고 유지할 필요가 줄어들죠."

과학자들의 협업을 돕기 위해 하드 드라이브를 발송해야 했던 시절과는 완전히 달라진 것입니다. Baylor와 CHARGE는 AWS 및 DNAnexus를 통해 서로 다른 시스템을 사용하는 과학자들에게 분석 도구를 공유할 수 있는 공통 환경을 제공할 수 있었습니다. Veeraraghavan은 "과학자의 운영 체제가 Mac이건 Linux건 Windows건 DNAnexus에서는 모든 CHARGE 데이터에서 어떤 도구든 실행할 수 있습니다."라고 말합니다. CHARGE 담당 수석 DNAnexus 과학자인 Andrew Carroll은 이렇게 덧붙였습니다. "AWS 클라우드를 사용하면 도구를 비교할 수 있어서 무엇이 프로젝트에 효과적이고 무엇이 효과가 없는지 이해할 수 있습니다. AWS 클라우드의 DNAnexus로 연구자들은 배운 것을 과학계와 공유할 수 있습니다."

AWS 클라우드의 확장성은 CHARGE 과학자들이 연구 중인 질환에 대한 예측력을 높이는 데 도움이 됩니다. 이들은 또 특정 질환의 발현을 막는 데 도움이 될 수 있는 "보호" 유전자를 빠르고 안전하게 식별할 수 있습니다. Carroll은 "이 점이 AWS 클라우드로 가려는 이유를 가장 잘 보여 줍니다."라고 말합니다. "CHARGE는 목표 달성을 위해 가능한 한 짧은 기간 동안 아주 높은 최대 부하로 작업해야 합니다. DNAnexus는 AWS 클라우드를 사용함으로써 AWS 기술 위에 자체 PaaS를 탄력적으로 구축할 수 있습니다. 우리는 DNAnexus 시스템을 실질적으로 무제한의 컴퓨팅 및 데이터 스토리지 리소스까지 확장할 수 있습니다."

무엇보다도 CHARGE 과학자들은 DNAnexus와 AWS를 사용함으로써 인프라가 아닌 과학에 집중할 수 있습니다. "큰일이 닥칠 때마다 인프라를 업그레이드하려면 공간은 차치하더라도 상당한 투자가 필요합니다." Veeraraghavan은 말합니다. "이런 종류의 컴퓨팅은 일회성도 아닙니다. 계속 기하급수적으로 증가합니다. 과학의 지평선을 찾는 우리 능력에는 온갖 한계가 도사리고 있습니다. 하지만 지금은 AWS와 DNAnexus 덕에 인프라 대신 과학에 집중할 수 있습니다."

클라우드의 유전체학에 대해 자세히 알아보려면 AWS 유전체학 세부 정보 페이지를 방문하십시오.