뉴욕 주 뉴욕 시에 있는 마운트 시나이 아이칸 의대는 의학 및 과학 교육, 생명의학 연구, 환자 치료 분야에서 국제적으로 인정받는 기관입니다. 이 기관은 생명의학 지식의 확장을 통해 전문적인 임상 치료를 제공하고 지역 사회에 봉사합니다. 마운트 시나이 병원과 긴밀히 협력하는 아이칸 의대는 세계에서 가장 다양하고 복잡한 환자군 중 하나에 서비스를 제공합니다.

아이칸 의대의 연구원과 의사들은 유방암과 난소암의 유전적 비밀을 밝혀내려 노력하고 있습니다. 마운트 시나이의 John A. Martignetti 박사와 Peter R. Dottino 박사 및 Station X의 공동 연구자들은 TCGA(The Cancer Genome Atlas Consortium)에 의해 생성된 2,000종 이상의 유방 및 난소 종양과 생식세포 DNA 염기 서열을 조사하고 있습니다. TCGA는 대규모 유전체 염기 서열 분석을 포함한 유전체 분석 기술 응용을 통해 암의 분자적 기초에 대한 이해를 앞당기려는 종합적인 공동 프로젝트입니다. TCGA는 미국 보건복지부 국립 보건원 산하의 27개 연구소와 센터 중 두 곳인 미국 국립 암 연구소(NCI)와 미국 국립 인간 유전체 연구소(NHGRI)의 공동 프로젝트입니다.

100TB를 넘는 데이터를 분석하고 새로운 가설을 고안해 데이터를 다시 분석해야 하기 때문에 이것은 상당한 컴퓨팅 성능을 요하는 중요한 문제입니다. 유방암이나 난소암이 발병할 유전적 위험이 있는 전체 여성 중 약 절반은 BRCA1 또는 2의 생식세포 돌연변이가 원인입니다. 연구원들은 BRCA1/2 돌연변이가 없는 사람들에게서 빠져 있는 유전적 연결 고리를 찾으려 노력하고 있습니다.

Martignetti 박사와 Dottino 박사는 Station X와 협력하면서 연구를 위한 강력하고 안전한 분석 플랫폼을 제공할 수 있는 솔루션 공급자의 힘을 빌릴 수 있었습니다. Station X는 초기 단계 연구와 임상 환경에서 인간 게놈 데이터를 다루는 과학자와 임상의를 위한 유전체학 소프트웨어 플랫폼인 GenePool™을 개발하고 있습니다.

몇 테라바이트에 달하는 게놈 데이터에서 정보를 수집하고 이러한 정보를 안전하게 보호하기 위해서는 빅 데이터 스토리지와 엄격한 액세스 제어 기능을 갖춘 유연한 고성능 플랫폼이 필요합니다. 클라우드 컴퓨팅은 바로 이런 경우를 위한 플랫폼입니다.

Amazon Web Services(AWS)는 동적으로 규모를 조정하여 수만 개의 게놈을 몇 분 만에 분석할 수 있는 Station X의 게놈 플랫폼인 GenePool의 기반입니다. Station X의 제품 담당 부사장인 Sandeep Sanga는 "AWS는 소프트웨어 환경을 구축하기에 이상적입니다. 우리는 AWS에 GenePool을 구축하여 연구자가 방대한 양의 데이터를 관리하고 분석할 수 있는 공간을 제공했습니다. 또한 여러 가지 뛰어난 서비스를 제공하기 때문에 AWS를 선택하게 되었습니다."라고 말합니다. Station X는 AWS를 사용하여 연구원이 빠르고 안전하게 시퀀스 데이터를 파악할 수 있도록 지원하는 GenePool 설계에 집중할 수 있었습니다.

마운트 시나이의 연구원에게 환자 데이터의 보안은 매우 중요합니다. Martignetti는 "우리 환자의 비밀 유지는 무엇보다도 중요합니다. 생성되는 데이터의 양이 이 정도로 많을 때는 더 그렇죠."라고 말합니다. "사소한 문제가 아닙니다. 하지만 우리는 AWS와 GenePool을 사용해 필요한 비밀 유지 기준을 충족했습니다." Station X는 AWS를 사용해 사전 승인된 연구원이 TCGA의 액세스 제어 데이터에 액세스하도록 할 수 있는데, Sanga의 말에 따르면 인가된 사용자는 "유방암이나 난소암이 있는 환자의 체세포 돌연변이와 생식세포 돌연변이를 계산하고 파악할 수 있습니다."

마운트 시나이 의대는 사용자 인증에 AWS Identity and Access Management(IAM)를 사용하는데, AWS ACL(액세스 제어 목록)을 사용한 계정 액세스 제어 및 관리로 안전하고 중앙 집중적인 사용자 및 자격 증명 관리를 제공합니다. Amazon Simple Notification Service(Amazon SNS)와 Amazon Simple Email Service(Amazon SES)는 알림 및 경보가 필요한 관리자와 최종 사용자에게 아웃바운드 메시징 서비스를 제공합니다.

Elastic Load Balancing은 Station X가 Amazon VPC 환경에서 복원력이 높고 안전하며 확장 가능한 웹 및 API 아키텍처를 갖춰 네트워크의 인터넷 노출로부터 데이터 스토어와 중간 계층을 격리시키는 데 도움이 됩니다. Sanga는 "데이터 스토어와 중간 계층을 네트워크의 인터넷 노출로부터 격리시킴으로써 우리 서버 전체를 비공개로 유지하여 보안 풋프린트를 근본적으로 제거할 수 있습니다."라고 말합니다.

마운트 시나이 의대의 연구원들은 AWS 클라우드를 사용하여 Amazon Simple Storage Service(Amazon S3)와 Amazon Glacier의 추가 스토리지에 저장된 방대한 게놈 데이터에서 유의미한 정보를 관리하고 추출합니다.

Station X는 중요한 고가치 데이터에 Amazon Elastic Block Store(Amazon EBS) 스토리지를 사용하여 방대한 양의 사전 계산된 데이터를 실시간 게놈 분석을 위해 제공할 수 있는 유연한 고성능 스토리지 시스템을 구현할 수 있습니다.

Amazon Elastic Compute Cloud(Amazon EC2)는 GenePool의 내장 통계 모델, 시각적 필터링 기능, 게놈 및 임상 주석 데이터베이스와의 풍부한 통합 및 RESTful 웹 서비스를 통한 지원 통합을 지원합니다. "Amazon EC2의 탄력성을 통해 경제적이면서 동적 확장이 가능한 방식으로 중요한 데이터를 처리하고 분석할 수 있습니다."라고 Sanga는 말합니다. 마운트 시나이 의대는 환자에게서 도출한 게놈 데이터의 안전한 보관과 GenePool에서의 분석 준비를 위해 전용 Amazon S3 스토리지를 사용합니다. 그림 1은 마운트 시나이 의대의 아키텍처를 보여 줍니다.

mount-sinai-arch-diag

그림 1. 마운트 시나이 연구 아키텍처

시스템의 효과적 작동을 위해 GenePool은 Amazon CloudWatch를 모니터링에 사용합니다. Amazon ElastiCache는 대규모 데이터 세트의 분석 결과를 신속히 반환할 수 있는 중앙 집중식 캐싱 메커니즘을 제공합니다. Sanga는 "우리가 AWS에 구축한 게놈 소프트웨어 플랫폼 덕에 과학자들은 중요한 질문에 몇 분 또는 몇 초 안에 답변할 수 있습니다."라고 말합니다.

이제 Martignetti 박사와 Dottino 박사는 AWS와 GenePool을 사용하여 TCGA(The Cancer Genome Atlas) 프로젝트에서 수천 건의 환자 기록을 신속히 조사해 이들의 과학적 가설에 맞는 수많은 신규 후보 유전자에서 유전적 변이를 파악할 수 있습니다. 이들 후보 유전자를 다른 게놈 데이터와 교차 대조함으로써 Martignetti 박사와 Dottino 박사는 유전적 유방암과 난소암의 새로운 잠재적 표지를 위한 후보 유전자 목록을 늘릴 수 있었습니다.

Martignetti는 "AWS 클라우드 전에는 이런 방대한 데이터 세트를 외부 공동 연구원과 함께 분석할 방법이 없었습니다."라고 말합니다. "유의미한 방법으로 데이터를 조사하고 분석하고 다시 필터링하는 건 불가능했죠. 모두 빠져 있는 연결 고리를 찾는 연구에 중요한 작업인데도 말이죠."

Station X는 AWS에 GenePool을 구축함으로써 우리의 해석 및 임상 유전체학 고객을 위한 데이터 세트 저장 능력을 갖게 되었다고 Sanga는 말합니다. 그는 "AWS 사용을 통해 빠른 데이터 액세스, 풍부한 스토리지, 엄청난 컴퓨팅 성능 등 상당한 경쟁력을 갖추게 되었습니다."라고 덧붙였습니다. "이런 연구 프로젝트에는 끝이 없습니다. 분석할 데이터는 늘 더 있기 마련이죠. 그래서 연구원들이 과학적 결론에 도달하도록 도와줄 때도 늘 더 배울 것이 있습니다. AWS 사용을 통해 우리는 이런 문제에 대해서도 한결 유리한 입장에 서게 되었습니다."

AWS 클라우드에서 이 분석을 안전하게 실행할 수 있는 능력이 없다면 마운트 시나이의 의사들은 연구를 계속 진행할 수 없을 겁니다. "우리는 AWS를 사용함으로써 원본 파일을 안전하고 경제적으로 저장할 수 있게 되었고 내구성과 접근성까지 갖추게 되었습니다. 이것 없이는 연구를 수행할 수 없을 겁니다."라고 Martignetti는 말합니다. "다만 AWS와 GenePool을 통해 왜 일부 여성이 이런 암 발병 위험이 높은지 설명해 줄 수 있는 빠진 연결 고리에 해당하는 돌연변이를 발견하기를 희망합니다."

클라우드의 유전체학에 대해 자세히 알아보려면 AWS 유전체학 세부 정보 페이지를 방문하십시오.