lncRNA 분석에는 많은 컴퓨팅 처리와 통합이 필요합니다. AWS를 사용하여 1,000개 이상의 노드에서 컴퓨팅함으로써 게놈 염기 서열 분석 시간을 몇 주에서 며칠로 단축할 수 있게 되었습니다. 
Mitch Guttman 박사 생물학 및 생물 공학 부문 부교수

California Institute of Technology(Caltech)의 Guttman Lab for lncRNA Biology는 저명한 과학자인 Mitch Guttman 박사가 이끄는 연구소입니다. Guttman 박사는 lncRNA(대형 비번역 RNA의 약자)라는 새로운 유전자 클래스를 연구하는 연구팀을 맡고 있습니다. 생화학, 분자생물학, 세포생물학 및 계산생물학과 더불어 게놈 접근법을 사용하여 Guttman과 그의 팀은 lncRNA가 어떻게 세포의 단백질과 DNA 분자를 조직하여 정밀 유전자 발현 프로그램을 제어하는지 탐색하고 있습니다.

2013년에 Guttman 박사가 Caltech에 합류했을 때 그는 연구팀에서 탄력적이고 유연한 고성능 컴퓨팅(HPC) 클러스터를 사용할 수 있기를 원했습니다. "우리 연구소용 클러스터를 생각했을 때 우리는 이 클러스터가 변동이 심한 컴퓨팅 수요를 지원할 수 있어야 한다는 걸 알았습니다."라고 Guttman은 말합니다. "어떤 때는 1,000개의 컴퓨팅 노드가 필요하고, 또 어떤 때는 10개면 충분합니다. 데이터 가용성과 연구 프로젝트의 현재 단계에 따라 달라집니다. 여러 프로젝트가 동시에 몰리면 더 많은 수의 노드가 필요할 수 있습니다."

하지만 연구소에서는 이러한 수요를 지원하기 위해 자체 온프레미스 클러스터를 구축해야 하는 상황은 원치 않았습니다. "캘리포니아는 미국에서 부동산과 전기 요금이 가장 높은 지역 중 하나입니다. 우리는 여기에서 자체 클러스터를 구축할 때의 비용이 우려되었습니다."라고 Caltech의 정보 관리 시스템 및 서비스 부문 책임 관리자인 John Lilley는 말합니다. "또한, 클러스터를 관리하고 유지하는 데 시간을 쓰고 싶지 않았습니다."

게다가 Guttman과 그의 팀은 클러스터 액세스 자격 증명을 쉽게 관리할 수 있길 바랐습니다. "자격 증명이 누락된 시스템이 있는 건 아닌지 걱정하지 않도록 한 곳에서 클러스터 사용자 계정을 활성화 및 비활성화할 수 있길 원했습니다."라고 Lilley는 말합니다.

Caltech은 이미 전체 웹 환경을 Amazon Web Services(AWS) 클라우드 플랫폼으로 이전했고 Guttman Lab 역시 AWS를 사용하여 HPC 클러스터를 지원하기로 했습니다. "우리는 컴퓨팅 리소스에 클라우드를 사용할 방법을 모색하고 있었고 AWS가 최상의 선택이었습니다. 우리가 찾고 있던 탄력성, 유연성 및 비용 절감을 제공했기 때문입니다."라고 Lilley는 말합니다.

Guttman Lam은 Amazon Virtual Private Cloud(VPC)에 연결된 컴퓨터가 포함된 HPC 클러스터를 사용합니다. 이를 통해 연구소는 AWS 클라우드의 논리적으로 격리된 섹션을 프로비저닝하여 정의된 가상 네트워크에서 AWS 리소스를 시작할 수 있습니다. 연구동과 실험동의 연구원은 게놈 염기 서열 데이터를 확보하여 Amazon VPC 내 GlusterFS 파일 시스템에 저장하고, 공유된 AWS 기반 Linux 워크스테이션을 사용하여 데이터에 액세스하며 AWS Directory Service 중 Active Directory 호환 디렉터리인 Simple AD를 통해 인증을 받습니다.

또한, 이 연구소는 비 Linux 사용자를 위한 Amazon WorkSpaces 관리형 데스크톱 컴퓨팅 서비스를 사용합니다. "우리는 Windows 사용자에게 연구동 PC에서 Amazon WorkSpaces에 연결하고 Linux 사용자와 같은 수준의 데이터 액세스 권한을 확보할 수 있는 기능을 제공하고자 했습니다."라고 Lilley는 말합니다. "그리고 우리는 Simple AD를 사용하여 손쉽게 액세스를 관리할 수 있습니다." 이 연구소에서는 GlusterFS 노드를 위해 Amazon Elastic Compute Cloud(EC2) 인스턴스를 사용하고, CfnCluster 프레임워크를 사용해 AWS에서 HPC 클러스터를 배포 및 유지 관리합니다. 연구팀에서는 이러한 클러스터를 사용하여 실험 데이터를 분석할 컴퓨팅 도구와 통계 메서드를 개발합니다.

AWS를 통해 이제 Guttman Lab에서 변동이 심한 컴퓨팅 수요를 관리할 수 있는 탄력성을 확보했습니다. "주기적인 컴퓨팅 사용량을 관리하기 위해 자체 물리적 클러스터를 구축할 필요가 없었습니다. AWS에서 자동으로 확장해주기 때문입니다."라고 Lilley는 말합니다. Guttman은 "이제는 미리 프로젝트의 우선순위를 정하느라 시간을 소비할 필요가 없습니다. 몇 년마다 하드웨어를 갱신하지 않고도 충분한 컴퓨팅 파워를 확보할 수 있다는 걸 알기 때문이죠. 또한, 새로운 연구 메서드를 적극적으로 개발하고 테스트할 수 있습니다. AWS는 우리 연구소에 중요한 조력자입니다."

또한, 이 연구소는 필요할 때 컴퓨팅 리소스를 손쉽게 추가할 수 있는 민첩성도 확보했습니다. "최근에 GlusterFS 시스템을 5테라바이트에서 24테라바이트로 확장해야 했습니다. 새로운 하드웨어를 구매하지 않고 용량을 확장할 수 있었습니다."라고 Lilley는 말합니다. "Amazon EC2 노드를 추가하고 클라우드 스토리지를 늘리기만 하면 되었고, 1시간밖에 걸리지 않았습니다. 이전이라면 몇 주가 걸렸을 것입니다. 하드웨어 구매 가격을 논의하고 그런 다음 구매하고 설치한 후 테스트를 거쳐야 하기 때문입니다."

또한, 연구소의 연구원은 AWS 클라우드를 사용하여 lncRNA 데이터를 더 빠르게 분석할 수 있습니다. "lncRNA 분석에는 많은 컴퓨팅 처리와 통합이 필요합니다."라고 Guttman은 말합니다. "AWS를 사용하여 1,000개 이상의 노드에서 컴퓨팅함으로써 게놈 염기 서열 분석 시간을 몇 주에서 며칠로 단축할 수 있게 되었습니다. 이전에 갖고 있던 한정된 파워로는 불가능했을 것입니다."

또한, 이 연구소는 Amazon EC2 스팟 인스턴스를 사용하여 예비 Amazon EC2 컴퓨팅 파워에 입찰함으로써 비용을 절감할 수 있었습니다. "AWS를 통해 확보하는 탄력적 컴퓨팅 성능과 EC2 스팟 인스턴스의 비용 효율성을 고려할 때 이 클러스터는 우리가 자체적으로 구축할 수 있는 그 어떤 것보다 훨씬 저렴합니다."라고 Guttman은 말합니다.

Guttman Lab은 Amazon WorkSpaces와 Simple AD를 사용하여 HPC 클러스터에 대한 액세스를 쉽게 관리할 수 있습니다. "처음 클러스터를 시작했을 때는 Linux 데스크톱에서 관리 호스트와 CfnCluster까지 자격 증명을 동기화하기가 쉽지 않았습니다."라고 Lilley는 말합니다. "Simple AD가 클러스터에 통합된 후로는 중앙 위치에서 사용자 계정을 활성화 및 비활성화할 수 있어 많은 시간이 절약되었습니다. Simple AD는 전체 환경에서 일관성을 유지하는 데 도움이 되었습니다."

앞으로 Caltech은 더 많은 실험실과 부서를 AWS에서 운영할 계획입니다. "우리가 AWS에서 구축한 것을 다른 캠퍼스의 게놈 연구원에게도 전파하려고 합니다."라고 Lilley는 말합니다. "우리는 이를 Caltech의 HPC용 템플릿으로 생각하고 있습니다."

클라우드에서의 유전체학에 대해 자세히 알아보려면 클라우드에서의 유전체학 세부 정보 페이지를 참조하십시오.

귀사에서 HPC 클러스터를 관리하는 데 AWS가 어떻게 도움을 줄 수 있는지 자세히 알아보려면 AWS HPC 시작하기 페이지를 참조하십시오.