Amazon Web Services 한국 블로그
Amazon Omics 정식 출시 – 게놈 및 생물학적 데이터 구축 및 분석 서비스
고등학교 생물학 수업에서는 인간 게놈은 디옥시리보핵산(DNA)에서 쌍을 이루는 아데닌(A), 구아닌(G), 시토신(C), 티민(T)으로 이루어진 30억 개 이상의 코드로 구성된다는 것을 배웁니다. 인간 게놈은 모든 인간 세포의 생물학적 청사진 역할을 합니다. 이는 우리를 인간이게 하는 근간일 뿐입니다.
의료 및 생명과학 조직은 환자 치료를 개선하고 과학적 연구를 증진하기 위해 수많은 유형의 생물학적 데이터를 수집합니다. 이러한 기관들은 질병과 개인의 유전적 소인 간의 상관관계를 밝히거나, 단백질 구조 및 작용 기전을 기준으로 신약 표적을 식별하거나, 특정 세포에서 발현되는 유전자에 따라 종양을 프로파일링하거나, 장내 세균이 인체 건강에 미치는 영향을 조사합니다. 이러한 연구를 통틀어 ‘오믹스(omics)’라고 합니다.
AWS는 10년 넘게 의료 및 생명과학 조직이 이 데이터를 유용한 인사이트로 신속하게 변환할 수 있도록 지원해왔습니다. Ancestry, AstraZeneca, Illumina, DNAnexus, Genomics England, GRAIL 등 여러 업계 리더들이 검색 시간을 단축하는 동시에 비용을 절감하고 보안을 강화하기 위해 AWS를 활용하고 있습니다.
이들 고객과 다른 고객의 운영 규모는 계속해서 빠르게 커지고 있습니다. 수천 또는 수십만(또는 그 이상)에 이르는 사람의 오믹스 데이터를 비교하고 분석하면, 질병을 예측하고 다양한 약물 치료의 효능을 예측하기 위한 새로운 인사이트를 얻을 수 있습니다.
하지만, 데이터가 수 페타바이트에 달할 수 있는 이 방대한 규모로 인해 복잡성이 가중될 수 있습니다. 저는 박사 과정에서 의료 정보학을 공부할 당시 데이터 액세스, 처리 및 도구에서 이러한 복잡성을 경험했습니다. 따라서 오믹스 데이터를 저장할 비용 효율적이고 액세스하기 쉬운 수단이 필요합니다. 정확성과 신뢰성을 유지하면서 수백만 개의 생물학적 샘플을 처리하도록 컴퓨팅을 확장해야 합니다. 또한 모집단 전반의 유전자 패턴을 분석하고 기계 학습(ML) 모델이 질병을 예측하도록 훈련시킬 특수한 도구가 필요합니다.
오늘 생물정보학자, 연구원 및 과학자들이 게놈, 전사체 및 기타 오믹스 데이터를 저장, 쿼리 및 분석한 후, 해당 데이터에서 인사이트를 도출하여 의료를 개선하고 과학적 발견을 앞당길 수 있도록 지원하는 전용 서비스인 Amazon Omics의 정식 출시를 발표하게 되어 기쁩니다.
Omics 콘솔에서 몇 번의 클릭만으로 페타바이트 규모의 데이터를 가져와 분석에 최적화된 형식으로 정규화할 수 있습니다. Amazon Omics는 오믹스 데이터를 준비 및 분석하고 기본 클라우드 인프라를 자동으로 프로비저닝 및 확장하기 위한 확장 가능한 워크플로와 통합 도구를 제공합니다. 따라서 여러분은 과학의 발전을 실현하는 데 집중하고, 발견한 결과를 진단 및 치료법으로 활용할 수 있습니다.
Amazon Omics에는 주요 세 가지 구성 요소가 있습니다.
- 고객이 저렴한 비용으로 효율적으로 데이터를 저장하고 공유할 수 있도록 지원하는 Omics에 최적화된 객체 스토리지
- 고객이 기본 인프라 프로비저닝에 대한 걱정 없이 지정한 분석을 정확하게 실행할 수 있는 생물정보학용 관리형 컴퓨팅 워크플로
- 모집단 차원의 변이 분석에 최적화된 데이터 스토어
이제 Amazon Omics의 각 구성 요소에 대해 자세히 알아보겠습니다. 일반적으로 데이터 스토어를 생성하고, 게놈 시퀀싱 원시 데이터와 같은 데이터 파일을 가져오고, 기본 생물정보학 워크플로를 설정하고, 기존 AWS 분석 및 ML 서비스를 사용하여 결과를 분석하는 단계를 따릅니다.
Omics 콘솔의 Getting Started(시작하기) 페이지에는 Amazon SageMaker 노트북과 Python SDK를 사용하는 자습서 예제가 포함되어 있습니다. 인간 게놈 참조를 사용한 예제를 통해 Amazon Omics 기능을 보여드리겠습니다.
Omics 데이터 스토리지
Omics 데이터 스토리지는 페타바이트 규모의 오믹스 데이터를 효율적으로 저장하고 공유하는 데 유용합니다. Omics 콘솔에서 데이터 스토어를 생성하고 샘플 데이터를 가져올 수 있으며, AWS Command Line Interface(AWS CLI)에서도 동일한 작업을 수행할 수 있습니다.
참조 스토어를 생성하고 참조 게놈을 가져와보겠습니다. 이 예에서는 s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta
Amazon S3 버킷에서 사용할 수 있는 오픈 액세스 Genome Reference Consortium Human Reference 38(hg38)을 사용합니다.
사전 요구 사항으로, 원하는 리전에 Amazon S3 버킷을 생성하고 S3 버킷에 액세스하는 데 필요한 IAM 권한을 생성해야 합니다. Omics 콘솔에서는 Omics 스토리지 설정 중에 IAM 역할을 손쉽게 생성하고 선택할 수 있습니다.
다음 AWS CLI 명령을 사용하여 참조 스토어를 생성하고, 게놈 데이터를 S3 버킷에 복사한 후 해당 데이터를 참조 스토어로 가져옵니다.
// 참조 스토어 생성
$ aws omics create-reference-store --name "Reference Store"
// 데이터 스토어로 참조 데이터 가져오기
$ aws s3 cp s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta,name=hg38 s3://channy-omics
$ aws omics start-reference-import-job --sources sourceFile=s3://channy-omics/Homo_sapiens_assembly38.fasta,name=hg38 --reference-store-id 123456789 --role-arn arn:aws:iam::01234567890:role/OmicsImportRole
콘솔에서도 결과를 확인할 수 있습니다.
이제 시퀀스 스토어를 생성할 수 있습니다. 시퀀스 스토어는 S3 버킷과 비슷합니다. 시퀀스 스토어의 각 객체를 ‘읽기 세트’라고 합니다. 읽기 세트는 유전체학 파일 형식 세트를 추상화한 것입니다.
- FASTQ – 시퀀서의 기반(시퀀스 문자)에 대한 정보와 관련 품질 정보를 저장하는 텍스트 기반 파일 형식입니다.
- BAM – 원시 읽기의 압축된 바이너리 버전과 해당 데이터의 참조 게놈에 대한 매핑입니다.
- CRAM – BAM과 유사하지만 참조 게놈 정보를 사용하여 압축을 지원합니다.
Amazon Omics를 사용하면 가져오는 읽기 세트에 도메인별 메타데이터를 지정할 수 있습니다. 이 메타데이터는 읽기 세트 가져오기 작업을 시작할 때 검색하고 정의할 수 있습니다.
이 예에서는 2,500명 이상의 개인으로부터 수집된 4천억여 개 데이터 포인트의 8천만 개 이상의 인간 유전자 변이에 대한 매우 상세한 카탈로그인 1000 Genomes Project를 사용할 것입니다. 시퀀스 스토어를 생성한 다음 게놈 시퀀스 파일을 해당 스토어로 가져와보겠습니다.
// 시퀀스 스토어 생성
$ aws omics create-sequence-store --name "MySequenceStore"
// 데이터 스토어로 참조 데이터 가져오기
$ aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_1.filt.fastq.gz s3://channy-omics
$ aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_2.filt.fastq.gz s3://channy-omics
$ aws omics start-read-set-import-job --cli-input-json ‘
{
"sourceFiles":
{
"source1": "s3://channy-omics/SRR233106_1.filt.fastq.gz",
"source2": "s3://channy-omics/SRR233106_2.filt.fastq.gz"
},
"sourceFileType": "FASTQ",
"subjectId": "mySubject2",
"sampleId": "mySample2",
"referenceArn": "arn:aws:omics:us-east-1:123456789012:referenceStore/123467890",
"name": "HG00100"
}’
콘솔에서 결과를 다시 확인할 수 있습니다.
분석 혁신
돌연변이를 참조하는 변이 데이터, 시퀀서가 특정 위치에서 읽은 내용과 알려진 참조 및 주석 데이터 간의 차이, 게놈의 위치 또는 변이에 대한 알려진 정보(예: 질병을 유발할 가능성이 있는지 여부)를 저장할 수 있습니다.
변이 스토어는 호출된 변이가 있는 변이 호출 형식 파일(VCF)과 게놈의 모든 위치에 대한 레코드가 있는 gVCF 입력을 모두 지원합니다. 주석 스토어는 일반 특성 형식(GFF3), 탭으로 구분된 값(TSV) 또는 VCF 파일을 지원합니다. 가져오기를 수행하는 중에 주석 스토어를 변이 스토어와 동일한 좌표계에 매핑할 수 있습니다.
데이터를 가져온 후에는 다음 쿼리를 실행하여 인간 염색체 1에서 사람들 사이에 가장 흔한 유형의 유전적 변이인 단일 뉴클레오티드 변이(SNV)를 찾아낼 수 있습니다.
SELECT
sampleid,
contigname,
start,
referenceallele,
alternatealleles
FROM "myvariantstore"."myvariantstore"
WHERE
contigname = 'chr1'
and cardinality(alternatealleles) = 1
and length(alternatealleles[1]) = 1
and length(referenceallele) = 1
LIMIT 10
다음 쿼리의 출력을 확인할 수 있습니다.
# sampleid contigname start referenceallele alternatealleles
1 NA20858 chr1 10096 T [A]
2 NA19347 chr1 10096 T [A]
3 NA19735 chr1 10096 T [A]
4 NA20827 chr1 10102 T [A]
5 HG04132 chr1 10102 T [A]
6 HG01961 chr1 10102 T [A]
7 HG02314 chr1 10102 T [A]
8 HG02837 chr1 10102 T [A]
9 HG01111 chr1 10102 T [A]
10 NA19205 chr1 10108 A [T]
Amazon Athena 등의 기존 분석 엔진과 통합하면 이러한 데이터를 보고, 관리하고, 쿼리할 수 있습니다. 이 쿼리의 결과는 Amazon SageMaker에서 ML 모델을 훈련하는 데 사용할 수 있습니다.
생물정보학 워크플로
Amazon Omics를 사용하면 AWS에서 변이 호출 또는 유전자 발현, 분석과 같은 생물정보학 워크플로를 수행할 수 있습니다. 이러한 컴퓨팅 워크로드는 여러 컴퓨팅 작업과 해당 입력 및 출력 종속성을 지정하는 도메인별 언어인 워크플로 설명 언어(WDL) 및 Nextflow 같은 워크플로 언어를 사용하여 정의됩니다.
몇 가지 간단한 CLI 명령을 사용하여 워크플로를 정의하고 실행할 수 있습니다. 예를 들어 다음 WDL 코드를 사용하여 main.wdl
파일을 생성하면, 파일 복사본을 만드는 단일 작업만 포함된 간단한 WDL 워크플로를 생성할 수 있습니다.
version 1.0
workflow Test {
input {
File input_file
}
call FileCopy {
input:
input_file = input_file,
}
output {
File output_file = FileCopy.output_file
}
}
task FileCopy {
input {
File input_file
}
command {
echo "copying ~{input_file}" >&2
cat ~{input_file} > output
}
output {
File output_file = "output"
}
}
그런 다음 워크플로를 압축하고 AWS CLI를 통해 Amazon Omics를 사용하여 워크플로를 생성합니다.
$ zip my-wdl-workflow-zip main.wdl
$ aws omics create-workflow \
--name MyWDLWorkflow \
--description "My WDL Workflow" \
--definition-zip file://my-wdl-workflow.zip \
--parameter-template '{"input_file": "input test file to copy"}'
다음 명령을 사용하여, 방금 생성한 워크플로를 실행할 수 있습니다.
aws omics start-run \
--workflow-id // id of the workflow we just created \
--role-arn // arn of the IAM role to run the workflow with \
--parameters '{"input_file": "s3://bucket/path/to/file"}' \
--output-uri s3://bucket/path/to/results
워크플로가 완료되면 s3://bucket/path/to/results
의 결과를 Omics 변이 스토어의 다운스트림 분석에 사용할 수 있습니다.
작업 및 정의된 컴퓨팅 사양을 사용하여 워크플로를 한 번 호출하는 런을 실행할 수 있습니다. 개별 런은 정의된 입력 데이터에 대해 작업을 수행하여 출력을 생성합니다. 또한 런에 관련 우선 순위가 지정되어 있을 수 있으므로, 특정 런이 제출된 다른 런 및 동시 런보다 우선할 수 있습니다. 예를 들어 우선 순위가 높은 런이 우선 순위가 낮은 런보다 먼저 실행되도록 지정할 수 있습니다.
원하는 경우, 런당 사용되는 컴퓨팅 리소스를 제한하는 데 도움이 되도록 최대 vCPU 및 최대 기간 런을 설정할 수 있는 런의 그룹인 런 그룹을 사용할 수 있습니다. 런 그룹을 사용하면 서로 다른 데이터에 대해 실행할 서로 다른 워크플로에 액세스해야 하는 사용자를 구분하는 데 유용할 수 있습니다. 또한 사용자를 특정 런 그룹에 격리하여 예산 관리/리소스 공정성 메커니즘으로 사용할 수도 있습니다.
지금까지 살펴본 것처럼, Amazon Omics는 몇 번의 클릭과 간단한 명령으로 관리되는 서비스와, 인간 게놈 샘플과 같은 대규모 오믹스 데이터를 분석하는 API를 제공하므로, 몇 주가 아닌 단 몇 시간 만에 이 데이터에서 의미 있는 인사이트를 도출할 수 있습니다. 또한 시작하는 데 도움이 되도록, Amazon SageMaker에서 사용할 수 있는 다양한 자습서 SageMaker 노트북도 제공합니다.
데이터 보안 측면에서 Amazon Omics는 고객 관리형 암호화 키와 HIPAA 적격성을 활용하여 데이터를 안전하게 유지하고 환자 개인 정보를 보호할 수 있도록 지원합니다.
고객 및 파트너 의견
의료 및 생명과학 업계의 고객과 파트너들은 Amazon Omics를 사용하여 과학적 인사이트를 빠르게 도출하는 방법을 공유해왔습니다.
Children’s Hospital of Philadelphia(CHOP)는 미국에서 가장 오래된 소아과 전문 병원으로서 우수한 환자 치료와 혁신적인 연구를 통합하여 소아과 의료 서비스를 발전시키기 위해 노력하고 있습니다. AWS는 CHOP Research Institute와 오랫동안 협력하면서 데이터와 기술을 활용하여 소아과 의료의 난제를 해결하는 데 앞장서고 있습니다.
“Children’s Hospital of Philadelphia는 가장 혁신적인 연구를 기반으로 최상의 치료를 제공하는 데 있어 환자를 종합적으로 파악하는 것이 무엇보다 중요하다는 것을 잘 알고 있습니다. 이를 실현하기 위해서는 다양한 임상 양상을 결합하는 것이 필수적입니다. Amazon Omics를 사용하면 환자의 건강에 대한 이해의 범위를 환자의 DNA 수준까지 확대할 수 있습니다.” – Jeff Pennington, Children’s Hospital of Philadelphia 부사장 겸 최고 연구 정보학 책임자
G42 Healthcare는 데이터와 신기술을 활용하여 개인화된 예방 치료를 구현하는 AI 기반 의료 서비스를 제공합니다.
“Amazon Omics를 활용하면서 G42는 세계 최고 수준의 데이터 거버넌스를 통해 경쟁력 있고 배포 가능한 엔드 투 엔드 서비스를 빠르게 구현할 수 있게 되었습니다. AWS에서 전 세계적으로 호스팅되는 방대한 오믹스 데이터 관리 및 생물정보학 솔루션을 고객이 손쉽게 이용할 수 있습니다. AWS와의 협업은 단순한 데이터 그 이상의 가치를 제공합니다.” – Ashish Koshi, G42 Healthcare CEO
C2i Genomics는 연구원, 의사 및 환자를 한데 모아, 초고감도 전장유전체 암 검출법을 활용하여 개인에게 최적화된 의약품을 제공하고 암 치료 비용을 절감하며 약물 개발을 가속화합니다.
“C2i Genomics에서는 대규모 맞춤형 게놈 파이프라인을 실행할 수 있는 클라우드 기반 컴퓨팅 솔루션을 데이터 사이언티스트에게 제공합니다. 따라서 데이터 사이언티스트가 개발 방법과 임상 성과에 집중할 수 있으며, 회사의 엔지니어링 팀이 워크로드의 운영, 보안 및 개인 정보 보호 측면을 담당할 수 있습니다. Amazon Omics를 사용하면 연구원이 자체 도메인의 도구와 언어를 사용할 수 있으며, 비용 및 리소스 할당 고려 사항을 반영하면서 엔지니어링 유지 관리 작업 부담을 크게 줄일 수 있습니다. 결과적으로, 새로운 기능과 개선된 알고리즘의 출시 기간과 NRE 비용을 절감할 수 있습니다.” – Ury Alon, C2i Genomics 엔지니어링 담당 부사장
AWS 파트너와의 협력을 통해 원시 시퀀싱 데이터에서 인사이트를 도출할 수 있는 확장 가능한 다중 모드 솔루션을 구축하게 되어 매우 기쁩니다.
Lifebit은 복잡하고 민감한 생물의학 데이터 세트를 보유한 조직을 위한 엔터프라이즈 데이터 플랫폼을 구축하여 생명과학 분야의 고객이 민감한 생물의학 데이터의 활용 방식을 혁신할 수 있도록 지원합니다.
“Lifebit는 전 세계의 생물의학 데이터를 연결하여 새로운 치료 인사이트를 도출하는 것을 사명으로 삼고 있습니다. 저희 회사의 고객들은 방대한 유전체, 다중 오믹스 및 임상 데이터를 연동하여 작업에 사용하며 이러한 데이터의 볼륨은 빠르게 증가하고 있습니다. Amazon Omics를 통해 이러한 대규모 데이터를 처리할 최적화된 분석 서비스와 스토리지에 액세스할 수 있으므로 훨씬 더 확장성이 뛰어난 생물정보학 솔루션을 제공할 수 있게 됩니다. 고객은 기가베이스당 데이터 비용을 대폭 절감하여 실질적으로 콜드 스토리지 가격으로 핫 스토리지에 버금가는 성능을 실현하고 대규모의 생물의학 데이터에서 인사이트를 생성하는 데 저해 요인이 되는 비용을 배제하는 이점을 누릴 수 있습니다.” – Thorben Seeger, Lifebit 최고 비즈니스 개발 책임자
더 많은 고객 및 파트너의 의견을 들으려면 Amazon Omics 고객 페이지를 참조하세요.
정식 출시
Amazon Omics는 현재 미국 동부(버지니아 북부), 미국 서부(오레곤), 유럽(아일랜드), 유럽(런던), 유럽(프랑크푸르트) 및 아시아 태평양(싱가포르) 리전에서 사용할 수 있습니다.
자세히 알아보려면 Amazon Omics 페이지, Amazon Omics 사용 설명서, AWS에서의 유전체학, AWS에서의 의료 및 생명과학을 참조하세요. 한번 사용해본 후 AWS 유전체학 팀에 문의하여 기존 AWS 지원 담당자를 통해 피드백을 보내주세요.
– Channy