이 AWS 솔루션 구현은 어떤 기능을 제공합니까?

AWS Glue 및 Amazon Athena를 사용한 유전체 3차 분석 및 데이터 레이크는 대규모 분석을 위해 유전체 데이터를 준비하고 유전체 데이터 레이크에 대해 대화식 쿼리를 수행하기 위해 AWS에 확장 가능한 환경을 구축하는 솔루션입니다. 이 솔루션은 IT 인프라 아키텍트, 관리자, 데이터 사이언티스트, 소프트웨어 엔지니어, DevOps 전문가가 유전체 데이터 변환에 사용되는 라이브러리를 구축, 패키징 및 배포하고, 유전체 데이터 준비와 카탈로깅을 위한 데이터 수집 파이프라인을 프로비저닝하며, 유전체 데이터 레이크에 대해 대화형 쿼리를 실행하도록 지원할 수 있습니다.

이차 분석의 데이터 출력은 크고 복잡할 수 있습니다. 예를 들어 VCF(Variant Call File)는 Parquet과 같은 빅 데이터 최적화 파일 형식으로 변환하여 기존 유전체 데이터 세트에 적용해야 합니다. 데이터 카탈로그는 적절한 스키마와 버전으로 업데이트되므로 사용자가 필요한 데이터를 찾고, 의미상 일관되게 정의된 데이터 모델 내에서 처리할 수 있습니다. 코호트를 구축하고, 데이터를 집계하고, 주석 소스의 데이터로 결과 세트를 풍부하게 하려면 주석 데이터 세트와 표현형 데이터를 처리하고 카탈로깅하여 기존 데이터 레이크에 수집해야 합니다. 연구 및 정보학계에 충분한 데이터 액세스를 제공하면서 데이터 보안을 유지하려면 데이터 거버넌스와 세분화된 데이터 액세스 제어가 필요합니다. AWS Glue 및 Amazon Athena를 사용한 유전체 3차 분석 및 데이터 레이크 솔루션은 이 프로세스를 간소화합니다.

이 솔루션은 유전체 데이터 레이크를 제공하고, AWS Glue ETL과 크롤러를 사용하여 Amazon Simple Storage Service(Amazon S3)의 유전체 데이터 레이크를 채우도록 유전체 및 주석 수집 파이프라인을 설정합니다. 이 솔루션은 유전체 데이터 레이크를 기반으로 데이터 분석과 해석에 Amazon Athena를 사용하는 방법을 보여 주며 Jupyter 노트북 내에서 약물 반응 보고서를 생성합니다.

AWS 솔루션 구현 개요

아래 다이어그램은 솔루션의 구현 안내서와 함께 AWS CloudFormation 템플릿을 사용하여 자동으로 배포할 수 있는 아키텍처를 보여줍니다.

AWS Glue 및 Amazon Athena를 사용한 유전체 3차 분석 및 데이터 레이크| 아키텍처 다이어그램
 확대하려면 클릭

AWS Glue 및 Amazon Athena를 사용한 유전체 3차 분석 및 데이터 레이크 솔루션 아키텍처

AWS CloudFormation 템플릿은 솔루션 설치를 위한 setup 스택을 포함한 4개의 CloudFormation 스택을 AWS 계정에 생성합니다. 그 외에 다른 스택으로는 공통적인 솔루션 리소스와 아티팩트가 포함된 랜딩 영역(zone) 스택, 솔루션의 CI/CD 파이프라인을 정의하는 배포 파이프라인(pipe) 스택, ETL 스크립트, 작업, 크롤러, 데이터 카탈로그 및 노트북 리소스를 제공하는 코드베이스(code) 스택 등이 있습니다.

setup 스택은 setup.sh 스크립트가 포함된 AWS CodeBuild 프로젝트를 생성합니다. 이 스크립트가 나머지 CloudFormation 스택을 생성하고, AWS CodeCommit pipe 리포지토리와 code 리포지토리에 대한 소스 코드를 제공합니다.

랜딩 영역(zone) 스택은 CodeCommit pipe 리포지토리를 생성합니다. 랜딩 영역(zone) 스택의 설정이 완료되면 setup.sh 스크립트가 CodeCommit pipe 리포지토리로 소스 코드를 푸시합니다.

배포 파이프라인(pipe) 스택은 CodeCommit code 리포지토리, Amazon CloudWatch 이벤트, CodePipeline code 파이프라인을 생성합니다. 배포 파이프라인(pipe) 스택의 설정이 완료되면 setup.sh 스크립트가 CodeCommit code 리포지토리로 소스 코드를 푸시합니다.

CodePipeline(code) 파이프라인은 코드베이스(code) CloudFormation 스택을 배포합니다. AWS CodePipeline 파이프라인의 설정이 완료되면 객체 액세스 로그/빌드 아티팩트/데이터 레이크에 있는 데이터의 저장을 위한 Amazon Simple Storage Service(Amazon S3) 버킷을 포함하여 계정에 배포된 리소스, 소스 코드를 위한 CodeCommit 리포지토리, 코드 아티팩트(예: 데이터 처리에 사용되는 타사 라이브러리) 구축을 위한 AWS CodeBuild 프로젝트, 리소스의 구축 및 배포를 자동화하기 위한 AWS CodePipeline 파이프라인, 예제 AWS Glue 작업, 크롤러 및 데이터 카탈로그, Amazon SageMaker Jupyter 노트북 인스턴스 등의 리소스가 계정에 배포됩니다. 

AWS Glue 및 Amazon Athena를 사용한 유전체 3차 분석 및 데이터 레이크

버전 1.0
최종 업데이트 날짜: 2020년 7월
작성: AWS

예상 배포 시간: 30분

아래 버튼을 사용하여 솔루션 업데이트에 가입하십시오.

참고: RSS 업데이트에 가입하려면 사용 중인 브라우저에 대해 RSS 플러그인이 활성화되어 있어야 합니다.  

기능

AWS에서 대규모 유전체 분석을 위한 확장 가능한 환경 제공

AWS에 확장 가능한 환경을 생성하여 대규모 분석을 위한 유전체 데이터를 준비하고, 유전체 데이터 레이크를 기준으로 대화형 쿼리를 수행합니다.

코드형 인프라 모범 사례 활용

IaC(코드형 인프라) 원리와 모범 사례를 활용하여 솔루션을 신속하게 발전시킵니다.

지속적 통합 및 지속적 전달(CI/CD) 활용

AWS CodeCommit 소스 코드 리포지토리와 AWS CodePipeline을 사용하여 데이터 준비 작업 및 크롤러, 데이터 레이크 구성 및 Jupyter 노트북에 대한 업데이트를 빌드하고 배포합니다.

분석을 위해 유전체 데이터 준비 파이프라인 및 Jupyter 노트북 수정

데이터 분석을 수행하기 위해 AWS Glue 작업 및 크롤러와 새 Jupyter 노트북을 추가하는 등, 특정 요구 사항에 맞추어 솔루션을 수정합니다. 각 변경 사항은 CI/CD 파이프라인에서 추적되므로 변경 제어 관리, 롤백 및 감사가 용이합니다.
구축 아이콘
솔루션 직접 배포

AWS 솔루션 구현 라이브러리에서 일반적인 아키텍처 문제에 대한 답을 검색해 보실 수 있습니다.

자세히 알아보기 
APN 파트너 찾기
APN 파트너 찾기

시작하는 데 도움이 되는 AWS 공인 컨설팅 및 기술 파트너를 찾으십시오.

자세히 알아보기 
살펴보기 아이콘
솔루션 컨설팅 오퍼 살펴보기

AWS의 컨설팅 오퍼 포트폴리오를 살펴보고 솔루션 배포 시 AWS의 검증된 지원을 받으세요.

자세히 알아보기