UK Biobank Research Analysis Platform을 지원하는 DNAnexus와 Amazon Web Services(AWS)의 강력한 기술

요약

전 세계 연구원들이 페타바이트 규모의 생체 의학 데이터베이스 및 연구 리소스인 UK Biobank에 안전하게 액세스할 수 있도록 해야 했습니다. AWS 파트너인 DNAnexus는 Amazon S3와 Amazon EC2를 활용하여 승인된 사용자가 가상 환경에서 파일의 ‘소프트 카피’를 안전하게 보고 분석할 수 있는 확장 가능한 플랫폼을 구축하고 운영했습니다. 그 덕분에 의료 데이터의 보안을 유지하면서도, 자체 스토리지 및 분석 인프라가 부족한 연구원들도 이용할 수 있게 되었습니다.

다양한 요인 이해

제2형 당뇨병, 암, 알츠하이머 등 복잡한 질병을 이해하고 치료하려면, 과학자들이 장기적으로 나타나는 유전적 요인, 환경적 요인 및 생활 양식 요인 간의 관계를 분석해야 합니다. 이러한 성격의 종적 데이터는 수집하기가 극히 어렵기 때문에 UK Biobank라는 대규모 공동 생체 의학 데이터 세트 및 연구 리소스는 전 세계 과학계에 큰 이익을 가져다주고 있습니다.

19만 6,383명의 UK Biobank 참가자를 대상으로 2019년 실시한 치매 연구에 따르면, 건강한 생활 습관을 유지하면 유전적 위험과 관계없이 치매 위험을 줄일 수 있는 것으로 나타났습니다. 이 결과는 다른 사람의 개입으로 치매의 유전적 위험을 상쇄할 수 있음을 보여주었습니다. 40세에서 69세 사이의 UK Biobank 참가자 47만 2,000명을 대상으로 한 2018년 연구에 따르면 흡연, 당뇨병, 고혈압은 남성보다 여성에서 심장마비 위험을 더 많이 높이는 것으로 나타났습니다. 여성의 경우 고혈압은 전반적으로 남성보다 80% 더 높은 위험으로 이어졌습니다. 제1형 당뇨병 환자 중 여성의 심장마비 위험은 남성보다 거의 3배 높았고, 제2형 당뇨병 환자의 경우 여성의 심장마비 위험이 47% 더 높았습니다.

2006년부터 2010년까지, UK Biobank는 영국 전역에서 50만 명의 지원자를 모집했습니다. 각 지원자는 향후 분석을 위해 보관할 혈액, 소변, 타액 샘플 등, 생활 습관과 신체 측정을 보여주는 자세한 정보를 제공했습니다. UK Biobank는 전자 건강 기록의 통합과 함께 지속적인 데이터 수집 환경을 구축하여 각 참가자별로 수만 개의 데이터 포인트를 생성했습니다. 전체 유전형 데이터는 2017년에 추가되었으며, 참가자 50만 명 전원의 전체 게놈 시퀀싱 데이터는 2023년 초에 공개될 예정입니다(시퀀싱 구성 요소는 최근에 완료됨). UK Biobank는 2025년까지 데이터베이스의 데이터가 40페타바이트를 초과할 것으로 예상하고 있습니다.

이 방대한 데이터 수집의 기본 목적은 전 세계의 승인된 연구원들이 다양한 질병을 더 잘 이해하고, 예방하고, 치료할 수 있도록 돕는 것입니다. 하지만 이 정도 규모와 복잡성의 데이터 세트는 전례 없는 데이터 관리 문제를 야기합니다. 그렇기 때문에 DNAnexus가 필요했습니다. 오랜 기간 AWS 생명 과학 컴피턴시 파트너로 활동해 온 DNAnexus는 과학 연구원들이 복잡한 생체 의학 데이터를 안전하게 액세스, 분석 및 운영할 수 있도록 지원하는 것을 목표로 2009년에 설립되었습니다. 확장 가능한 플랫폼은 협업을 촉진하고 사용자가 유전체 및 임상 데이터를 비롯한 여러 데이터 유형을 함께 분석할 수 있도록 합니다. 이는 복잡한 질병을 분석하는 연구자들에게 매우 중요한 기능입니다.

DNAnexus의 DNAnexus 담당 총괄 관리자인 Asha Collins는 “연구원들이 데이터를 복제하지 않고도 유전학, 생활 양식, 이미징 등 다양한 데이터 유형에 걸쳐 수백만 개의 지표를 분석할 수 있도록 데이터를 한 곳에 모으는 것이 핵심 과제였습니다.
아울러 연구원들이 이 방대한 데이터 세트를 실제로 작업에 손쉽게 사용할 수 있도록 필요한 컴퓨팅 및 데이터 스토리지를 제공할 수 있는 방법을 찾는 것도 중요한 과제였습니다”라고 말합니다.

2020년에 DNAnexus와 AWS는 데이터에 대한 접근성을 높이기 위해 UK Biobank와 3년간의 공동 작업에 착수했습니다. 두 업체는 함께, 비용이 많이 들고 시간이 많이 걸리는 데이터 다운로드 프로세스를 혁신적인 클라우드 기반 Research Analysis Platform(RAP)으로 대체했습니다.
연구원들은 세계 어디에서나 전체 UK Biobank 데이터베이스를 안전하게 액세스하고 분석할 수 있습니다. 초기 개발 단계에서 UK Biobank는 중앙 집중식 환경에서 증가하는 데이터를 관리하고 분석 도구를 제공할 수 있는 플랫폼으로 구축되는지 여부가 성공을 좌우한다는 것을 알게 되었습니다.

“연구원들이 데이터를 복제하지 않고도 유전학, 생활 양식, 이미징 등 다양한 데이터 유형에 걸쳐 수백만 개의 지표를 분석할 수 있도록 데이터를 한 곳에 모으는 것이 핵심 과제였습니다. 아울러 연구원들이 이 방대한 데이터 세트를 작업에 손쉽게 사용할 수 있도록 필요한 컴퓨팅 및 데이터 스토리지를 제공할 수 있는 방법을 찾는 것도 중요한 과제였습니다.” 

- DNAnexus의 DNAnexus 담당 총괄 관리자 Asha Collins

‘소프트 카피’ 공유

연구원들은 처음에 맞춤형 데이터 제공 시스템을 통해 UK Biobank 파일에 액세스했습니다. 이 시스템은 연구원들이 자체 환경에서 다운로드하고 분석할 수 있도록 초기 표 형식의 데이터를 패키징했습니다. 하지만 제공되는 데이터의 양과 액세스를 요청하는 연구원의 수가 늘어나면서 이 같은 개별적인 접근 방식은 불가능해졌습니다. 2021년 말에는 UK Biobank 데이터베이스 및 연구 리소스에 액세스하도록 승인을 받은 학계 및 업계 과학자들 수가 90여 개국에 걸쳐 2만 8,000명을 넘었습니다.

UK Biobank의 Mark Effingham CEO 대리는 “이 정도 규모에 이르면 이제 모든 그룹에서 전 세계에 걸쳐 여러 개의 데이터 사본을 유지 관리하는 것은 비효율적이고 비경제적입니다. 따라서 저희는 승인된 연구원들이 데이터를 사용할 수 있는 환경에 접속하도록 하는 새로운 접근 방식을 취해야 했습니다”라고 말합니다.

DNAnexus는 UK Biobank 사용자에게 부과되는 추가 인프라와 비용의 부담을 줄일 안전한 대안을 만들어냈습니다. 그 대안은 UK Biobank의 지속적인 성장을 지원하고 그에 따라 확장할 수 있는 클라우드 기반 인프라인 Amazon Simple Storage Service(S3)를 사용하여 데이터의 단일 버전을 저장하는 것이었습니다.

이 플랫폼은 연구원에게 데이터를 지능적으로 제공하여 데이터 중복을 최소화합니다. 연구원들은 파일에 직접 액세스할 수 없습니다. 대신 이 플랫폼은 연구원들이 액세스하도록 승인된 일부 데이터의 ‘소프트 카피’를 제공하는 가상 환경을 통해 운영됩니다.

여기에는 안전하고 크기 조정이 가능한 컴퓨팅 용량을 클라우드에서 제공하는 서비스인 Amazon Elastic Compute Cloud(Amazon EC2)도 활용됩니다. DNAnexus는 Amazon EC2를 사용하여 연구원이 분석을 실행할 때만 요금이 청구되는 유연하고 확장 가능한 플랫폼을 제공합니다. 또한 이 플랫폼에서는 온디맨드 요금에 비해 최대 90% 할인된 요금으로 제공되는 Amazon EC2 스팟 인스턴스를 활용할 수 있으므로, 아무리 큰 작업이라도 경제적으로 실행할 수 있습니다.

Effingham은 “이 플랫폼에서 DNAnexus와 AWS를 사용하여 작업하게 되면서, 연구원들은 자체 데이터 분석을 시작하고 실행할 수 있을 뿐만 아니라 어디서든 확장 가능한 클라우드 인프라, 컴퓨팅 및 스토리지를 비용 효율적으로 사용하여 이러한 분석을 실제로 지원할 수 있게 되었습니다. 데이터의 가치를 극대화하고 전 세계 모든 연구원을 위한 접근성을 높이는 연구 플랫폼을 제공하게 된 것을 자랑스럽게 생각합니다”라고 말합니다.

가명화를 통한 액세스 보안

연결된 의료 기록을 통해 50만 명의 참가자에 대한 인사이트를 공유하는 것은 데이터 프라이버시의 관점에서 까다로운 일입니다. DNAnexus는 상호 연결된 여러 생체 의학 데이터 포인트의 가치를 보존하면서 이 데이터를 보호하기 위해 가명화 시스템을 개발했습니다.

Collins는 “이 시스템은 기본적으로 데이터 사본 하나만 유지하도록 하여 상당한 비용 절감을 실현해주었습니다. 해당 데이터는 적절하게 가명화되고 가상 영역에 '소프트 카피'로 복사됩니다. 가상 영역에서는 사용자가 파일 이름이 적절히 변경된 승인된 파일과 표 형식 필드를 정확히 볼 수 있습니다”라고 설명합니다.

UK Biobank는 모든 연구원마다 조금씩 다른 데이터 사본을 제공받도록 하는 강화된 보안 조치를 취하고 있습니다. 참가자 ID는 가명으로 처리되어 연구원에게 제공됩니다. 이러한 ID는 파일 이름과 콘텐츠 자체 모두에 포함되어 있으므로, DNAnexus는 가명화 지원 범위를 확대할 수 있습니다. 이 플랫폼은 위에서 설명한 ‘소프트 카피’와 몇 가지 보안 다운로드 메커니즘을 활용하여, 데이터를 복제하지 않고도 연구원 수천 명의 까다로운 요구 사항을 충족했습니다.

DNAnexus는 다중 오믹 인구 데이터 세트에 대한 보안 액세스를 중재할 수 있는 플랫폼의 필요성이 갈수록 커짐에 따라, 이를 해결하기 위해 이 기능을 개발했습니다.

UK Biobank 데이터베이스는 이미 전 세계 연구 커뮤니티를 위한 강력한 리소스임이 입증되었으며, 공중 보건을 개선할 수 있는 새로운 과학적 발견에 힘을 실어주고 있습니다. Research Analysis Platform은 과학적 발견의 속도와 규모를 개선하고 접근성을 높여, 승인된 연구원이 세계 어디에서나 데이터를 자체적으로 분석하고 인간 질병을 더욱 깊이 있게 이해하도록 지원할 잠재력을 가지고 있습니다. 또한 RAP는 유전체학과 임상 데이터를 통합하여 유기적으로 활용하는 데 있어서의 복잡성을 해결합니다. 또한 여러 사용자가 클라우드 기반 플랫폼 내에서 여러 데이터 유형을 분석하고 동일한 연구 프로젝트를 수행할 수 있도록 하여 연구원 간의 협업을 강화합니다. 이러한 성공은 성장을 더욱 촉진하여, UK Biobank가 확장 가능하고 민첩한 솔루션으로 유명한 DNAnexus나 AWS 같은 파트너와의 협력을 확대해 가는데 힘을 실어줄 것입니다.

Biobank

고객 소개

UK Biobank는 영국 참가자 50만 명의 심층적인 유전 및 건강 정보가 수록된 대규모 생체 의학 데이터베이스이자 연구 리소스입니다. 이 데이터베이스는 정기적으로 추가 데이터로 보강되며, 생명을 위협하는 가장 흔한 질병에 대한 중요한 연구를 수행하는 전 세계적의 승인된 연구원들이 액세스할 수 있습니다. UK Biobank는 현대 의학과 치료법의 발전에 크게 기여했으며, 인간의 건강을 개선하는 여러 과학적 발견을 가능하게 했습니다.

DNAnexus 소개

DNAnexus는 세계 생체 의학 데이터를 액세스, 분석, 변환할 수 있는 안전하고 신뢰할 수 있는 클라우드 플랫폼을 구축하여, 의료 및 생명 과학 분야에서 삶을 변화시킬 획기적인 발전을 이루어내는 과학계에 힘을 실어주고 있습니다.

2022년 5월 게시