Teknologi Daya DNAnexus & Amazon Web Services (AWS) Di Balik Platform Analisis Penelitian UK Biobank

Ringkasan Eksekutif

Para peneliti dari seluruh dunia harus dapat mengakses UK Biobank dengan aman, basis data biomedis berukuran petabita dan sumber daya penelitian. Partner AWS DNAnexus memanfaatkan Amazon S3 dan Amazon EC2 untuk membangun dan mengoperasikan platform yang dapat diskalakan yang memungkinkan pengguna yang disetujui untuk melihat dan menganalisis “soft copy” file secara aman di lingkungan virtual. Hal ini memastikan keamanan data kesehatan dan akses demokratisasi ke peneliti yang tidak memiliki infrastruktur penyimpanan dan analisis mereka sendiri.

Memahami berbagai faktor

Untuk memahami dan mengobati penyakit kompleks seperti diabetes tipe 2, kanker, dan penyakit Alzheimer, para ilmuwan perlu memahami hubungan antara faktor genetik, lingkungan, dan gaya hidup dari waktu ke waktu. Data longitudinal dari sifat ini sangat sulit untuk dikumpulkan, itulah sebabnya komunitas ilmiah global mendapat manfaat besar dari set data biomedis berskala besar dan sumber daya penelitian yang dikenal sebagai UK Biobank.

Menurut sebuah studi tahun 2019 mengenai demensia, dengan data dari 196.383 peserta UK Biobank, gaya hidup sehat yang diterapkan dapat mengurangi risiko demensia, terlepas dari risiko genetiknya. Hasil penelitian menunjukkan bahwa intervensi dapat mengimbangi risiko genetik untuk demensia. Sebuah studi tahun 2018 pada 472.000 peserta UK Biobank berusia antara 40 hingga 69 menyimpulkan bahwa merokok, diabetes, dan tekanan darah tinggi meningkatkan risiko serangan jantung lebih banyak pada wanita dibandingkan pada pria. Pada wanita, tekanan darah tinggi dikaitkan dengan risiko 80 persen lebih tinggi dibandingkan pada pria secara keseluruhan. Di antara pasien diabetes tipe I, risiko serangan jantung wanita hampir tiga kali lebih tinggi daripada pria, sedangkan pada pasien diabetes tipe 2, wanita memiliki risiko 47 persen lebih tinggi.

Antara tahun 2006 hingga 2010, UK Biobank merekrut 500.000 relawan dari seluruh Inggris. Masing-masing memberikan informasi rinci mengenai gaya hidup dan tindakan fisik mereka, termasuk sampel darah, urine, dan air liur yang akan dikumpulkan untuk analisis di masa mendatang. UK Biobank menyiapkan pengumpulan data yang sedang berlangsung, ditambah dengan integrasi catatan kesehatan elektronik, yang telah menghasilkan puluhan ribu titik data untuk setiap peserta. Data genotipe lengkap ditambahkan pada tahun 2017, dan data pengurutan genom utuh dari 500.000 peserta akan tersedia untuk umum pada awal 2023 (komponen pengurutan baru saja selesai). UK Biobank mengantisipasi basis datanya akan melebihi 40 petabita data pada tahun 2025.

Tujuan kolektif dari pengumpulan data skala luas ini adalah untuk membantu peneliti yang disetujui dari seluruh dunia lebih memahami, mencegah, dan mengobati berbagai penyakit. Namun, set data dengan ukuran dan kompleksitas ini membuat tantangan manajemen data yang belum pernah terjadi sebelumnya. Di situlah peran DNAnexus. Partner Kompetensi AWS Life Sciences jangka panjang, DNAnexus didirikan pada tahun 2009 dengan misi untuk membantu peneliti ilmiah mengakses, menganalisis, dan mengoperasionalkan data biomedis yang kompleks dengan aman. Platformnya yang dapat diskalakan mendorong kolaborasi dan memungkinkan pengguna untuk menganalisis berbagai tipe data bersama-sama, termasuk data genomika dan klinis. Ini adalah fitur penting bagi para peneliti yang bekerja untuk menguraikan penyakit kompleks.

“Tantangan utamanya adalah menyatukan data di satu tempat sehingga peneliti dapat menganalisis jutaan metrik di berbagai tipe data termasuk genetika, gaya hidup, dan pencitraan, semuanya tanpa replikasi data,” kata Asha Collins, manajer umum
Biobank (general manager of Biobanks) di DNAnexus. “Sama pentingnya, kami harus membahas bagaimana kami dapat menyediakan komputasi dan penyimpanan data yang diperlukan untuk memungkinkan para peneliti benar-benar bekerja dengan set data besar ini dengan mudah.”

Pada tahun 2020, DNAnexus dan AWS memulai kolaborasi tiga tahun dengan UK Biobank untuk mendemokratisasikan akses ke data. Bersama-sama, mereka mengganti unduhan data yang mahal dan intensif waktu dengan Research Analysis Platform (RAP) berbasis cloud inovatif yang memungkinkan
peneliti untuk mengakses dan menganalisis seluruh basis data UK Biobank secara aman dari mana pun di dunia. Seiring dengan perkembangan awal, UK Biobank memahami bahwa kesuksesan bergantung pada kemampuan platform untuk mengelola jumlah data yang meningkat dan menyediakan alat analisis di lingkungan terpusat.

"Tantangan utamanya adalah menyatukan data di satu tempat sehingga peneliti dapat menganalisis jutaan metrik di berbagai tipe data yang berbeda termasuk genetika, gaya hidup, dan pencitraan, semuanya tanpa replikasi data. Sama pentingnya, kami harus membahas bagaimana kami dapat menyediakan komputasi dan penyimpanan data yang diperlukan untuk memungkinkan peneliti bekerja dengan set data besar ini dengan mudah.” 

-Asha Collins, Manajer Umum Biobanks (General Manager of Biobanks) di DNAnexus

Berbagi “soft copy”

Para peneliti awalnya mengakses file UK Biobank melalui sistem pengiriman data khusus, yang mengemas data tabular awal untuk diunduh dan dianalisis oleh para peneliti di lingkungan mereka sendiri. Namun, karena lebih banyak data tersedia dan kumpulan peneliti yang lebih luas yang meminta akses, pendekatan individu menjadi tidak dapat dipertahankan. Pada akhir tahun 2021, lebih dari 28.000 ilmuwan akademik dan industri dari lebih dari 90 negara telah disetujui untuk mengakses basis data dan sumber daya penelitian UK Biobank.

“Kami sekarang mencapai skala ini di mana mempertahankan banyak salinan data di seluruh dunia menjadi tidak efisien dan tidak hemat biaya untuk kelompok ini,” kata Mark Effingham, wakil CEO (deputy CEO) di UK Biobank. “Kami perlu mengambil pendekatan yang berbeda, di mana kami dapat membawa peneliti kami yang disetujui ke lingkungan tempat mereka dapat menggunakan data.”

DNAnexus menciptakan alternatif aman yang mengurangi infrastruktur dan beban biaya yang ditempatkan pada pengguna UK Biobank. Satu versi data disimpan menggunakan Amazon Simple Storage Service (Amazon S3), infrastruktur berbasis cloud yang dapat diskalakan yang dapat mendukung dan mengimbangi pertumbuhan UK Biobank yang berkelanjutan.

Platform ini secara cerdas menyediakan data kepada para peneliti sehingga meminimalkan duplikasi data. Peneliti tidak memiliki akses langsung ke file ini. Sebaliknya, mereka beroperasi melalui lingkungan virtual yang menyediakan “soft copy” dari subset data yang disetujui untuk diakses.

Kolaborasi tersebut juga memanfaatkan Amazon Elastic Compute Cloud (Amazon EC2), sebuah layanan yang menyediakan kapasitas komputasi yang aman dan berukuran fleksibel di cloud. Dengan menggunakan Amazon EC2, DNAnexus menghadirkan platform yang fleksibel dan dapat diskalakan di mana peneliti hanya dikenai biaya saat menjalankan analisis. Platform ini juga dapat memanfaatkan Instans Spot Amazon EC2, yang tersedia dengan diskon hingga 90 persen dibandingkan dengan harga Sesuai Permintaan, sehingga tugas terbesar pun dapat dijalankan secara ekonomis.

“Bekerja dengan DNAnexus dan AWS di platform ini menciptakan area di mana peneliti tidak hanya dapat terlibat dan menjalankan analisis data mereka sendiri, tetapi mereka juga dapat menggunakan infrastruktur, komputasi, dan penyimpanan cloud yang dapat diskalakan untuk benar-benar mendukung analisis tersebut di mana pun mereka bekerja,” kata Effingham. “Kami bangga menyediakan platform penelitian yang memaksimalkan nilai data dan mendemokratisasikan akses bagi semua peneliti di seluruh dunia.”

Akses aman melalui nama samaran

Berbagi wawasan ke setengah juta peserta dengan catatan kesehatan terkait adalah tantangan dari perspektif privasi data. Untuk melindungi data ini, sekaligus mempertahankan nilai dari banyak titik data biomedis yang saling berhubungan, DNAnexus mengembangkan sistem penyamaran nama.

“Ini memungkinkan kami untuk menyimpan satu salinan data di belakang layar, yang menyadari penghematan biaya yang signifikan,” jelas Collins. “Data tersebut diberi nama samaran yang sesuai dan dibuatkan 'soft copy' ke area virtual di mana mereka menemukan file dan bidang tabel yang tepat yang telah disetujui, dengan perubahan nama file yang tepat.”

UK Biobank mengandalkan langkah-langkah keamanan yang ditingkatkan, yang mengharuskan setiap peneliti untuk mendapatkan salinan data yang sedikit berbeda. ID peserta diberi nama samaran untuk setiap peneliti. ID tersebut tertanam dalam nama file dan konten itu sendiri, sehingga memungkinkan DNAnexus membangun dukungan penyamaran nama. Dengan memanfaatkan “soft copy” yang dijelaskan di atas, serta beberapa mekanisme pengunduhan yang aman, platform ini memenuhi persyaratan yang menantang ini bagi ribuan peneliti tanpa menduplikasi data apa pun.

DNAnexus mengembangkan fungsionalitas ini untuk mengatasi peningkatan kebutuhan akan platform yang dapat memediasi akses aman ke set data populasi multiomik, yang terus bertumbuh.

Basis data UK Biobank telah terbukti menjadi sumber daya yang kuat bagi komunitas riset global, memberdayakan penemuan ilmiah baru yang dapat meningkatkan kesehatan masyarakat. Platform Analisis Penelitian memiliki potensi untuk meningkatkan kecepatan dan skala penemuan ilmiah serta mendemokratisasikan akses, memungkinkan peneliti yang disetujui untuk membawa analisis mereka sendiri ke data dari mana pun di dunia untuk memajukan pemahaman mengenai penyakit manusia. Selain itu, RAP menyelesaikan kompleksitas yang terkait dengan mengintegrasikan dan menyelaraskan genomika dan data klinis. Ini juga memfasilitasi kolaborasi yang lebih besar antara peneliti dengan memungkinkan pengguna untuk menganalisis beberapa tipe data dan bekerja pada proyek penelitian yang sama dalam platform berbasis cloud. Kesuksesan ini kemungkinan akan mendorong pertumbuhan lebih lanjut, memperkuat pilihan UK Biobank untuk berkolaborasi dengan partner seperti DNAnexus dan AWS yang dikenal dengan solusi yang dapat diskalakan dan tangkas.

Biobank

Tentang Pelanggan

UK Biobank adalah basis data biomedis dan sumber daya penelitian berskala besar, yang berisi informasi genetik dan kesehatan mendalam dari setengah juta peserta Inggris. Basis data secara teratur ditambah dengan data tambahan dan dapat diakses secara global oleh peneliti yang disetujui untuk melakukan penelitian penting mengenai penyakit yang paling umum dan mengancam jiwa. Ini adalah kontributor utama kemajuan pengobatan dan perawatan modern serta telah memungkinkan beberapa penemuan ilmiah yang meningkatkan kesehatan manusia.

Tentang DNAnexus

DNAnexus berhasil membentuk platform cloud yang aman dan tepercaya untuk mengakses, menganalisis, dan menerjemahkan data biomedis dunia—guna memberdayakan komunitas ilmiah yang menghasilkan terobosan yang mengubah hidup dalam layanan kesehatan dan ilmu hayati.

Diterbitkan Mei 2022