Il Baylor College of Medicine di Houston, in Texas, è sede dello Human Genome Sequencing Center (HGSC), uno dei tre centri di sequenziamento finanziati dal governo federale. Uno dei progetti ai quali partecipa l'HGSC è CHARGE (Cohorts for Heart and Aging Research in Genomic Epidemiology). Questo consorzio, di cui fanno parte oltre 200 scienziati in 5 istituzioni in tutto il mondo, lavora per identificare i geni che contribuiscono all'invecchiamento e alle malattie cardiache. Il progetto CHARGE, che è un consorzio in corso, analizza campioni genetici e dati di fenotipi di vasti studi di coorte dell'NHLBI (National Heart, Lung, and Blood Institute) e studi simili in Europa. CHARGE e il Baylor College of Medicine collaborano al sequenziamento di molti partecipanti agli studi e all'elaborazione delle sequenze in Mercury, la pipeline di analisi di Baylor, per aiutare gli scienziati a capire meglio in che modo la variante genetica può svolgere un ruolo nella prevenzione e la cura di ictus e malattie cardiache. Baylor possiede 20 apparecchi di sequenziamento che distribuiscono circa 24 terabasi di contenuto al mese, intorno a 1 PB di dati non elaborati. Attualmente lo studio annovera più di 14.000 partecipanti. L'ampiezza delle risorse dei dati rende necessarie soluzioni di dati innovative.

DNAnexus offre gestione di dati, analisi di dati di sequenziamento di ultima generazione e collaborazione protetta per i centri e i ricercatori di sequenziamento del DNA. I servizi di DNAnexus vengono forniti tramite un singolo sistema unificato che si ricalibra per soddisfare le necessità particolari di natura accademica o commerciale dei suoi clienti. Questo sistema unificato include, fra molte altre caratteristiche, infrastruttura on demand per l'elaborazione e lo storage, supporto bioinformatico e di cloud computing e collaborazione conforme protetta. La soluzione PaaS di DNAnexus, basata su Amazon Web Services (AWS), è utilizzata da istituzioni accademiche, laboratori di ricerca pubblici, aziende biofarmaceutiche e fornitori di test diagnostici.

Nell'ultimo secolo, numerosi studi hanno seguito pazienti durante tutta la loro vita per determinare come si sviluppano certi disturbi o malattie. Una parte del progetto CHARGE consiste nel rianalizzare i risultati di questi studi, grazie allo sviluppo degli strumenti di sequenziamento del DNA, oltre che alla possibilità di gestire vasti gruppi di dati. Gli scienziati di CHARGE in tutto il mondo utilizzano dati per ricercare le cause e la prevenzione di malattie.

Ma ora che i sequenziatori di DNA sono diventati più efficaci e il test genomico diventa più prevalente, la quantità di dati da analizzare è diventata veramente enorme. Con più di 430 TB di dati in gioco nel progetto CHARGE, la sola distribuzione di dati agli scienziati interessati sarebbe stata problematica. In passato, i dischi rigidi con i dati sarebbero stati crittografati e poi spediti per posta ai più di 200 scienziati partecipanti al progetto CHARGE, creando ritardi nella condivisione delle informazioni e problemi con la sicurezza dei dati. "Dover spedire dischi rigidi per posta a così tante persone sarebbe stato un incubo logistico", spiega Narayanan Veeraraghavan, Lead Programmer Scientist a Baylor. "Sarebbe stato necessario crittografare i dati in tutti i punti. Visto il numero degli scienziati e dei dischi rigidi, ci sarebbero stati molti errori perché non tutti sarebbero stati in grado di seguire le linee guida di sicurezza".

Le sole sfide relative all'infrastruttura rappresentavano già un'impresa notevole. "Occorrono un paio di mesi per configurare la struttura perché venga incontro a esigenze particolari relative allo storage dei dati e all'elaborazione", afferma Veeraraghavan. "Durante quei mesi la tecnologia può cambiare, i protocolli possono cambiare e gli aggiornamenti alla piattaforma di sequenziamento possono risultare in un raddoppiamento dell'output dei sequenziatori. Quindi, durante il tempo impiegato per pianificare e valutare i bisogni di hardware, la domanda è raddoppiata". Baylor voleva inoltre che gli scienziati fossero in grado di condividere strumenti su diversi sistemi operativi.

Il fardello di elaborazione locale "può mettere i progetti in ginocchio", afferma Veeraraghavan. "Dobbiamo poter operare su larga scala e archiviare quantità immense di dati. Era necessaria un'altra soluzione o il progetto CHARGE avrebbe assunto un costo proibitivo. Sarebbe stato difficile o addirittura impossibile per noi ottenere le risorse di elaborazione che ci occorrevano".

Il Baylor College of Medicine è alla ricerca di una soluzione vantaggiosa a livello di costi e di facile manutenzione in grado di offrire una collaborazione efficace e sicura a livello globale senza i ritardi provocati dall'installazione di un'infrastruttura tipica. "Non volevamo passare mesi a installare un'infrastruttura e avevamo la necessità di poter condividere i dati in modo efficace, sicuro e interattivo", afferma Veeraraghavan.

La soluzione ideale doveva essere sufficientemente flessibile da soddisfare anche gli standard clinici e i requisiti HIPAA. "Dopo aver messo tutte le carte sul tavolo, ci siamo naturalmente orientati verso DNAnexus e il cloud AWS".

Baylor ha scelto come partner DNAnexus, che fornisce una PaaS basata su API che consente alle aziende cliniche e di ricerca di migrare le pipeline di analisi nel cloud AWS in modo efficiente e sicuro. DNAnexus consente ai clienti di convertire i loro algoritmi proprietari nel cloud insieme a strumenti standard del settore e risorse di riferimento per creare flussi di lavoro personalizzati. La PaaS di DNAnexus è stata creata interamente su AWS, cosa che ha permesso a DNAnexus di ricalibrare il sistema per supportare più di 20.000 memorie centrali di elaborazione in simultanea, 1 PB di storage, milioni di ore di memoria centrale di analisi e centinaia di migliaia di attività di elaborazione nel cloud AWS. AWS ha inoltre fornito a DNAnexus un BAA (Business Associates Agreement), che permette all'azienda di offrire la migliore sicurezza e compliance con le leggi sanitarie sia negli Stati Uniti sia a livello internazionale. Con AWS, i clienti possono creare ed eseguire carichi di lavoro conformi ai requisiti HIPAA.

Il progetto CHARGE usa la pipeline di analisi di Baylor, Mercury, per elaborare i dati. La pipeline Mercury utilizza file non elaborati del sequenziatore e trasforma i dati in prodotto finale: un file di chiamata di variante annotato, che identifica le mutazioni che potrebbero avere importanza clinica. Gli scienziati in seguito effettuano analisi terziarie per approfondire ulteriori questioni relative alla ricerca. Un piccolo gruppo di ricercatori sviluppa strumenti che permettono di esaminare in modo approfondito ciascun marcatore genetico, in modo da poter rielaborare i dati con nuove scoperte sui geni predittivi e protettivi. I ricercatori possono confrontare i diversi strumenti e condividerli senza ostacoli geografici utilizzando la piattaforma DNAnexus.

DNAnexus usa Amazon Simple Storage Service (Amazon S3) e Amazon Glacier per memorizzare oltre 1 PB di dati genomici. DNAnexus ha creato uno strumento a riga di comando che consente agli scienziati di caricare i dati di DNA direttamente dallo strumento di sequenziamento nel cloud, eliminando così la necessità di una costosa infrastruttura in locale. Amazon Elastic Compute Cloud (Amazon EC2) ospita le analisi del DNA. DNAnexus ha sviluppato un sistema di accodamento che esegue istanze Amazon EC2, progettato per gestire le interruzioni dell'elaborazione dei dati.

Per ottimizzare i costi, DNAnexus usa le istanze riservate di Amazon EC2 per i servizi interattivi, come il sito Web, il portale front-end dei clienti e gli strumenti di visualizzazione del DNA, oltre che per i servizi back-end del cloud e di gestione delle attività.

DNAnexus.arch

Figura 1. Architettura dell'HGSC di Baylor nel cloud AWS

Baylor e DNAnexus proteggono i dati CHARGE controllando l'accesso alla pipeline Mercury, secondo le best practice tracciate da AWS. "Trattiamo informazioni mediche confidenziali sulle persone", spiega Veeraraghavan. "Utilizzando una sola pipeline e controllandone l'accesso, è possibile strutturare l'ambiente in modo da minimizzare i rischi". I rigorosi protocolli di sicurezza in AWS consentono a DNAnexus di offrire ai propri clienti i migliori standard di sicurezza, compliance e audit in conformità con i requisiti HIPAA, CLIA e altre complesse normative. Omar Serang, direttore del cloud di DNAnexus, afferma: "Siamo in grado di realizzare studi clinici su scala enorme che necessitano un'infrastruttura di elaborazione in un ambiente protetto e conforme a una scala che non era possibile in passato".

Dopo la migrazione in AWS e DNAnexus, Baylor ha completato la prima analisi in 10 giorni, cinque volte più rapidamente che con l'infrastruttura locale, e ha potuto condividerne subito i risultati. L'analisi ha impiegato 21.000 memorie centrali, sapendo che un'istanza Amazon EC2 XL ha 16 memorie centrali virtuali. "Il cloud AWS ci consente di collaborare in modo rapido anche quando ci sono in ballo terabyte di dati", dichiara Veeraraghavan. "La capacità di avere un'area centrale dove le persone possono elaborare dati permette di risparmiare sulla banda di rete e di evitare l'acquisto e la manutenzione di ingenti risorse di elaborazione".

Siamo ben lontani dall'epoca in cui Baylor doveva spedire per posta i dischi rigidi per favorire la collaborazione fra scienziati. Utilizzando AWS e DNAnexus, Baylor e CHARGE hanno consentito agli scienziati di usare sistemi diversi con un ambiente comune per condividere strumenti di analisi. "Qualsiasi scienziato, che utilizzi un sistema Mac, Linux o Windows, può eseguire qualsiasi strumento su tutti di dati di CHARGE in DNAnexus", dice Veeraraghavan. Andrew Carroll, scienziato principale di DNAnexus per CHARGE, aggiunge: "Utilizzare AWS permette di confrontare gli strumenti e di capire che cosa funziona o no per il tuo progetto. DNAnexus nel cloud AWS consente ai ricercatori di condividere quello che hanno imparato grazie alla comunità scientifica".

La scalabilità del cloud AWS permette agli scienziati di CHARGE di ottenere maggiore capacità di previsione sulle malattie che studiano. Possono inoltre identificare geni "protettivi" che possono impedire a una persona di contrarre una malattia, e possono farlo in modo rapido e sicuro. "Questo spiega perché conviene passare al cloud AWS", afferma Carroll. "CHARGE deve poter funzionare con carichi estremamente elevati per un periodo di tempo quanto più breve possibile per completare il lavoro. Il cloud AWS fornisce a DNAnexus la flessibilità di creare la propria PaaS sulla base della tecnologia AWS. Possiamo ricalibrare il sistema DNAnexus con risorse praticamente illimitate di elaborazione e di storage dei dati".

Ma soprattutto, l'utilizzo di DNAnexus e AWS ha consentito agli scienziati di CHARGE di concentrarsi sulla scienza, e non sull'infrastruttura. "Per aggiornare l'infrastruttura con ogni afflusso importante in arrivo, è necessario un investimento notevole, senza parlare dello spazio", afferma Veeraraghavan. "Anche questi tipi di elaborazione non sono una tantum: continuano ad aumentare in modo esponenziale. Ci sono molti limiti alla nostra capacità di trovare gli orizzonti della scienza. Ma adesso, grazie ad AWS e a DNAnexus, possiamo concentrarci sulla scienza invece che sull'infrastruttura".

Per ulteriori informazioni sulla genomica nel cloud, visita la pagina dei dettagli sulla genomica in AWS.