La nostra analisi dei geni lncRNA richiede elaborazione ed integrazione computazionali molto intense. Con AWS, possiamo suddividere i calcoli su 1.000 o più nodi, perciò non abbiamo più bisogno di settimane per le analisi di sequenziamento dei geni, ma solo di pochi giorni. 
Dott. Mitch Guttman Assistente universitario, divisione biologia e bioingegneria

Il Guttman Lab for lncRNA Biology presso il California Institute of Technology (Caltech) è un laboratorio di ricerca diretto dal noto dott. Mitch Guttman. Lo scienziato è alla guida di un team di ricercatori che studia una nuova classe di geni denominati lncRNA, abbreviazione di long non-coding RNA (RNA lungo non codificante). Mediante approcci basati su genomica e biochimica, biologia molecolare, biologia cellulare e biologia computazionale, Guttman e il suo team esplorano in che modo i geni lncRNA organizzano le proteine e le molecole di DNA nella cellula per controllare precisi programmi di espressione genica.

Quando il dott. Guttman è entrato a Caltech nel 2013, voleva essere sicuro che il suo team di ricerca disponesse di un cluster di high performance computing (HPT) elastico e flessibile. "Valutammo di acquisire un cluster per il laboratorio e sapevamo che doveva essere in grado di fornire supporto alle nostre irregolari esigenze di elaborazione", spiega Guttman. "A volte occorrono 1.000 nodi, altre volte solo 10. Dipende dalla disponibilità dei dati e dalla fase in cui si trova il progetto di ricerca. Se è in corso più di un progetto, il numero di nodi necessario può essere anche più elevato."

Il laboratorio, però, non prevedeva di creare un proprio cluster in locale. "I costi degli immobili e dell'energia in California sono tra i più alti degli Stati Uniti, per questo eravamo preoccupati dai costi che potevano derivare da un cluster locale" dice John Lilley, amministratore capo di servizi e sistemi di gestione informatica del Caltech. "Inoltre, non volevamo investire troppo tempo nella gestione e nella manutenzione del cluster".

Infine, Guttman e il suo team desideravano essere in grado di gestire le credenziali di accesso al cluster in modo semplice. "Volevamo poter attivare e disattivare account utente del cluster da un pannello di controllo centralizzato, senza temere di perdere le credenziali di una delle macchine", spiega Lilley.

Caltech aveva già trasferito i propri ambienti Web sulla piattaforma cloud di Amazon Web Services (AWS), così anche il Guttman Lab ha scelto AWS per supportare il proprio cluster HPC. "Abbiamo cercato un modo per impiegare il cloud come risorsa di elaborazione e AWS è stata semplicemente la scelta migliore: offre elasticità, flessibilità e costi ridotti, esattamente quanto cercavamo", illustra Lilley.

Il Guttman Lab utilizza un cluster HPC che include computer connessi a un Amazon Virtual Private Cloud (Amazon VPC), tramite il quale il laboratorio effettua il provisioning di una sezione isolata logicamente del cloud AWS per avviare risorse AWS in una rete virtuale definita. I ricercatori, che operano sia in ambienti sperimentali sia in ambienti di calcolo, acquisiscono dati di sequenziamento dei geni e li memorizzano in un file system GlusterFS all'interno del cloud privato virtuale; in seguito accedono ai dati utilizzando una workstation Linux condivisa in AWS, a cui autenticarsi tramite Simple AD, una directory compatibile con Active Directory offerta da AWS Directory Service.

Il laboratorio impiega inoltre Amazon WorkSpaces, il servizio di desktop gestiti per utenti non Linux. "Volevamo offrire ai nostri utenti Windows la possibilità di connettersi dai loro PC ad Amazon WorkSpaces, per accedere ai dati esattamente come gli utenti Linux", afferma Lilley. "Per gestire l'accesso con la massima semplicità, utilizziamo Simple AD". Il laboratorio utilizza istanze Amazon Elastic Compute Cloud (Amazon EC2) per i nodi GlusterFS e un framework CfnCluster per distribuire ed eseguire la manutenzione del cluster HPC in AWS. Tramite tale cluster, il team di ricerca sviluppa strumenti di calcolo e metodi statistici che permettono di analizzare i dati sperimentali.

Con AWS, il Guttman Lab dispone dell'elasticità necessaria per gestire le loro mutevoli esigenze di elaborazione. "Non era necessario creare un cluster fisico in locale per gestire i cicli di elaborazione, perché AWS ricalibra automaticamente le risorse", spiega Lilley. E aggiunge Guttman: "Adesso non dobbiamo stabilire in anticipo le priorità dei progetti; avremo comunque abbastanza potenza di elaborazione senza dover acquistare nuovo hardware ogni pochi anni. Possiamo anche sviluppare e testare nuovi metodi di ricerca, AWS ha facilitato il lavoro del nostro laboratorio".

Il laboratorio dispone inoltre dell'agilità necessaria per aggiungere con facilità ulteriori risorse di calcolo, quando necessario. "Di recente abbiamo dovuto espandere il sistema GlusterFS da 5 terabyte a 24 terabyte; lo abbiamo fatto senza acquistare nuovo hardware" dice Lilley. Abbiamo semplicemente aggiunto alcuni nodi Amazon EC2 e aumentato le dimensioni di storage nel cloud; il tutto in una sola ora. Una volta questa operazione avrebbe richiesto settimane, perché sarebbe stato necessario discutere sui prezzi di acquisto dei prodotti hardware, farne richiesta, installarli e testarli".

Inoltre, i ricercatori in laboratorio possono analizzare i dati di geni lncRNA con maggiore rapidità grazie al cloud AWS. "La nostra analisi dei geni lncRNA richiede elaborazione ed integrazione computazionali molto intense" spiega Guttman. "Con AWS, possiamo suddividere i calcoli su 1.000 o più nodi, perciò non abbiamo più bisogno di settimane per le analisi di sequenziamento dei geni, ma solo di pochi giorni. Con la capacità limitata che avevamo prima semplicemente non era possibile".

Il laboratorio è anche stato in grado di ridurre i costi tramite l'utilizzo di istanze Spot, ottenute facendo offerte su istanze inutilizzate di Amazon EC2. "Se si prendono in esame le funzionalità di elaborazione elastica che è possibile ottenere con AWS e il risparmio in termini di costi ottenuto grazie alle istanze Spot di EC2, il cluster è molto più economico delle soluzioni che avremmo potuto creare noi stessi", conclude Guttman.

Utilizzando Amazon WorkSpaces con Simple AD, il Guttman Lab gestisce gli accessi al cluster HPC con la massima semplicità. "Quando abbiamo iniziato a lavorare con il cluster, era molto complicato sincronizzare le credenziali dal desktop Linux a host di gestione e CfnCluster", spiega Lilley. "L'integrazione di Simple AD nel cluster ci ha permesso di risparmiare un sacco di tempo, perché così possiamo attivare e disattivare account utente da un pannello di controllo centralizzato. Simple AD ci aiuta a mantenere la coerenza all'interno dell'ambiente".

Per il futuro, Caltech prevede altri laboratori e dipartimenti che sfruttino AWS. "Ciò che creiamo in AWS lo portiamo a tutti gli altri ricercatori di genomica all'interno del campus", dice Lilley. "È un modello che stiamo portando avanti per l'HPC presso il Caltech".

Per ulteriori informazioni sulle ricerche di genomica nel cloud, visita la pagina Genomica nel cloud.

Per ulteriori informazioni su come AWS può aiutarti a gestire un cluster HPC, visita la pagina delle nozioni di base sul High Performance Computing in AWS.