La Icahn School of Medicine at Mount Sinai della città di New York è leader mondiale in ambito di formazione medico-scientifica, ricerca biomedica e assistenza sanitaria. Con la sua attività l'istituto mira ad ampliare le conoscenze biomediche, garantendo trattamenti clinici specializzati e mettendosi al servizio della comunità. In stretta collaborazione con il Mount Sinai Hospital, la Icahn School of Medicine è al servizio di una delle popolazioni di pazienti più complesse e diversificate al mondo.

I ricercatori e i medici della Icahn School of Medicine stanno cercando di svelare i segreti genetici relativi ai tumori mammario e ovarico. I dottori John A. Martignetti e Peter R. Dottino presso Mount Sinai e i rispettivi collaboratori presso Station X stanno lavorando all'estrazione di oltre 2.000 sequenze di DNA germinali e tumorali a livello di seno e ovaie generate dal programma The Cancer Genome Atlas Consortium (TCGA). Il TCGA è un progetto globale e coordinato volto ad approfondire rapidamente le nostre conoscenze sulla base molecolare del tumore attraverso l'applicazione di tecnologie di analisi del genoma, incluso il sequenziamento del genoma su larga scala. Il TCGA è gestito congiuntamente dal National Cancer Institute (NCI) e dal National Human Genome Research Institute (NHGRI), due dei 27 istituti e centri dei National Institutes of Health, Dipartimento della Salute e dei Servizi Umani degli Stati Uniti.

Si tratta di un problema importante che richiede una notevole potenza di calcolo in quanto gli scienziati analizzano oltre 100 TB di dati, avanzano ipotesi nuove e rianalizzano i dati. Le mutazioni germinali a livello dei geni BRCA1 o BRCA2 interessano circa la metà di tutte le donne che presentano un rischio genetico congenito di sviluppare uno dei due tumori. I ricercatori stanno lavorando per trovare i collegamenti genetici mancanti in quelle che non risultano portatrici di eventuali mutazioni dei geni BRCA1/2.

In collaborazione con Station X, i dottori Martignetti e Dottino sono riusciti ad assicurarsi il supporto di un solution provider in grado di fornire una piattaforma analitica solida e sicura per l'attività. Station X sviluppa GenePool™, una piattaforma software genomica per sanitari e scienziati che lavorano con i dati relativi alla genomica umana sia in ambito di ricerca iniziale che clinico.

La raccolta di informazioni a partire da terabyte di dati genomici, come pure la verifica dell'attendibilità di tali informazioni, richiede una piattaforma flessibile ad alte prestazioni con storage di Big Data e controllo degli accessi rigoroso. Questo era chiaramente un lavoro adatto per il cloud computing.

Amazon Web Services (AWS) è alla base di GenePool, la piattaforma genomica di Station X, capace di dimensionarsi in modo dinamico per analizzare decine di migliaia di genomi nel giro di minuti. "AWS è un luogo naturale per costruire ambienti software", ha affermato Sandeep Sanga, vice presidente Prodotti presso Station X. "Abbiamo costruito GenePool su AWS per offrire ai ricercatori un luogo in cui gestire e analizzare enormi quantità di dati. Senza ombra di dubbio, abbiamo scelto AWS perché il numero di servizi offerti è decisamente competitivo". L'uso di AWS ha consentito a Station X di concentrarsi sulla progettazione della piattaforma GenePool e aiutare i ricercatori a comprendere i dati in sequenza in modo rapido e sicuro.

Per i ricercatori di Mount Sinai la protezione dei dati dei pazienti è essenziale. "Mantenere la riservatezza dei nostri pazienti è di primaria importanza per noi, in particolare con la notevole quantità di dati generati", ha dichiarato Martignetti. "Non è un problema di poco conto. Ma utilizzando AWS e GenePool, abbiamo soddisfatto gli standard richiesti in materia di riservatezza". Grazie ad AWS, Station X è in grado di garantire a ricercatori precedentemente autorizzati la facoltà di accedere ai dati ad accesso controllato del TCGA, che consente agli utenti autorizzati di "calcolare e spiegare le mutazioni germinali e somatiche dei pazienti con tumore mammario o ovarico", ha affermato Sanga.

Mount Sinai utilizza AWS Identity and Access Management (IAM) per l'autenticazione degli utenti, consentendo la gestione e il controllo degli accessi per account tramite le liste di controllo degli accessi AWS (ACL) al fine di garantire una gestione delle credenziali e degli utenti centralizzata e sicura. Amazon Simple Notification Service (Amazon SNS) e Amazon Simple Email Service (Amazon SES) offrono servizi di messaggistica in uscita sia agli amministratori che agli utenti finali che richiedono notifiche e allarmi.

Grazie al servizio Elastic Load Balancing, Station X può assicurarsi di disporre di un'architettura API e Web scalabile che al tempo stesso risulta resiliente e sicura nel suo ambiente Amazon VPC, isolando datastore e livelli intermedi dall'esposizione della rete a Internet. "Isolando datastore e livelli intermedi dall'esposizione della rete a Internet, preserviamo la natura privata di tutti i nostri server, riducendo drasticamente l'invadenza delle misure di sicurezza", ha sostenuto Sanga.

I ricercatori di Mount Sinai utilizzano il cloud AWS per gestire ed estrarre informazioni significative da montagne di dati genomici archiviati su Amazon Simple Storage Service (Amazon S3), con storage supplementare su Amazon Glacier.

Station X utilizza Amazon Elastic Block Store (Amazon EBS) per dati critici di valore elevato al fine di favorire un sistema di storage flessibile e ad alte prestazioni in grado di ospitare ingenti quantità di dati pre-calcolati per analisi genomiche in tempo reale.

Amazon Elastic Compute Cloud (Amazon EC2) gestisce le integrazioni avanzate con database di annotazioni di tipo clinico e genomico, le funzioni di filtro grafiche e i modelli statistici integrati della piattaforma GenePool, supportando l'integrazione tramite i servizi Web RESTful. "La natura elastica di Amazon EC2 ci consente di elaborare e analizzare dati significativi adottando un approccio conveniente e dinamicamente scalabile", ha commentato Sanga. Mount Sinai ricorre al sistema di storage dedicato Amazon S3 per garantire la massima sicurezza nell'archiviazione e nell'organizzazione in GenePool dei dati genomici derivati dai rispettivi pazienti. Nella Figura 1 viene riportata l'architettura del Mount Sinai.

mount-sinai-arch-diag

Figura 1. Architettura della ricerca del Mount Sinai

Al fine di garantire il funzionamento efficace dei sistemi, GenePool utilizza Amazon CloudWatch per il monitoraggio. Amazon ElastiCache fornisce un meccanismo di caching centralizzato, che consente la restituzione rapida dei risultati analitici relativi a set di dati di grandi dimensioni. "Gli scienziati sono in grado di rispondere a domande critiche in pochi minuti o secondi, grazie alla piattaforma software genomica da noi creata su AWS", ha affermato Sanga.

Grazie ad AWS e GenePool, i dottori Martignetti e Dottino sono ora in grado di estrarre migliaia di record di pazienti dai progetti del programma TCGA e di individuare le aberrazioni genetiche in numerosi geni candidati nuovi in linea con le loro ipotesi scientifiche. Tramite un sistema di riferimenti incrociati tra geni candidati e altri dati genomici, i dottori Martignetti e Dottino sono stati in grado di alimentare l'elenco dei geni candidati in termini di nuovi marker potenziali per i tumori mammario e ovarico di natura ereditaria.

"Prima del cloud AWS, non disponevamo di un metodo per analizzare un set di dati così ingente con i nostri collaboratori esterni", ha dichiarato Martignetti. "Non sarebbe stato possibile passare al vaglio i dati in modo significativo, quindi analizzarli per poi rifiltrarli, un processo cruciale per le nostre attività volte a cercare i collegamenti mancanti".

"Grazie alla creazione di GenePool su AWS, Station X ha avuto l'opportunità di archiviare set di dati per i nostri clienti in ambito di genomica clinica e traslazionale", ha commentato Sanga. "L'utilizzo di AWS ci conferisce un vantaggio concorrenziale sostanziale: rapido accesso ai dati, ampio storage e potenza di calcolo notevole", ha quindi aggiunto. "Quando si tratta di progetti di ricerca analoghi a questo, non è mai possibile mettere un punto finale. Ci saranno sempre più dati da analizzare. Così perfino quando aiutiamo i ricercatori ad arrivare a conclusioni scientifiche, c'è sempre qualcosa in più da imparare. Grazie ad AWS, abbiamo le carte in regole per affrontare la sfida".

Senza la possibilità di eseguire quest'analisi in tutta sicurezza sul cloud AWS, i medici di Mount Sinai non sarebbero in grado di approfondire la loro ricerca. "Utilizzando AWS, possiamo archiviare file di origine in modo sicuro e conveniente con livelli significativi di durabilità e accessibilità. Non saremmo in grado di condurre il nostro lavoro di ricerca senza questo strumento", ha dichiarato Martignetti. "Ma utilizzando AWS e GenePool, speriamo di scoprire mutazioni che possano rivelarsi i collegamenti mancanti per cui alcune donne corrono un rischio maggiore di sviluppare tali tumori".

Per ulteriori informazioni sulla genomica nel cloud, visita la pagina dei dettagli sulla genomica in AWS.