Il dipartimento di informatica presso la San Francisco State University ha circa 400 studenti universitari e 100 studenti post-universitari e si dedica sia all'istruzione che alla ricerca. Il dipartimento sta attualmente lavorando su un progetto di apprendimento automatico chiamato FEATURE, in collaborazione con il Stanford Helix Group ed è supportato dal National Institute of Health, (NIH Grant LM05652).

FEATURE utilizza l'apprendimento automatico per prevedere siti funzionali e altre strutture molecolari tridimensionali (3D). Il Professor Dragutin Petkovic spiega: "Un'ottimizzazione in parallelo elevata dell'apprendimento automatico comporta l'applicazione di algoritmi SVM (support vector machine) su migliaia di training set che sono composti da centinaia di migliaia di vettori. I parametri SVM ottimali vengono trovati tramite ricerche su griglie parallelizzate con il metodo "forza bruta" con una convalida incrociata di tipo "k-fold". Tale ottimizzazione comporta la ripetizione di operazioni similari numerose volte in maniera indipendente". Nella seguente Figura 1 viene illustrato il progetto FEATURE.

Dettagli del progetto Caso di studio AWS SF State

Figura 1: Dettagli del progetto FEATURE

FEATURE, al pari di altri progetti scientifici innovativi, ha un appetito insaziabile per il calcolo ad alte prestazioni e i ricercatori del progetto hanno riscontrato che la richiesta di elaborazione per esplorare gli aspetti dettagliati delle molecole biologiche ben presto ha superato le capacità dell'università. Le risorse di elaborazione sono condivise presso la San Francisco State University e in caso di richiesta elevata i ricercatori dovevano rimodellare le loro domande o attendere molto tempo per avere a disposizione le risorse. Tali limitazioni comportarono inoltre tempi di attesa molto lunghi per i risultati e ponevano un limite arbitrario sugli esperimenti che i ricercatori potevano eseguire.

I ricercatori avevano bisogno di risorse di elaborazione solo periodicamente e non era conveniente acquistare una risorsa su ampia scala e mantenerla per un uso che non fosse costante. In fase di valutazione delle varie opzioni, il team di ricercatori ha realizzato che l'accesso on demand alle risorse di elaborazione offerto da Amazon Web Services (AWS) era perfetto per le loro esigenze. "Il modello di tariffazione in base al consumo di Amazon Elastic Compute Cloud (Amazon EC2) era l'opzione più appropriata anziché possedere un server di grandi dimensioni internamente" afferma il Professor Petkovic.

Il team di ricercatori ha costruito FEATURE utilizzando, tra gli altri, C, C++, Perl e Python. Ha distribuito il cluster su Amazon EC2 con MIT StarCluster, uno strumento per effettuare il provisioning automatizzato creato per l'elaborazione tecnica e scientifica ad alte prestazioni. Il Protein Databank e i database contenenti le strutture delle proteine sono stati caricati sui volumi di Amazon Elastic Block Store (Amazon EBS) per essere gestiti e riutilizzati con facilità ed è possibile accedervi utilizzando un'immagine personalizzata di Amazon Linux (Amazon Linux AMI). Nella Figura 2 è riportata l'architettura del progetto FEATURE.

Schema dell'architettura AWS della San Francisco State University

Figura 2: Architettura del progetto FEATURE

Per valutare le prestazioni del progetto FEATURE su AWS, il team ha utilizzato la profilazione del software e il benchmarking I/O per misurare le metriche sulle prestazioni. Petkovic spiega "Il team ha un piccolo cluster interno con 40 nodi. Lo abbiamo messo a confronto con il cloud e abbiamo riscontrato che Amazon EC2 era decisamente superiore in termini di cicli di CPU per costo, oltre a offrire la capacità di ridimensionamento quando necessario. Esperimenti che in passato richiedevano settimane possono ora essere eseguiti in una sola notte. Ciò significa che i nostri ricercatori sono sempre impegnati e non rimangono in attesa dei risultati. AWS ha ridotto sensibilmente i tempi di risposta alle domande dei ricercatori".

Il Professor Petkovic stima che i loro costi di elaborazione sono stati ridotti di circa 20 volte. "Stimiamo che l'esecuzione di un piccolo cluster interno con 40 nodi costi 1,71 USD per computer all'ora. Al confronto, Amazon EC2 ci costa solo 0,08 USD per unità computer elastico (ECU) all'ora" spiega. Petkovic e il suo team possono inoltre utilizzare avvisi di fatturazione e altri strumenti di ottimizzazione dei costi offerti da AWS per pianificare e gestire il costo di utilizzo del servizio.

"AWS offre l'accesso on demand a risorse ad alte prestazioni, consentendoci di focalizzarsi sulla scienza anziché dover mantenere l'onerosa infrastruttura server. AWS ci aiuta a innalzare il livello dei nostri esperimenti di apprendimento automatico in termini di dimensioni e ambito" sostiene Petkovic.

Per ulteriori informazioni sulla genomica sul cloud, visita la nostra pagina dei dettagli sulla genomica AWS.

Per informazioni su come AWS può aiutarti a soddisfare le tue esigenze di elaborazione ad alte prestazioni, visita la nostra pagina dei dettagli su HPC.