Caso di studio San Francisco State University

2014

Il dipartimento di informatica presso la San Francisco State University conta circa 400 studenti e 100 specializzandi e si dedica sia all'istruzione sia alla ricerca. Il dipartimento, in collaborazione con il Stanford Helix Group, sta attualmente lavorando a un progetto di machine learning chiamato FEATURE e supportato dal National Institute of Health (NIH Grant LM05652).

FEATURE si appoggia al machine learning per prevedere siti funzionali e altre strutture molecolari tridimensionali (3D). Il professor Dragutin Petkovic spiega: "Un'elevata ottimizzazione in parallelo di machine learning comporta l'applicazione di algoritmi di macchine a vettori di supporto (support vector machine, SVM) su migliaia di training set composti da centinaia di migliaia di vettori. I parametri SVM ottimali vengono trovati attraverso ricerche su griglie parallelizzate grazie al metodo brute force con una convalida incrociata di tipo k-fold. Tale ottimizzazione comporta numerose ripetizioni indipendenti di operazioni simili". 

avvia un tutorial python
kr_quotemark

"AWS offre l'accesso on demand a risorse ad alte prestazioni, consentendoci di rivolgere l'attenzione sugli aspetti scientifici anziché sul mantenimento dell'infrastruttura server".

Professor Dragutin Petkovic
San Francisco State University

La sfida

FEATURE, al pari di altri progetti scientifici innovativi, ha un appetito insaziabile per il calcolo ad alte prestazioni e i ricercatori del progetto hanno riscontrato che la richiesta di elaborazione per esplorare gli aspetti dettagliati delle molecole biologiche ben presto ha superato le capacità dell'istituto. Le risorse di elaborazione sono condivise presso la San Francisco State University e, in caso di richiesta elevata, i ricercatori dovevano rimodellare le loro domande o attendere molto tempo per avere a disposizione le risorse. Tali limitazioni costringevano a una lunga attesa dei risultati e ponevano un limite arbitrario sugli esperimenti che i ricercatori potevano eseguire.

Perché Amazon Web Services

I ricercatori avevano bisogno di risorse di elaborazione solo periodicamente e non era conveniente acquistare una risorsa su ampia scala e mantenerla per un uso che non fosse costante. In fase di valutazione delle varie opzioni, il team di ricercatori ha realizzato che l'accesso on demand alle risorse di elaborazione offerto da Amazon Web Services (AWS) era perfetto per le loro esigenze. "Il modello di tariffazione in base al consumo di Amazon Elastic Compute Cloud (Amazon EC2) era l'opzione più adeguata, rispetto a mantenere un server di grandi dimensioni internamente", afferma il professor Petkovic.

Il team ha realizzato FEATURE utilizzando, tra gli altri, C, C++, Perl e Python. I ricercatori hanno distribuito il cluster su Amazon EC2 con MIT StarCluster, uno strumento per effettuare il provisioning automatico creato per l'elaborazione tecnica e scientifica ad alte prestazioni. Il Protein Databank e i database contenenti le strutture delle proteine sono stati caricati sui volumi di Amazon Elastic Block Store (Amazon EBS), così da poterli gestire e riutilizzare con facilità, e sono accessibili attraverso un'immagine personalizzata di Amazon Linux (Amazon Linux AMI).

I vantaggi

Per valutare le prestazioni del progetto FEATURE su AWS, il team ha utilizzato la profilazione del software e il valore di riferimento I/O per misurare le metriche sulle prestazioni. Petkovic spiega: "Il team ha un piccolo cluster interno con 40 nodi. Lo abbiamo confrontato con il cloud e abbiamo riscontrato che Amazon EC2 era decisamente superiore in termini di cicli di CPU per costo, inoltre offriva la capacità di ridimensionarsi all'occorrenza. Esperimenti che in passato richiedevano settimane possono ora essere eseguiti in una sola notte. Ciò significa che i nostri ricercatori sono sempre impegnati e non rimangono in attesa dei risultati. AWS ha ridotto sensibilmente i tempi di risposta alle domande dei ricercatori".

Il professor Petkovic stima che i loro costi di elaborazione sono stati ridotti di circa 20 volte. "Stimiamo che l'esecuzione di un piccolo cluster interno con 40 nodi costi 1,71 USD per computer all'ora. Al confronto, Amazon EC2 ci costa solo 0,08 USD per unità computer elastica (elastic computer unit, ECU) all'ora", spiega. Petkovic e il suo team possono inoltre utilizzare avvisi di fatturazione e altri strumenti di ottimizzazione dei costi offerti da AWS per pianificare e gestire il costo di utilizzo del servizio.

"AWS offre l'accesso on demand a risorse ad alte prestazioni, consentendoci di rivolgere l'attenzione sugli aspetti scientifici anziché sul mantenimento dell'infrastruttura server. AWS ci aiuta a innalzare il livello dei nostri esperimenti di machine learning in termini di dimensioni e ambito", afferma Petkovic.

San Francisco State University architecture diagram

Informazioni sulla San Francisco State University

Il dipartimento di informatica presso la San Francisco State University conta circa 400 studenti e 100 specializzandi e si dedica sia all'istruzione sia alla ricerca. Il dipartimento, in collaborazione con il Stanford Helix Group, sta attualmente lavorando a un progetto di machine learning chiamato FEATURE e supportato dal National Institute of Health (NIH Grant LM05652).


Servizi AWS utilizzati

Amazon EC2

Capacità di elaborazione sicura e scalabile nel cloud. Applicazioni sempre pronte senza impegni anticipati.

Ulteriori informazioni >>

Amazon EBS

Amazon Elastic Block Store (EBS) è un servizio di storage a blocchi ad alte prestazioni e facile da usare progettato per l'utilizzo con Amazon Elastic Compute Cloud (EC2).

Ulteriori informazioni >>

Amazon Linux AMI

Amazon Linux AMI è un'immagine Linux completa di supporto e manutenzione fornita da Amazon Web Services per l'uso con Amazon Elastic Compute Cloud (Amazon EC2).

Ulteriori informazioni >>


Nozioni di base

Aziende di tutte le taglie e di tutti i settori stanno trasformando ogni giorno la loro attività grazie ad AWS. Contatta i nostri esperti e comincia il tuo viaggio nel Cloud AWS oggi.