Testimonianze dei clienti/Software e Internet

2020
Logo Dropbox

Dropbox risparmia milioni di dollari creando uno storage di metadati scalabile su Amazon DynamoDB e Amazon S3

1 anno

Lancio del sistema di archiviazione dei metadati su AWS in 1 anno.

5,5

Riduzione del costo per utente in gigabyte di un fattore di 5,5.

Milioni risparmiati

Risparmio di milioni di dollari in costi di espansione.

300 TB

300 TB di dati migrati in meno di 2 settimane.

4.000-6.000 query

Importa dati a 4.000-6.000 query al secondo.

Panoramica

Nell'estate del 2018, Dropbox ha registrato una riduzione della capacità del suo archivio di metadati on-premise a causa della rapida crescita dei dati in alcune partizioni. Il team di database di Dropbox aveva tre opzioni: raddoppiare la capacità di archiviazione on-premise (con un costo di milioni di dollari), eliminare grandi quantità di metadati o individuare una nuova soluzione altamente scalabile ma conveniente. La terza opzione era la migliore, ma raggiungerla sarebbe stata una sfida. Dropbox aveva meno di 2 anni prima che il suo sistema on-premise raggiungesse la capacità massima e il team di implementazione del progetto era composto da soli due dipendenti.

Queste circostanze hanno spinto Dropbox a cercare una soluzione gestita di Amazon Web Services (AWS). Utilizzando Amazon DynamoDB, un database NoSQL flessibile e completamente gestito che offre prestazioni in unità di millisecondi su qualsiasi scala, e Amazon Simple Storage Service (Amazon S3), un servizio di archiviazione di oggetti nel cloud, Dropbox ha sviluppato rapidamente un nuovo sistema di storage gestito chiamato Alki. Ciò ha consentito di creare spazio per metadati utente praticamente illimitati e non solo ha consentito all'azienda di risparmiare milioni di dollari, giacché non avrebbe dovuto aumentare lo storage on-premise, ma ha anche ridotto il costo per gigabyte di un fattore di 5,5.

701029600

Migrazione dei dati del log di audit da un database legacy al cloud

Fondato nel 2007 da due studenti del Massachusetts Institute of Technology, Dropbox è uno strumento di collaborazione globale e un servizio di condivisione di file. È diventata una delle startup di maggior successo al mondo, con oltre 600 milioni di utenti che caricano più di 400 miliardi di contenuti.


Gli archivi di metadati di Dropbox erano originariamente ospitati esclusivamente nell'archivio dati principale dell'azienda, Edgestore, ospitato in un database distribuito on-premise costruito su cluster MySQL partizionati. A metà del 2018, la rapida crescita dei metadati "inattivi", dati a cui si accede di rado ma che devono essere archiviati in modo duraturo e disponibili istantaneamente, era a meno di 2 anni dal sovraccarico di Edgestore. Tuttavia, aumentare la capacità del database on-premise avrebbe richiesto la suddivisione delle partizioni esistenti e l'acquisto di nuove macchine per ospitarle, il che avrebbe raddoppiato il costo di Edgestore aggiungendo milioni di dollari all'anno. Inoltre, non aveva più senso archiviare i metadati inattivi nello stesso database dei metadati "attivi", ovvero utilizzati frequentemente. "Se scrivi dati che non sono pensati per essere letti spesso, è estremamente costoso utilizzarli, per non dire insensato archiviarli, in supporti ottimizzati per la velocità di recupero", afferma Jonathan Lee, responsabile tecnico del team Alki di Dropbox.


Di conseguenza, due dipendenti si sono separati dal team del database per creare Alki, la soluzione in grado di archiviare i metadati in modo conveniente. Si sono concentrati in particolare sui dati di registrazione degli audit, il principale caso d'uso dei metadati inattivi di Edgestore. Poiché il piccolo team di Alki ha dovuto affrontare una scadenza ravvicinata che, in caso di mancato rispetto, avrebbe potuto portare alla perdita dei metadati degli utenti, è stato deciso di implementare servizi gestiti da AWS. Utilizzando Amazon DynamoDB e Amazon S3, Dropbox ha rapidamente realizzato il prototipo e distribuito un archivio di metadati inattivi su AWS in appena un anno. AWS Solutions Architects ha funzionato come un'estensione del team Alki di Dropbox, fornendo indicazioni prescrittive e assistenza per l'implementazione.


"Quando si crea un sistema di archiviazione, è necessario pensare a molti componenti tra cui replica, backup e gestione della capacità. Amazon DynamoDB e Amazon S3 rispondono bene a questa esigenza: sono standard del settore", afferma Lee. "Si tratta di problemi che i team di grandi dimensioni impiegano diversi anni per risolvere. Ma utilizzando Amazon DynamoDB e Amazon S3, semplifichiamo questi problemi perché AWS gestisce molte attività complesse come la replica dei dati, la gestione della durata dei dati e il provisioning dell'hardware. Sia Amazon DynamoDB che Amazon S3 crescono automaticamente in base alle nostre esigenze di capacità. Non abbiamo più bisogno di pianificare la capacità e il budget on-premise per gli acquisti di hardware per poi restare bloccati nelle nostre decisioni per 4 anni".

kr_quotemark

Quando si crea un sistema di archiviazione, è necessario pensare a componenti quali replica, backup e gestione della capacità. Utilizzando Amazon DynamoDB e Amazon S3, semplifichiamo questi problemi perché AWS gestisce molte delle attività complesse".

Jonathan Lee
Alki Team Tech Lead, Dropbox

Creazione di archivi di metadati attivi e inattivi con soluzioni AWS

Il team di Alki, con l'aiuto di AWS Solutions Architects, ha costruito un sistema di storage dei metadati di tipo LSMT (log-structured merge-tree) che dispone di due livelli di archiviazione dei dati: un livello superiore per i metadati attivi e uno inferiore per i metadati inattivi. Amazon DynamoDB funge da livello di archiviazione attivo, acquisendo i dati di log di audit in sei tabelle DynamoDB a 4.000-6.000 scritture al secondo per tabella. Quindi ognuna di queste tabelle memorizza 50-80 GB al giorno. Alla fine di ogni giornata, il team scarica i metadati da queste tabelle in Amazon S3 per l'archiviazione permanente, dopodiché le tabelle in Amazon DynamoDB vengono eliminate.

All'inizio del 2019, meno di 6 mesi dopo che il team di Alki aveva scelto Amazon DynamoDB e Amazon S3, Alki era nella fase beta della produzione, acquisiva tutti i dati e gestiva un sottoinsieme delle letture. A ottobre 2019 circa 300 TB di dati del log di audit, che rappresentano un quarto di tutti i dati archiviati in Edgestore, erano stati migrati ad Alki, che ora era in piena produzione.

La scalabilità di Amazon DynamoDB e Amazon S3 ha aiutato il team di Dropbox a completare la migrazione dei dati in meno di 2 settimane. "Normalmente è possibile progettare un sistema con una scala 10 volte superiore a quella che ci si aspetterebbe in una condizione stazionaria", spiega Lee. "Ma siamo riusciti a scalare da 100 a 1.000 volte su AWS senza progettare il sistema in anticipo". Il team di Alki prevedeva che la condizione stazionaria fosse di 4.000 query al secondo, ma è stato in grado di fornire Amazon DynamoDB per 600.000 query al secondo durante la migrazione.

Secondo Lee, AWS Solutions Architects ha fornito un supporto di primo livello al team di Alki durante tutta la migrazione. "Possiamo solo dire cose positive sulla nostra interazione con il team AWS che lavora su Alki. È sempre stato molto proattivo nell'aiutarci a rilevare i problemi, indicando come avremmo potuto rendere le cose più veloci o identificando le aree in cui avremmo dovuto essere più attenti dal punto di vista operativo", afferma Lee. Il team di Alki e gli AWS Solutions Architects sono stati in grado di rimanere in comunicazione costante tramite canali in tempo reale. E il team di Alki continuerà a sfruttare i vantaggi di tale collaborazione attraverso i servizi gestiti di AWS. "La gestione duratura di un sistema richiede esperienza, che noi non avevamo", afferma Stas Ilinskiy, ingegnere software del team di Alki. "Ma utilizzando Amazon DynamoDB, acquisiamo anche le persone con le competenze necessarie per gestirlo".

Alki ha consentito a Dropbox di risparmiare milioni di dollari in costi di espansione e ha ridotto significativamente i costi di gigabyte per utente utilizzando Amazon DynamoDB e Amazon S3. Edgestore di Dropbox costerebbe agli utenti 5,5 volte di più di Alki per gigabyte-utente all'anno.

Continuare a creare un'esperienza di archiviazione utente superiore

Il team di Alki sta esplorando come utilizzare Amazon EMR per trasferire in modo più efficiente i dati da Amazon DynamoDB ad Amazon S3, un processo attualmente gestito dal sistema di elaborazione batch di Dropbox. Inoltre, per realizzare ulteriori risparmi sui costi con Alki, Dropbox ha migrato un altro database con 300 TB di metadati inattivi ad Alki da Edgestore nell'ottobre 2020. Questo pone le basi per il modo in cui Dropbox potrebbe utilizzare Alki in futuro per ottimizzare e ridurre ulteriormente i costi: l'azienda potrebbe utilizzarlo come archivio di metadati inattivi per uso generico. "Anziché spostare casi d'uso specifici, potremmo integrare Alki con Edgestore e spostare in modo trasparente i dati tra i due?" chiede Lee. "Questa è la visione futura".

Utilizzando Amazon DynamoDB e Amazon S3, il team di Alki è stato in grado di lanciare rapidamente un archivio di metadati duraturo e scalabile che ha portato a enormi risparmi sui costi per Dropbox. I servizi gestiti offerti da AWS rendono la manutenzione di questo storage un'opzione sostenibile a lungo termine. La soluzione ha anche consentito a Dropbox di lanciare diversi progetti che non poteva fare su Edgestore. "L'intero progetto Alki è stato seguito molto attentamente da tutti i dirigenti superiori", afferma Lee. "Siamo molto soddisfatti delle prestazioni di Alki e quindi delle prestazioni di Amazon DynamoDB e Amazon S3".

Informazioni su Dropbox

Dropbox, con sede a San Francisco, offre un unico luogo in cui organizzare la vita e continuare a lavorare. Con oltre 600 milioni di utenti registrati in 180 Paesi, la missione di Dropbox è promuovere un modo più illuminato di lavorare.

Servizi AWS utilizzati

Amazon S3

Amazon Simple Storage Service (Amazon S3) è un servizio di archiviazione di oggetti che offre scalabilità, disponibilità dei dati, sicurezza e prestazioni all'avanguardia nel settore.

Ulteriori informazioni »

Amazon DynamoDB

Amazon DynamoDB è un database che supporta i modelli di dati di tipo documento e di tipo chiave-valore che offre prestazioni di pochi millisecondi a qualsiasi scala.

Ulteriori informazioni »

Amazon EMR

Amazon EMR è la piattaforma cloud di Big Data leader del settore per l'elaborazione di grandi quantità di dati tramite strumenti open source come Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi e Presto.

Ulteriori informazioni »

Altre testimonianze dei clienti del settore software e Internet

nessun elemento trovato 

1

Inizia

Organizzazioni di tutte le dimensioni in tutti i settori trasformano il proprio business e realizzano le loro missioni ogni giorno utilizzando AWS. Contatta i nostri esperti e inizia subito il tuo percorso verso il cloud AWS.