Kisah Pelanggan / Perangkat Lunak dan Internet

2020
Logo Dropbox

Dropbox Menghemat Jutaan dengan Membangun Penyimpanan Metadata yang Dapat Diskalakan di Amazon DynamoDB dan Amazon S3

1 tahun

Meluncurkan sistem penyimpanan metadata di AWS dalam 1 tahun.

5,5

Potong biaya per gigabita sebesar 5,5 lipat.

Menghemat jutaan

Menghemat jutaan dolar dalam biaya ekspansi.

300 TB

Memigrasi 300 TB data dalam waktu kurang dari 2 minggu.

4.000-6.000 kueri

Menyerap data dengan 4.000-6.000 kueri per detik.

Gambaran Umum

Pada musim panas tahun 2018, Dropbox mengalami krisis kapasitas di penyimpanan metadata on-premise karena pertumbuhan data yang cepat di beberapa partisi. Tim basis data Dropbox memiliki tiga pilihan: menggandakan kapasitas penyimpanan on-premise (yang akan menelan biaya jutaan dolar), menghapus sebagian besar metadata, atau menemukan solusi baru yang dapat diskalakan, tetapi hemat biaya. Opsi ketiga adalah yang terbaik, tetapi untuk mencapainya akan menjadi sebuah tantangan. Dropbox memiliki waktu kurang dari 2 tahun hingga sistem on-premise miliknya mencapai kapasitas maksimum, sementara tim implementasi untuk proyek ini hanya terdiri dari dua karyawan.

Keadaan tersebut mendorong Dropbox untuk mengejar solusi terkelola dari Amazon Web Services (AWS). Menggunakan Amazon DynamoDB, basis data NoSQL terkelola penuh dan fleksibel yang memberikan performa milidetik satu digit pada skala berapa pun, dan Amazon Simple Storage Service (Amazon S3), layanan penyimpanan objek cloud, Dropbox dengan cepat mengembangkan sistem penyimpanan terkelola baru yang disebut Alki. Hal ini memberi ruang bagi metadata pengguna yang hampir tidak terbatas dan tidak hanya menghemat jutaan dolar perusahaan karena tidak perlu meningkatkan penyimpanan on-premise, tetapi juga mengurangi biaya per gigabita sebesar 5,5 lipat.

701029600

Memigrasi Data Log Audit dari Basis Data Lama ke Cloud

Didirikan pada tahun 2007 oleh dua mahasiswa Massachusetts Institute of Technology, Dropbox adalah alat kolaborasi global dan layanan berbagi file. Dropbox telah menjadi salah satu perusahaan rintisan paling sukses di dunia, dengan lebih dari 600 juta pengguna yang mengunggah lebih dari 400 miliar konten.


Penyimpanan metadata Dropbox awalnya hanya ditempatkan di dalam penyimpanan data utama perusahaan, Edgestore, yang di-hosting di basis data terdistribusi on-premise yang dibangun di atas klaster MySQL yang dipecah. Pada pertengahan tahun 2018, metadata dingin yang berkembang pesat, yaitu data yang jarang diakses, tetapi perlu disimpan dengan tahan lama dan tersedia secara instan, hanya berjarak kurang dari 2 tahun dari saat Edgestore kewalahan. Namun, meningkatkan kapasitas basis data on-premise akan membutuhkan pemisahan partisi yang ada dan membeli mesin baru untuk meng-hosting-nya, yang akan menggandakan biaya Edgestore dengan menambahkan jutaan dolar per tahun. Selain itu, menyimpan metadata dingin di basis data yang sama dengan metadata panas atau yang sering digunakan sudah tidak masuk akal lagi. “Jika Anda menulis data yang tidak dimaksudkan untuk sering dibaca, sangat mahal untuk digunakan, belum lagi tidak ada gunanya menyimpan di media yang dioptimalkan untuk kecepatan pengambilan,” kata Jonathan Lee, tech lead untuk tim Alki Dropbox.


Akibatnya, dua karyawan berpisah dari tim basis data untuk membangun Alki, solusi yang dapat menyimpan metadata dengan biaya yang efektif. Mereka berfokus terutama pada data pencatatan audit kasus penggunaan metadata dingin teratas Edgestore. Karena tim kecil Alki menghadapi tenggat waktu yang ketat dan jika meleset, berpotensi menyebabkan hilangnya metadata pengguna, maka mereka memutuskan untuk mengimplementasikan layanan terkelola dari AWS. Dengan Amazon DynamoDB dan Amazon S3, Dropbox dengan cepat membuat prototipe dan melakukan deployment penyimpanan metadata dingin di AWS hanya dalam waktu satu tahun. AWS Solutions Architects berfungsi seperti perpanjangan tim Alki Dropbox sehingga memberikan panduan preskriptif dan bantuan implementasi.


“Saat membangun sistem penyimpanan, Anda harus mempertimbangkan banyak komponen, termasuk replikasi, cadangan, dan manajemen kapasitas. Amazon DynamoDB dan Amazon S3 sangat sesuai dengan kebutuhan tersebut. Keduanya adalah standar industri,” ujar Lee. “Ini adalah masalah yang membutuhkan waktu beberapa tahun untuk dipecahkan oleh tim besar. Namun, dengan Amazon DynamoDB dan Amazon S3, kami menyederhanakan masalah ini karena AWS menangani banyak tugas kompleks, seperti replikasi data, manajemen ketahanan data, dan penyediaan perangkat keras. Baik Amazon DynamoDB maupun Amazon S3 tumbuh secara otomatis sesuai dengan kebutuhan kapasitas kami. Kami tidak perlu lagi merencanakan kapasitas dan anggaran on-premise untuk pembelian perangkat keras, lalu terjebak dengan keputusan kami selama 4 tahun.”

kr_quotemark

Saat membangun sistem penyimpanan, Anda harus mempertimbangkan komponen, seperti replikasi, cadangan, dan manajemen kapasitas. Dengan Amazon DynamoDB dan Amazon S3, kami menyederhanakan masalah ini karena AWS menangani banyak tugas kompleks.”

Jonathan Lee
Alki Team Tech Lead, Dropbox

Membangun Penyimpanan Metadata Panas dan Dingin Menggunakan Solusi AWS

Tim Alki, dibantu oleh AWS Solutions Architects, membangun sistem penyimpanan metadata berbasis pohon gabungan (pohon LSM) berstruktur log, yang memiliki dua lapisan penyimpanan data: lapisan atas untuk metadata panas dan lapisan bawah untuk metadata dingin. Amazon DynamoDB bertindak sebagai lapisan penyimpanan panas yang menyerap data pencatatan audit ke enam tabel DynamoDB pada 4.000-6.000 penulisan per detik per tabel. Kemudian masing-masing tabel ini menyimpan 50–80 GB setiap hari. Pada akhir setiap hari, tim menurunkan metadata dari tabel ini ke Amazon S3 untuk penyimpanan permanen, setelah itu tabel di Amazon DynamoDB dihapus.

Pada awal tahun 2019, kurang dari 6 bulan setelah tim Alki memilih Amazon DynamoDB dan Amazon S3, Alki berada dalam tahap beta produksi yang menyerap semua data dan melayani subset dari bacaan. Pada bulan Oktober 2019, sekitar 300 TB data log audit—yang mewakili seperempat dari semua data yang disimpan di Edgestore—telah dimigrasi ke Alki, yang sekarang dalam produksi penuh.

Skalabilitas Amazon DynamoDB dan Amazon S3 membantu tim Dropbox menyelesaikan migrasi data tersebut dalam waktu kurang dari 2 minggu. “Biasanya Anda mungkin merancang sistem untuk 10 kali lipat skala yang Anda inginkan dalam kondisi stabil,” jelas Lee. “Namun, kami dapat menskalakan 100-1.000 kali di AWS tanpa mendesain sistem sebelumnya.” Tim Alki mengharapkan kondisi stabil menjadi 4.000 kueri per detik, tetapi tim Alki mampu menyediakan Amazon DynamoDB untuk 600.000 kueri per detik selama migrasi.

Menurut Lee, AWS Solutions Architects memberikan dukungan premium kepada tim Alki selama migrasi. “Kami tidak memiliki hal lain yang dapat kami katakan selain hal-hal positif tentang interaksi kami dengan tim AWS yang mengerjakan Alki. Mereka sangat proaktif saat membantu kami menemukan masalah, dengan menunjukkan bagaimana kami dapat membuat segalanya lebih cepat atau mengidentifikasi area agar kami mungkin ingin lebih berhati-hati secara operasional,” kata Lee. Tim Alki dan AWS Solutions Architects dapat tetap berkomunikasi secara konstan melalui saluran waktu nyata. Selain itu, tim Alki akan terus menuai manfaat dari kolaborasi tersebut melalui layanan terkelola AWS. “Menjalankan sistem dengan tahan lama membutuhkan keahlian, dan kami tidak memiliki keahlian itu,” kata Stas Ilinskiy, software engineer di tim Alki. “Namun, dengan Amazon DynamoDB, kami juga mendapatkan orang-orang dengan keahlian untuk menjalankannya.”

Alki menghemat jutaan dolar biaya ekspansi Dropbox dan secara signifikan mengurangi biaya gigabita per pengguna dengan Amazon DynamoDB dan Amazon S3. Edgestore milik Dropbox akan dikenakan biaya 5,5 kali lebih banyak daripada Alki per gigabita pengguna per tahun.

Terus Membuat Pengalaman Penyimpanan Pengguna yang Unggul

Tim Alki sedang mengeksplorasi cara menggunakan Amazon EMR untuk menurunkan data dari Amazon DynamoDB ke Amazon S3 dengan lebih efisien, sebuah proses yang saat ini ditangani oleh sistem pemrosesan batch milik Dropbox sendiri. Selain itu, untuk lebih mewujudkan penghematan biaya dengan Alki, Dropbox memigrasi basis data lain dengan 300 TB metadata dingin ke Alki dari Edgestore pada bulan Oktober 2020. Hal ini menetapkan tahap bagaimana Dropbox dapat menggunakan Alki di masa mendatang untuk mengoptimalkan dan menurunkan biaya lebih lanjut: perusahaan mungkin menggunakannya sebagai penyimpanan metadata dingin untuk tujuan umum. “Daripada memindahkan kasus penggunaan tertentu, apakah kita dapat mengintegrasikan Alki dengan Edgestore dan secara transparan memindahkan data di antara keduanya?” tanya Lee. “Itu visi selanjutnya.”

Dengan menggunakan Amazon DynamoDB dan Amazon S3, tim Alki dapat dengan cepat meluncurkan penyimpanan metadata yang tahan lama dan dapat diskalakan yang telah menghasilkan penghematan biaya besar untuk Dropbox. Layanan terkelola yang ditawarkan oleh AWS menjadikan penyimpanan ini sebagai opsi jangka panjang yang berkelanjutan. Solusinya juga telah memungkinkan Dropbox untuk meluncurkan beberapa proyek yang tidak bisa dilakukan di Edgestore. “Seluruh proyek Alki diawasi dengan ketat oleh semua manajemen atas,” kata Lee. “Kami sangat senang dengan kinerja Alki dan juga kinerja Amazon DynamoDB dan Amazon S3.”

Tentang Dropbox

Dropbox, yang berkantor pusat di San Francisco, menyediakan satu tempat untuk menjaga kehidupan tetap teratur dan menjaga pekerjaan tetap berjalan. Dengan lebih dari 600 juta pengguna terdaftar di 180 negara, Dropbox memiliki misi untuk merancang cara kerja yang lebih modern.

Layanan AWS yang Digunakan

Amazon S3

Amazon Simple Storage Service (Amazon S3) adalah layanan penyimpanan objek yang menawarkan skalabilitas, ketersediaan data, keamanan, dan performa terdepan di industri.

Pelajari selengkapnya »

Amazon DynamoDB

Amazon DynamoDB adalah basis data nilai-kunci dan dokumen dengan kinerja satu digit milidetik dalam skala apa pun.

Pelajari selengkapnya »

Amazon EMR

Amazon EMR adalah platform big data cloud terkemuka di industri untuk memproses sejumlah besar data menggunakan alat sumber terbuka seperti Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi, dan Presto.

Pelajari selengkapnya »

Lebih Banyak Kisah Pelanggan Perangkat Lunak & Internet

tidak ada item yang ditemukan 

1

Mulai

Organisasi dalam berbagai ukuran di semua industri mentransformasi bisnis mereka dan mewujudkan misi mereka setiap hari menggunakan AWS. Hubungi ahli kami dan mulai perjalanan AWS Anda sendiri sekarang juga.