Apa itu Presto atau PrestoDB?

Presto (atau PrestoDB) adalah mesin kueri SQL terdistribusi sumber terbuka, yang dirancang dari bawah ke atas untuk kueri analitik cepat terhadap data dalam ukuran apa pun. Presto mendukung, baik sumber nonrelasional, seperti Hadoop Distributed File System (HDFS), Amazon S3, Cassandra, MongoDB, dan HBase, maupun sumber data relasional, seperti MySQL, PostgreSQL, Amazon Redshift, Microsoft SQL Server, dan Teradata.

Presto dapat mengueri data di tempat data disimpan, tanpa perlu memindahkan data ke sistem analitik terpisah. Eksekusi kueri berjalan secara paralel melalui arsitektur berbasis memori murni, dengan sebagian besar hasil muncul dalam hitungan detik. Anda akan menemukannya digunakan oleh banyak perusahaan terkenal seperti Facebook, Airbnb, Netflix, Atlassian, dan Nasdaq.

Bagaimana sejarah Presto?

Presto dimulai sebagai proyek di Facebook, untuk menjalankan kueri analitik interaktif terhadap gudang data 300 PB, yang dibangun dengan klaster berbasis Hadoop/HDFS besar. Sebelum membangun Presto, Facebook menggunakan Apache Hive, yang dibuat dan diluncurkan pada tahun 2008, untuk memperkenalkan sintaksis SQL ke ekosistem Hadoop. Hive memiliki dampak signifikan pada ekosistem Hadoop untuk menyederhanakan tugas Java MapReduce yang kompleks menjadi kueri seperti SQL, sekaligus mampu mengeksekusi tugas dalam skala tinggi. Namun, Hive tidak dioptimalkan untuk performa cepat yang dibutuhkan dalam kueri interaktif.

Pada tahun 2012, grup Infrastruktur Data Facebook membangun Presto, yaitu sistem kueri interaktif yang dapat beroperasi dengan cepat pada skala petabita. Presto diluncurkan di seluruh perusahaan pada musim semi, tahun 2013. Pada bulan November 2013, Facebook membuat Presto menjadi sumber terbuka di bawah Lisensi Perangkat Lunak Apache, dan membuatnya tersedia bagi siapa pun untuk diunduh di Github. Saat ini, Presto telah menjadi pilihan populer untuk melakukan kueri interaktif di Hadoop, dan memiliki banyak kontribusi dari Facebook, dan organisasi lainnya. Implementasi Presto di Facebook digunakan oleh lebih dari seribu karyawan, yang menjalankan lebih dari 30.000 kueri, yang memproses satu petabita data setiap hari.

Bagaimana cara kerja Presto?

Presto adalah sistem terdistribusi yang berjalan pada Hadoop, dan menggunakan arsitektur yang mirip dengan sistem manajemen basis data pemrosesan paralel masif (MPP) klasik. Presto memiliki satu simpul koordinator yang bekerja secara sinkron dengan beberapa simpul pekerja. Pengguna mengirimkan kueri SQL mereka ke koordinator yang menggunakan kueri kustom dan mesin eksekusi untuk mengurai, merencanakan, dan menjadwalkan rencana kueri terdistribusi di seluruh simpul pekerja. Presto dirancang untuk mendukung semantik ANSI SQL standar, termasuk kueri kompleks, agregasi, gabungan, gabungan luar kiri/kanan, subkueri, fungsi jendela, hitungan berbeda, dan perkiraan persentil.

Setelah kueri dikompilasi, Presto memproses permintaan menjadi beberapa tahap di seluruh simpul pekerja. Semua pemrosesan berada dalam memori, dan disalurkan di seluruh jaringan di antara tahapan, untuk menghindari biaya tambahan I/O yang tidak perlu. Menambahkan lebih banyak simpul pekerja memungkinkan lebih banyak paralelisme dan pemrosesan yang lebih cepat.

Untuk membuat Presto dapat diperluas ke sumber data apa pun, Presto dirancang dengan abstraksi penyimpanan untuk memudahkan pembuatan konektor yang dapat dicolokkan. Oleh karena itu, Presto memiliki banyak konektor, termasuk sumber nonrelasional, seperti Hadoop Distributed File System (HDFS), Amazon S3, Cassandra, MongoDB, dan HBase, maupun sumber relasional, seperti MySQL, PostgreSQL, Amazon Redshift, Microsoft SQL Server, dan Teradata. Data dikueri di tempat data tersebut disimpan, tanpa perlu memindahkannya ke sistem analitik terpisah.  

Apa saja perbedaan antara Presto dan Hadoop?

Presto adalah mesin kueri SQL terdistribusi dan sumber terbuka yang dirancang untuk kueri interaktif yang cepat pada data di HDFS, dan lainnya. Tidak seperti Hadoop/HDFS, Presto tidak memiliki sistem penyimpanan sendiri. Dengan demikian, Presto melengkapi Hadoop, dengan organisasi yang mengadopsi keduanya untuk memecahkan tantangan bisnis yang lebih luas. Presto dapat diinstal dengan implementasi Hadoop apa pun, dan dikemas dalam distribusi Hadoop Amazon EMR .

Siapa yang menggunakan Presto?

Presto digunakan dalam produksi dalam skala yang sangat besar di banyak organisasi terkenal. Anda akan menemukannya digunakan di Facebook, Airbnb, Netflix, Atlassian, Nasdaq, dan banyak lagi. Implementasi Presto di Facebook digunakan oleh lebih dari seribu karyawan, yang menjalankan lebih dari 30.000 kueri, yang memproses satu petabita data setiap hari. Rata-rata, Netflix menjalankan sekitar 3.500 kueri per hari di klaster Presto. Airbnb yang dibangun dan bersumber terbuka, Airpal, alat eksekusi kueri berbasis web yang bekerja di atas Presto. Komunitas Presto yang lebih luas dapat ditemukan di forum ini dan di halaman Presto di Facebook.

Bagaimana Anda dapat melakukan deployment Presto di cloud?

Spark adalah beban kerja yang ideal di cloud karena cloud menyediakan performa, skalabilitas, keandalan, ketersediaan, dan skala ekonomi yang masif. Anda dapat meluncurkan klaster Presto dalam hitungan menit. Anda tidak perlu khawatir tentang penyediaan simpul, penyiapan klaster, konfigurasi Presto, atau penyetelan klaster.

Bagaimana AWS dapat membangun Implementasi Presto Anda di cloud?

Amazon EMR dan Amazon Athena adalah tempat terbaik untuk melakukan deployment Presto di cloud karena melakukan integrasi dan menguji ketelitian Presto untuk Anda, dengan skala, kesederhanaan, dan efektivitas biaya AWS. Dengan Amazon EMR, Anda dapat meluncurkan klaster Presto dalam hitungan menit tanpa perlu melakukan penyediaan simpul, penyiapan klaster, konfigurasi Presto, atau penyetelan klaster. EMR memungkinkan Anda menyediakan satu, ratusan, atau ribuan instans komputasi dalam hitungan menit. Amazon Athena memungkinkan Anda melakukan deployment Presto menggunakan platform AWS Nirserver, tanpa server, mesin virtual, atau klaster untuk menyiapkan, mengelola, atau menyetel. Cukup arahkan ke data Anda di Amazon S3, tentukan skema, dan mulai kueri menggunakan editor kueri bawaan, atau dengan alat Kecerdasan Bisnis (BI) yang ada. Athena secara otomatis memparalelkan kueri Anda, dan secara dinamis menskalakan sumber daya agar kueri berjalan dengan cepat. Anda hanya membayar untuk kueri yang Anda jalankan.

Langkah Berikutnya di AWS

Lihat sumber daya terkait produk tambahan
Lihat penawaran gratis untuk layanan Analitik di cloud 
Daftar untuk akun gratis

Dapatkan akses secara instan ke AWS Tingkat Gratis.

Daftar 
Mulai membangun di konsol

Mulai membangun di Konsol Manajemen AWS.

Masuk