Amazon EMR

Jalankan dan Skalakan Apache Spark, Hadoop, HBase, Presto, Hive, dan Kerangka Kerja Big Data lainnya dengan Mudah

Amazon EMR merupakan platform data besar cloud-native terkemuka di industri ini, memungkinkan tim memproses data dalam jumlah besar dengan cepat, dan hemat biaya dalam skala besar. Menggunakan alat sumber terbuka seperti Apache Spark, Apache Hive, Apache HBase, Apache Flink, dan Presto, ditambah dengan skalabilitas dinamis dari Amazon EC2 dan penyimpanan Amazon S3 yang dapat diskalakan, EMR memberikan mesin dan elastisitas kepada tim analitik untuk menjalankan analisis berskala Petabyte untuk sebagian kecil dari biaya klaster di lokasi tradisional. Developer dan analis dapat menggunakan Notebook EMR berbasis Jupyter untuk pengembangan berulang, kolaborasi, dan akses ke data yang disimpan di seluruh produk data AWS seperti Amazon S3, Amazon DynamoDB, dan Amazon Redshift guna mengurangi waktu dalam mendapatkan wawasan dan mengoperasikan analitik dengan cepat.

Pelanggan di banyak vertikal industri menggunakan EMR untuk menangani beragam kasus penggunaan data besar dengan aman dan andal, termasuk machine learning, transformasi data (ETL), simulasi keuangan dan ilmiah, bioinformatika, analisis log, dan deep learning. EMR memberi fleksibilitas kepada tim untuk menjalankan kasus penggunaan pada klaster berumur pendek tujuan tunggal yang secara otomatis diskalakan untuk memenuhi kebutuhan, atau pada klaster yang sudah lama tersedia secara luas dengan menggunakan mode penerapan multimaster baru. 

Pengantar untuk Amazon EMR (3:00)

Keuntungan

Mudah digunakan

EMR meluncurkan klaster dalam hitungan menit. Anda tidak perlu khawatir tentang penyediaan node, penyiapan infrastruktur, konfigurasi Hadoop , atau pengaturan klaster. EMR menangani tugas-tugas tersebut sehingga Anda dapat fokus pada analisis. Analis, teknisi data, dan ilmuwan data dapat meluncurkan notebook Jupyter tanpa server dalam hitungan detik menggunakan EMR Notebooks, yang memungkinkan individu dan tim berkolaborasi dan mengeksplorasi secara interaktif, memproses, serta memvisualisasikan data dalam format notebook yang mudah digunakan.

Rendah biaya

Tarif EMR sederhana dan mudah ditebak: Anda membayar tarif per instans untuk setiap detik pemakaian, dengan minimum pembayaran satu menit. Anda dapat meluncurkan klaster EMR 10 node dengan aplikasi seperti Apache Spark, dan Apache Hive, cukup dengan biaya 0,15 USD per jam. Karena EMR memiliki dukungan native untuk Amazon EC2 Spot dan Instans Cadangan, Anda juga dapat menghemat 50-80% dalam biaya instans yang mendasar.

Elastis

Dengan EMR, Anda dapat menyediakan satu, ratusan, atau ribuan instans komputasi untuk memproses data dalam skala apa pun. Jumlah instans dapat ditingkatkan atau diturunkan secara manual atau otomatis menggunakan Auto Scaling (yang mengelola ukuran klaster berdasarkan pemanfaatan), dan Anda hanya membayar sesuai yang Anda gunakan. Tidak seperti infrastruktur kaku dari klaster setempat, EMR memisahkan komputasi dan penyimpanan persisten, sehingga Anda mampu menskalakannya secara mandiri.

Tepercaya

Habiskan lebih sedikit waktu untuk menyetel dan memonitor klaster. EMR diatur untuk cloud, dan selalu memonitor klaster Anda — mencoba kembali tugas yang gagal dan secara otomatis mengganti instans yang kinerjanya buruk. EMR memberikan rilis perangkat lunak sumber terbuka stabil terbaru, sehingga Anda tidak perlu mengelola pembaruan dan perbaikan bug, mengurangi masalah dan usaha untuk mengelola lingkungan. Dengan beberapa node master, klaster tersedia secara luas dan melakukan pengalihan secara otomatis jika terjadi kegagalan node.

Aman

EMR secara otomatis mengonfigurasi pengaturan firewall EC2 yang mengontrol akses jaringan ke instans, dan meluncurkan klaster dalam Amazon Virtual Private Cloud (VPC), jaringan yang terisolasi secara logika yang Anda tentukan. Untuk objek yang disimpan di S3, enskripsi sisi server atau enskripsi sisi klien dapat digunakan dengan EMRFS (penyimpanan objek untuk Hadoop di S3), menggunakan AWS Key Management Service atau kunci yang dikelola pelanggan. EMR memudahkan pengaktifan opsi enkripsi lainnya, seperti enkripsi dalam transit dan diam, serta autentikasi yang kuat dengan Kerberos.

Fleksibel

Anda memiliki kendali penuh atas klaster Anda. Anda memiliki akses root untuk tiap instans, sehingga Anda dapat dengan mudah menginstal aplikasi tambahan, serta mengkustomisasi tiap klaster dengan tindakan bootstrap. Anda juga dapat meluncurkan klaster EMR dengan Amazon Linux AMI kustom, dan mengonfigurasi ulang klaster saat itu juga tanpa perlu meluncurkan kembali klaster.

Kasus penggunaan

Machine learning

Gunakan alat bantu machine learning bawaan EMR, termasuk Apache Spark MLlib, TensorFlow, dan Apache MXNet untuk algoritme machine learning yang dapat diskalakan, dan gunakan AMI Kustom dan Tindakan Bootstrap untuk dengan mudah menambahkan perpustakaan dan alat pilihan Anda dengan mudah untuk membuat alat analisis prediktif Anda sendiri.

Pelajari bagaimana Intent Media menggunakan Spark MLib »

Extract transform load (ETL)

EMR dapat digunakan untuk melakukan data transformation workloads (ETL) seperti – menyortir, agregat, dan menggabungkan – pada dataset yang besar secara cepat dan hemat.

Pelajari bagaimana Redfin menggunakan klaster EMR sementara untuk ETL »

Analisis clickstream

Lakukan analisis data clickstream dari Amazon S3 menggunakan Apache Spark dan Apache Hive untuk melakukan segmentasi pengguna, memahami preferensi pengguna, dan menampilkan iklan yang lebih efektif.

Pelajari bagaimana Razorfish menggunakan EMR untuk analisis clickstream »

Aliran real-time

Lakukan analisis peristiwa dari Apache Kafka, Amazon Kinesis, atau sumber data streaming lainnya secara real-time dengan Apache Spark Streaming dan EMR untuk membuat pipeline data streaming yang berjalan lama, tersedia secara luas, dan toleran terhadap kesalahan. Mempertahankan set data yang ditransformasi ke Amazon S3 atau HDFS, dan wawasan ke Amazon Elasticsearch.

Pelajari bagaimana Hearst menggunakan Spark Streaming »

Analisis interaktif

EMR Notebooks menyediakan lingkungan analitik terkelola berdasarkan Jupyter sumber terbuka yang memungkinkan ilmuwan data, analis, dan developer untuk menyiapkan dan memvisualisasikan data, berkolaborasi dengan rekan, membangun aplikasi, dan melakukan analisis interaktif.

Genomika

EMR dapat digunakan untuk memproses sejumlah besar data genomika dan data set ilmiah lainnya yang besar dengan cepat dan efisien. Peneliti dapat mengakses data genomika yang dihosting secara gratis pada AWS.

Pelajari tentang Apache Spark dan Precision Medicine »

Penelitian analis

1

Mulai menggunakan AWS

Step 1 - Sign up for an AWS account

Mendaftar akun AWS

Dapatkan akses secara instan ke AWS Tingkat Gratis.
icon2

Pelajari dengan Tutorial 10 menit

Jelajahi dan pelajari dengan tutorial sederhana.
icon3

Mulai membangun dengan AWS

Mulai membangun dengan panduan langkah demi langkah untuk membantu Anda meluncurkan proyek AWS.

Migrasi big data dari lokasi AWS

Baca Panduan Migrasi Amazon EMR Ajukan Permintaan untuk Lokakarya Migrasi Amazon EMR di lokasi

Pelajari selengkapnya tentang big data di AWS

Kunjungi Blog Big Data