Amazon EMR

Jalankan dan skalakan Apache Spark, Hive, Presto, dan kerangka kerja big data lainnya dengan mudah

Amazon EMR merupakan platform big data cloud terkemuka di industri untuk memproses sejumlah besar data menggunakan alat-alat sumber terbuka seperti Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi, dan Presto. Dengan EMR Anda dapat menjalankan analisis hingga skala Petabyte dengan kurang dari separuh biaya solusi lokal tradisional dan lebih dari 3x lebih cepat dibandingkan Apache Spark standar. Untuk tugas waktu pendek, Anda dapat melakukan spin up atau spin down klaster dan bayar per detik untuk instans yang digunakan. Untuk beban kerja waktu panjang, Anda dapat membuat kluster yang sangat tersedia yang menyesuaikan skala secara otomatis untuk memenuhi permintaan. Jika Anda memiliki penerapan alat sumber terbuka lokal seperti Apache Spark dan Apache Hive, Anda juga dapat menjalankan klaster EMR di AWS Outposts.

Pelajari cara mengurangi biaya dan menyederhanakan operasi dengan memindahkan beban kerja lokal ke EMR

Cari tahu cara Apache Hudi menyederhanakan pipeline untuk change data capture (CDC) dan regulasi privasi

Pengantar Amazon EMR (3:00)

Keuntungan

Mudah digunakan

Analis, teknisi data, dan ilmuwan data dapat menggunakan EMR Notebook, yang memungkinkan individu dan tim berkolaborasi dan mengeksplorasi secara interaktif, memproses serta memvisualisasikan data dengan mudah. Anda dapat menentukan versi aplikasi EMR dan jenis komputasi yang ingin Anda gunakan. EMR melakukan penyediaan, konfigurasi, dan penyetelan klaster sehingga Anda dapat fokus pada menjalankan analitik.

Hemat biaya

Tarif EMR sederhana dan mudah diprediksi: Anda membayar tarif per instans untuk setiap detik pemakaian, dengan minimum pembayaran satu menit. Anda dapat meluncurkan klaster EMR 10-node hanya dengan 0,15 USD per jam. Anda juga dapat menghemat biaya instans 50-80% dengan memilih Amazon EC2 Spot untuk beban kerja sementara dan Instans Terpesan untuk beban kerja waktu panjang. Anda juga dapat menggunakan Savings Plans.

Elastis

Tidak seperti infrastruktur klaster di lokasi yang kaku, EMR memisahkan penyimpanan dan komputasi, memberi Anda kemampuan untuk menskalakan masing-masing secara mandiri dan memanfaatkan penyimpanan bertingkat dari Amazon S3. Dengan EMR, Anda dapat menyediakan satu, ratusan, atau ribuan instans komputasi untuk memproses data dalam skala apa pun. Jumlah instans dapat ditingkatkan atau diturunkan secara otomatis menggunakan Auto Scaling (yang mengelola ukuran klaster berdasarkan pemanfaatan), dan Anda hanya membayar sesuai yang Anda gunakan.

Tepercaya

Hemat waktu untuk menyetel dan memonitor klaster. EMR telah diatur untuk cloud serta memonitor klaster Anda secara konstan — mencoba kembali tugas yang gagal dan secara otomatis mengganti instans berkinerja buruk. Dengan beberapa node master, klaster tersedia dengan sangat baik dan secara otomatis failover jika terjadi kegagalan node. EMR memberikan rilis perangkat lunak sumber terbuka stabil terbaru, sehingga Anda tidak perlu mengelola pembaruan dan perbaikan bug, mengurangi masalah dan usaha untuk mengelola lingkungan.

Aman

EMR secara otomatis mengonfigurasi pengaturan firewall EC2 yang mengontrol akses jaringan ke instans, dan meluncurkan klaster dalam Amazon Virtual Private Cloud (VPC). enskripsi sisi server atau enskripsi sisi klien dapat digunakan dengan AWS Key Management Service atau kunci yang dikelola pelanggan. EMR memudahkan pengaktifan opsi enkripsi lainnya, seperti enkripsi dalam transit dan diam, serta autentikasi yang kuat dengan Kerberos. Anda dapat menggunakan AWS Lake Formation atau Apache Ranger untuk menerapkan kontrol akses data super cermat untuk database, tabel, dan kolom.

Fleksibel

Anda memiliki kontrol penuh terhadap klaster Anda dengan akses root ke setiap instans. Anda dapat meluncurkan klaster EMR dengan AMI Amazon Linux kustom dan mudah menginstal aplikasi tambahan dengan tindakan bootstrap. EMR memungkinkan Anda mengonfigurasi ulang aplikasi pada klaster yang sedang berjalan langsung tanpa perlu meluncurkan ulang klaster. Selain itu, menggunakan Hadoop 3.0, Anda dapat mengemas dependensi pustaka ke container Docker dan mengirimkannya dengan tugas Anda untuk menyederhanakan dependensi lingkungan.

Kasus penggunaan

Machine learning

Gunakan alat machine learning bawaan EMR, termasuk Apache Spark MLlib, TensorFlow, dan Apache MXNet untuk algoritme pembelajaran mesin yang dapat diskalakan, serta gunakan AMI kustom dan tindakan bootstrap untuk menambahkan pustaka dan alat pilihan Anda dengan mudah guna membuat alat analitik prediktif Anda sendiri.

Extract transform load (ETL)

EMR dapat digunakan untuk melakukan data transformation workloads (ETL) seperti menyortir, agregat, dan menggabungkan pada dataset yang besar secara cepat dan hemat.

Pelajari bagaimana Redfin menggunakan klaster EMR sementara untuk ETL »

Analisis aliran klik

Lakukan analisis data aliran klik dari Amazon S3 menggunakan Apache Spark dan Apache Hive untuk melakukan segmentasi pengguna, memahami preferensi pengguna, dan menampilkan iklan yang lebih efektif.

Aliran real-time

Lakukan analisis peristiwa dari Apache Kafka, Amazon Kinesis, atau sumber data streaming lainnya secara real-time dengan Apache Spark Streaming dan Apache Flink untuk membuat jaringan pipa data streaming yang berjalan lama, tersedia dengan sangat baik, dan toleran terhadap kesalahan pada EMR. Tetap mentransformasikan data set ke S3 atau HDFS, dan wawasan ke Amazon Elasticsearch Service.

Pelajari bagaimana Hearst menggunakan Spark Streaming »

Analitik interaktif

EMR Notebooks menyediakan lingkungan analitik terkelola berdasarkan Jupyter sumber terbuka yang memungkinkan ilmuwan data, analis, dan pengembang menyiapkan serta memvisualisasikan data, berkolaborasi dengan rekan, membangun aplikasi, dan melakukan analisis interaktif.

Genomika

EMR dapat digunakan untuk memproses sejumlah besar data genomika dan data set ilmiah lainnya yang besar dengan cepat dan efisien. Peneliti dapat mengakses data genomika yang dihosting secara gratis pada AWS.

Pelajari tentang Apache Spark dan Precision Medicine »

Penelitian analis

Selengkapnya…

Apa yang Baru

tanggal
  • tanggal
1

Mulai menggunakan AWS

Baca panduan migrasi EMR
Baca panduan migrasi

Pelajari cara memigrasi big data dari lokal ke AWS.

Pelajari selengkapnya 
Daftar untuk akun AWS gratis
Daftar untuk akun gratis

Dapatkan akses cepat ke AWS Tingkat Gratis. 

Daftar 
Mulai membangun dengan EMR di konsol
Mulai membangun di konsol

Mulai membangun dengan Amazon EMR di Konsol AWS.

Masuk 

Migrasi big data dari lokal ke AWS

Sumber daya untuk membantu merencanakan migrasi Anda

Pelajari selengkapnya tentang big data dan analitik di AWS

Baca Blog AWS Big Data