Amazon EMR

Jalankan dan skalakan Apache Spark, Hive, Presto, dan kerangka kerja big data lainnya dengan mudah

Amazon EMR merupakan platform big data cloud terkemuka di industri untuk memproses sejumlah besar data menggunakan alat sumber terbuka seperti Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi, dan Presto. Amazon EMR mempermudah penyiapan, pengoperasian, dan penskalaan lingkungan big data Anda dengan mengotomatiskan tugas yang memakan waktu seperti menyediakan kapasitas dan menyetel kluster. Dengan EMR, Anda dapat menjalankan analisis berskala petabyte kurang dari separuh biaya solusi on-premise tradisional dan lebih dari 3x lebih cepat dibandingkan Apache Spark standar. Anda dapat menjalankan beban kerja di Amazon EC2 instance, di kluster Amazon Elastic Kubernetes Service (EKS), atau on-premise menggunakan EMR di AWS Outposts.

Cari tahu cara Apache Hudi menyederhanakan pipeline untuk change data capture (CDC) dan regulasi privasi

Pengantar Amazon EMR (3:00)

Keuntungan

Mudah digunakan

Anda dapat menggunakan EMR Studio, sebuah integrated development environment (lingkungan pengembangan terintegrasi/IDE), untuk dengan mudah mengembangkan, memvisualisasikan, dan men-debug rekayasa data dan aplikasi ilmu data yang ditulis di R, Python, Scala, dan PySpark. EMR Studio menggunakan AWS Single Sign-On dan memberi Anda kesempatan login langsung dengan kredensial perusahaan Anda. Lingkungan ini memberikan Jupyter Notebooks yang dikelola sepenuhnya dan kolaborasi dengan peer (rekan) menggunakan repositori kode, seperti GitHub dan BitBucket.

Hemat biaya

Tarif EMR sederhana dan mudah diprediksi: Anda membayar tarif per instans untuk setiap detik pemakaian, dengan minimum pembayaran satu menit. Anda dapat meluncurkan kluster EMR 10-node hanya dengan 0,15 USD per jam. Anda dapat menghemat biaya instans 50-80% dengan memilih Amazon EC2 Spot untuk beban kerja sementara dan Instans Cadangan untuk beban kerja jangka panjang. Anda juga dapat menggunakan Savings Plans.

Elastis

Tidak seperti infrastruktur kluster on-premise yang kaku, EMR memisahkan komputasi dan penyimpanan, memberi Anda kemampuan untuk menskalakan masing-masing secara terpisah dan memanfaatkan penyimpanan bertingkat dari Amazon S3. Dengan EMR, Anda dapat menyediakan satu, ratusan, atau ribuan instans komputasi atau kontainer untuk memproses data dalam skala apa pun. Jumlah instans dapat ditingkatkan atau diturunkan secara otomatis menggunakan Auto Scaling (yang mengelola ukuran kluster berdasarkan pemanfaatan), dan Anda hanya membayar sesuai yang Anda gunakan.

Tepercaya

Hemat waktu untuk menyetel dan memonitor klaster. EMR disetel untuk cloud serta memonitor kluster Anda secara konstan — mencoba kembali tugas yang gagal dan secara otomatis mengganti instans berperforma buruk. Kluster tersedia dengan sangat baik dan secara otomatis failover jika terjadi kegagalan node. EMR menyediakan rilis perangkat lunak sumber terbuka stabil terbaru, agar Anda tidak perlu mengelola pembaruan dan perbaikan bug, sehingga mengurangi masalah dan upaya untuk mengelola lingkungan.

Aman

EMR secara otomatis mengonfigurasi pengaturan firewall EC2 yang mengontrol akses jaringan ke instans, dan meluncurkan kluster dalam Amazon Virtual Private Cloud (VPC). Enskripsi sisi server atau enskripsi sisi klien dapat digunakan dengan AWS Key Management Service atau kunci yang dikelola pelanggan Anda. EMR memudahkan pengaktifan opsi enkripsi lainnya, seperti enkripsi dalam transit dan diam, serta autentikasi yang kuat dengan Kerberos. Anda dapat menggunakan AWS Lake Formation atau Apache Ranger untuk menerapkan kontrol akses data super cermat untuk database, tabel, dan kolom.

Fleksibel

Anda memiliki kontrol penuh atas kluster EMR dan tugas EMR individu. Anda dapat meluncurkan kluster EMR dengan AMI Amazon Linux kustom dan dengan mudah mengonfigurasi kluster menggunakan skrip untuk menginstal paket perangkat lunak pihak ketiga tambahan. EMR memungkinkan Anda mengonfigurasi ulang aplikasi pada kluster yang sedang berjalan secara langsung tanpa perlu meluncurkan ulang kluster. Selain itu, Anda dapat menyesuaikan lingkungan eksekusi untuk tugas individu dengan menentukan library dan dependensi runtime di kontainer Docker dan mengirimkannya bersama dengan tugas Anda.

Opsi Deployment

Amazon EMR di Amazon EC2

Anda dapat men-deploy EMR di Amazon EC2 dan memanfaatkan Instans Sesuai Permintaan, Cadangan, dan Spot. EMR mengelola penyediaan, manajemen, dan penskalaan EC2 instance. AWS menawarkan lebih banyak opsi instans dibandingkan penyedia cloud lainnya, yang memungkinkan Anda memilih instans yang memberi Anda performa atau biaya terbaik untuk beban kerja Anda.

Pelajari selengkapnya »

Amazon EMR on Amazon EKS

Anda dapat menggunakan EMR untuk menjalankan tugas Apache Spark sesuai permintaan di Amazon Elastic Kubernetes Service (EKS), tanpa perlu menyediakan kluster EMR, untuk meningkatkan pemanfaatan sumber daya dan menyederhanakan manajemen infrastruktur. Amazon EKS memberi Anda fleksibilitas untuk memulai, menjalankan, dan menskalakan aplikasi Kubernetes di AWS cloud atau on-premise. Dengan Amazon EMR on EKS, Anda dapat berbagi sumber daya komputasi dan memori di seluruh aplikasi serta menggunakan satu set alat Kubernetes untuk memantau dan mengelola infrastruktur Anda secara terpusat.

Pelajari selengkapnya »

Amazon EMR di AWS Outposts

Amazon EMR tersedia di AWS Outposts, yang memungkinkan Anda menyiapkan, men-deploy, mengelola, dan menskalakan EMR di lingkungan on-premise Anda, sama seperti yang Anda inginkan di cloud. AWS Outposts menghadirkan layanan, infrastruktur, dan model operasi AWS ke pusat data, ruang lokasi bersama, atau fasilitas on-premise secara virtual.

Pelajari selengkapnya »

Kasus penggunaan

Machine learning

Gunakan alat machine learning bawaan EMR, termasuk Apache Spark MLlib, TensorFlow, dan Apache MXNet untuk algoritma machine learning yang dapat diskalakan, serta gunakan AMI kustom dan tindakan bootstrap untuk menambahkan library dan alat pilihan Anda dengan mudah untuk membuat alat analitik prediktif Anda sendiri.

Extract, transform, load (ETL)

EMR dapat digunakan untuk menjalankan beban kerja transformasi data (ETL) seperti menyortir, agregat, dan menggabungkan pada set data yang besar dengan cepat dan hemat.

Pelajari bagaimana Redfin menggunakan klaster EMR sementara untuk ETL »

Analisis aliran klik

Lakukan analisis data aliran klik dari Amazon S3 menggunakan Apache Spark dan Apache Hive untuk melakukan segmentasi pengguna, memahami preferensi pengguna, dan menampilkan iklan yang lebih efektif.

Aliran real-time

Lakukan analisis peristiwa dari Apache Kafka, Amazon Kinesis, atau sumber data streaming lainnya secara real-time dengan Apache Spark Streaming dan Apache Flink untuk membuat jaringan pipa data streaming yang berjalan lama, tersedia dengan sangat baik, dan toleran terhadap kesalahan pada EMR. Tetap mentransformasikan data set ke S3 atau HDFS, dan wawasan ke Amazon Elasticsearch Service.

Pelajari bagaimana Hearst menggunakan Spark Streaming »

Analitik interaktif

EMR Notebooks menyediakan lingkungan analitik terkelola berdasarkan Jupyter sumber terbuka yang memungkinkan ilmuwan data, analis, dan pengembang menyiapkan serta memvisualisasikan data, berkolaborasi dengan rekan, membangun aplikasi, dan melakukan analisis interaktif.

Genomika

EMR dapat digunakan untuk memproses sejumlah besar data genomika dan data set ilmiah lainnya yang besar dengan cepat dan efisien. Peneliti dapat mengakses data genomika yang dihosting secara gratis pada AWS.

Pelajari tentang Apache Spark dan Precision Medicine »

Penelitian analis

Selengkapnya…

Apa yang Baru

tanggal
  • tanggal
1

Mulai menggunakan AWS

Baca panduan migrasi EMR
Baca panduan migrasi

Pelajari cara memigrasi big data dari lokal ke AWS.

Pelajari selengkapnya 
Daftar untuk akun AWS gratis
Daftar untuk akun gratis

Dapatkan akses secara instan ke AWS Tingkat Gratis. 

Daftar 
Mulai membangun dengan EMR di konsol
Mulai membangun di konsol

Mulai membangun dengan Amazon EMR di Konsol AWS.

Masuk 

Migrasi big data dari lokal ke AWS

Sumber daya untuk membantu merencanakan migrasi Anda

Pelajari selengkapnya tentang big data dan analitik di AWS

Baca Blog AWS Big Data