Amazon EMR

Jalankan dan Skalakan Apache Spark, Hadoop, HBase, Presto, Hive, dan Kerangka Kerja Big Data lainnya dengan Mudah

Amazon EMR adalah platform big data cloud-native yang terkemuka di industri ini untuk memproses sejumlah besar data dengan cepat dan hemat biaya sesuai skala. Menggunakan alat sumber terbuka seperti Apache Spark, Apache Hive, Apache HBase, Apache Flink, dan Apache Hudi (Incubating), dan Presto, ditambah dengan skalabilitas dinamis Amazon EC2 dan penyimpanan terskala Amazon S3, EMR memberikan mesin dan elastisitas kepada tim analitik untuk menjalankan analisis skala Petabyte seharga lebih murah dari biaya klaster lokal tradisional. EMR memberikan fleksibilitas kepada tim untuk menjalankan kasus penggunaan pada klaster berumur pendek tujuan tunggal yang secara otomatis diskalakan untuk memenuhi kebutuhan, atau pada klaster yang sudah lama sangat tersedia dengan menggunakan mode penerapan multimaster baru. Jika Anda memiliki penerapan alat sumber terbuka lokal seperti Apache Spark dan Apache Hive, Anda juga dapat menjalankan klaster EMR di AWS Outposts, sehingga Anda dapat meningkatkan skala lokal melalui Outposts atau di cloud.

Pengantar Amazon EMR (3:00)

Keuntungan

Mudah digunakan

EMR meluncurkan klaster dalam hitungan menit. Anda tidak perlu khawatir tentang penyediaan node, penyiapan infrastruktur, konfigurasi Hadoop, atau pengaturan klaster. EMR menangani tugas-tugas tersebut sehingga Anda dapat fokus pada analisis. Analis, teknisi data, dan ilmuwan data dapat meluncurkan notebook Jupyter tanpa server dalam hitungan detik menggunakan EMR Notebooks, yang memungkinkan individu dan tim berkolaborasi dan mengeksplorasi secara interaktif, memproses serta memvisualisasikan data dalam format notebook yang mudah digunakan.

Rendah biaya

Tarif EMR sederhana dan mudah diprediksi: Anda membayar tarif per instans untuk setiap detik pemakaian, dengan minimum pembayaran satu menit. Anda dapat meluncurkan klaster EMR 10 node dengan aplikasi seperti Apache Spark, dan Apache Hive, cukup dengan biaya 0,15 USD per jam. Karena EMR memiliki dukungan native untuk Amazon EC2 Spot dan Instans Cadangan, Anda juga dapat menghemat 50-80% dalam biaya instans yang mendasar.

Elastis

Dengan EMR, Anda dapat menyediakan satu, ratusan, atau ribuan instans komputasi untuk memproses data dalam skala apa pun. Jumlah instans dapat ditingkatkan atau diturunkan secara manual atau otomatis menggunakan Auto Scaling (yang mengelola ukuran klaster berdasarkan pemanfaatan), dan Anda hanya membayar sesuai yang Anda gunakan. Tidak seperti infrastruktur klaster di lokasi yang kaku, EMR memisahkan penyimpanan komputasi dan persisten, memberi Anda kemampuan untuk menskalakan masing-masing secara mandiri.

Tepercaya

Hemat waktu untuk menyetel dan memonitor klaster. EMR telah diatur untuk cloud; juga memonitor klaster Anda secara konstan – mencoba kembali tugas yang gagal dan secara otomatis mengganti instans berkinerja buruk. EMR memberikan rilis perangkat lunak sumber terbuka stabil terbaru, sehingga Anda tidak perlu mengelola pembaruan dan perbaikan bug, mengurangi masalah dan usaha untuk mengelola lingkungan. Dengan beberapa node master, klaster tersedia dengan sangat baik dan secara otomatis failover jika terjadi kegagalan node.

Aman

EMR secara otomatis mengonfigurasi pengaturan firewall EC2 yang mengontrol akses jaringan ke instans, dan meluncurkan klaster dalam Amazon Virtual Private Cloud (VPC), jaringan yang Anda tentukan dan terisolasi secara logika. Untuk objek yang disimpan di S3, enskripsi sisi server atau enskripsi sisi klien dapat digunakan dengan EMRFS (penyimpanan objek untuk Hadoop di S3), menggunakan AWS Key Management Service atau kunci yang dikelola pelanggan. EMR memudahkan pengaktifan opsi enkripsi lainnya, seperti enkripsi dalam transit dan diam, serta autentikasi yang kuat dengan Kerberos.

Fleksibel

Anda memiliki kendali penuh atas klaster Anda. Anda memiliki akses akar untuk tiap instans, Anda dapat dengan mudah menginstal aplikasi tambahan, dan dapat mengustomisasi setiap klaster dengan tindakan bootstrap. Anda juga dapat meluncurkan klaster EMR dengan AMI Amazon Linux kustom, dan mengonfigurasi ulang klaster saat itu juga tanpa perlu meluncurkan kembali klaster.

Kasus penggunaan

Machine learning

Gunakan alat machine learning bawaan EMR, termasuk Apache Spark MLlib, TensorFlow, dan Apache MXNet untuk algoritme machine learning yang dapat diskalakan, serta gunakan AMI Kustom dan Tindakan Bootstrap untuk menambahkan pustaka dan alat pilihan Anda dengan mudah guna membuat alat analitik prediktif Anda sendiri.

Pelajari bagaimana Intent Media menggunakan Spark MLib »

Extract transform load (ETL)

EMR dapat digunakan untuk melakukan data transformation workloads (ETL) seperti – menyortir, agregat, dan menggabungkan – pada dataset yang besar secara cepat dan hemat.

Pelajari bagaimana Redfin menggunakan klaster EMR sementara untuk ETL »

Analisis aliran klik

Lakukan analisis data aliran klik dari Amazon S3 menggunakan Apache Spark dan Apache Hive untuk melakukan segmentasi pengguna, memahami preferensi pengguna, dan menampilkan iklan yang lebih efektif.

Pelajari bagaimana Razorfish menggunakan EMR untuk analisis aliran klik »

Aliran real-time

Lakukan analisis peristiwa dari Apache Kafka, Amazon Kinesis, atau sumber data streaming lainnya secara real-time dengan Apache Spark Streaming dan EMR untuk membuat jaringan pipa data streaming yang berjalan lama, tersedia dengan sangat baik, dan toleran terhadap kesalahan. Tetap mentransformasikan data set ke Amazon S3 atau HDFS, dan wawasan ke Amazon Elasticsearch.

Pelajari bagaimana Hearst menggunakan Spark Streaming »

Analitik interaktif

EMR Notebooks menyediakan lingkungan analitik terkelola berdasarkan Jupyter sumber terbuka yang memungkinkan ilmuwan data, analis, dan pengembang menyiapkan serta memvisualisasikan data, berkolaborasi dengan rekan, membangun aplikasi, dan melakukan analisis interaktif.

Genomika

EMR dapat digunakan untuk memproses sejumlah besar data genomika dan data set ilmiah lainnya yang besar dengan cepat dan efisien. Peneliti dapat mengakses data genomika yang dihosting secara gratis pada AWS.

Pelajari tentang Apache Spark dan Precision Medicine »

Penelitian analis

1

Mulai menggunakan AWS

Step 1 - Sign up for an AWS account

Mendaftar akun AWS

Dapatkan akses secara instan ke AWS Tingkat Gratis.
icon2

Pelajari dengan Tutorial 10 menit

Jelajahi dan pelajari dengan tutorial sederhana.
icon3

Mulai membangun dengan AWS

Mulai membangun dengan panduan langkah demi langkah untuk membantu Anda meluncurkan proyek AWS.

Migrasi big data dari lokal ke AWS

Baca Panduan Migrasi Amazon EMR Ajukan Permintaan untuk Lokakarya Migrasi Amazon EMR di lokasi

Pelajari selengkapnya tentang big data di AWS

Kunjungi Blog Big Data