Apache Spark adalah sistem pemrosesan terdistribusi sumber terbuka, yang pada umumnya digunakan untuk beban kerja big data. Apache Spark memanfaatkan caching dalam memori dan eksekusi yang dioptimalisasi untuk kinerja cepat, dan sistem ini mendukung pemrosesan batch umum, analisis streaming, machine learning, database grafik, dan kueri ad hoc. Pelajari selengkapnya tentang Apache Spark di sini.

Apache Spark secara alami didukung di Amazon EMR, dan Anda dapat dengan cepat dan mudah membuat klaster Apache Spark yang terkelola dari AWS Management Console, AWS CLI, atau API Amazon EMR. Selain itu, Anda dapat meningkatkan fitur Amazon EMR tambahan, yang mencakup konektivitas Amazon S3 cepat menggunakan Amazon EMR File System (EMRFS), integrasi dengan pasar Spot Amazon EC2 dan Katalog Data AWS Glue, dan Auto Scaling untuk menambah atau menghapus instans dari klaster Anda. Anda juga dapat menggunakan Apache Zeppelin untuk membuat buku catatan interaktif dan kolaboratif untuk penjelajahan data menggunakan Apache Spark, dan menggunakan kerangka kerja deep learning semacam Apache MXNet dengan aplikasi Spark.

Fitur dan keuntungan

Kinerja cepat

Dengan menggunakan mesin eksekusi grafik asiklik yang diarahkan (DAG), Apache Spark dapat membuat rencana kueri yang efisien untuk transformasi data. Apache Spark juga menyimpan input, output, dan data perantara dalam memori sebagai dataset terdistribusi yang elastis (RDD), yang memungkinkan pemrosesan cepat tanpa biaya I/O, percepatan kinerja iteratif, atau beban kerja interaktif.

Mengembangkan aplikasi dengan cepat

Apache Spark mendukung Java, Scala, dan Python, yang memberikan Anda berbagai bahasa untuk membangun aplikasi. Selain itu, Anda dapat mengirimkan kueri SQL atau HiveQL ke Apache Spark menggunakan modul SQL Spark. Selain untuk menjalankan aplikasi, Anda dapat menggunakan API Apache Spark secara interaktif dengan Phyton atau Scala secara langsung di shell Apache Spark pada klaster Anda. Anda juga dapat meningkatkan Zeppelin untuk membuat buku catatan interaktif dan kolaboratif untuk penjelajahan dan visualisasi data. Selain itu, Anda dapat menyetel dan melakukan debug terhadap beban kerja Anda menggunakan riwayat aplikasi Spark di konsol Amazon EMR atau UI Spark asli dan server riwayat pada klaster Anda.

Buat alur kerja yang beragam

Apache Spark mencakup beberapa pustaka yang membantu pembuatan aplikasi untuk machine learning (MLlib), pemrosesan stream (Spark Streaming), dan pemrosesan grafik (GraphX). Pustaka ini sangat terintegrasi dalam ekosistem Apache Spark, dan dapat ditingkatkan sangat jauh untuk merujuk berbagai kasus penggunaan. Selain itu, Anda dapat menggunakan kerangka kerja deep learning seperti Apache MXNet dengan aplikasi Spark.

Integrasi dengan serangkaian fitur Amazon EMR

Kirimkan tugas Apache Spark dengan Step API Amazon EMR, gunakan Apache Spark dengan EMRFS untuk secara langsung mengakses data dalam Amazon S3, hemat biaya menggunakan kapasitas Spot Amazon EC2, gunakan Auto Scaling untuk menambah dan menghapus kapasitas secara dinamis, dan luncurkan klaster yang sudah lama berjalan atau yang baru berjalan sebentar untuk disesuaikan dengan beban kerja Anda. Anda juga dapat dengan mudah mengonfigurasi enkripsi Spark dan autentikasi dengan Kerberos menggunakan konfigurasi keamanan Amazon EMR. Selain itu, Anda dapat menggunakan Katalog Data AWS Glue untuk menyimpan metadata tabel SQL Spark, atau menggunakan Amazon SageMaker dengan alur machine learning Spark. Amazon EMR menginstal dan mengelola Apache Spark pada Hadoop YARN, dan Anda juga dapat menambah aplikasi ekosistem Hadoop lain pada klaster. Klik di sini untuk detail selengkapnya mengenai fitur Amazon EMR.

Kasus penggunaan

Pemrosesan aliran

Konsumsi dan proses data real-time dari Amazon Kinesis, Apache Kafka, atau aliran data lainnya dengan Spark Streaming pada Amazon EMR. Lakukan analisis streaming dengan cara yang yang toleran kesalahan dan tulis hasilnya ke Amazon S3 atau HDFS di klaster.

Machine learning

Apache Spark pada Amazon EMR mencakup MLlib untuk berbagai algoritme machine learning yang dapat diskalakan, atau Anda dapat menggunakan pustaka Anda sendiri. Dengan menyimpan himpunan data dalam memori saat mengerjakan tugas, Spark memiliki kinerja yang kuat untuk kueri iteratif yang umum di beban kerja machine learning.

SQL interaktif

Gunakan Spark SQL untuk latensi rendah, kueri interaktif dengan SQL atau HiveQL. Apache Spark di Amazon EMR dapat mendongkrak EMRFS, sehingga Anda dapat memiliki akses ad hoc ke himpunan data Anda di Amazon S3. Serta, Anda dapat memanfaatkan catatan Zeppelin atau alat BI melalui koneksi ODBC dan JDBC.

Kesuksesan pelanggan

Yelp

Tim penargetan iklan Yelp membuat model prediksi untuk menentukan kemungkinan interaksi pengguna dengan suatu iklan. Dengan menggunakan Apache Spark di Amazon EMR untuk memproses sejumlah besar data untuk melatih model machine learning, Yelp telah meningkatkan pendapatan dan tingkat pengiklanan melalui klik.

The Washington Post

The Washington Post menggunakan Apache Spark di Amazon EMR untuk membangun model yang mendukung mesin rekomendasi situs webnya untuk meningkatkan keterlibatan dan kepuasan pembaca. Mereka mendongkrak konektivitas kinerja Amazon EMR dengan Amazon S3 untuk memutakhirkan model hampir secara real-time.

Intent Media

Intent Media mengoperasikan platform untuk periklanan di situs niaga perjalanan. Tim data mereka menggunakan Apache Spark dan MLlib di Amazon EMR untuk menyerap data e-commerce dalam jumlah terabyte secara harian dan menggunakan informasi ini untuk mendukung layanan pengambilan keputusan mereka untuk mengoptimalkan pendapatan pelanggan. Klik di sini untuk mempelajari selengkapnya.

200x100_Krux-Digital_Logo

Krux

Sebagai bagian dari Data Management Platform untuk wawasan pelanggan, Krux menjalankan banyak machine learning dan beban kerja pemrosesan umum menggunakan Apache Spark. Krux memanfaatkan klaster Amazon EMR yang baru berjalan sebentar dengan Kapasitas Spot Amazon EC2 untuk menghemat biaya, dan menggunakan Amazon S3 dengan EMRFS sebagai lapisan data untuk Apache Spark.

Baca selengkapnya »

200x100_GumGum_Logo

GumGum

GumGum, suatu platform pengiklanan pada gambar dan pada layar, menggunakan Spark di Amazon EMR untuk memprediksi inventaris, memproses log aliran klik, dan analisis ad hoc terhadap data tak terstruktur di Amazon S3. Peningkatan kinerja Spark menghemat waktu dan biaya GumGum untuk alur kerja ini.

Baca selengkapnya »

200x100-hearst

Hearst Corporation

Hearst Corporation, suatu perusahaan media dan informasi beragam yang besar, memiliki pelanggan yang melihat konten pada lebih dari 200 properti web. Dengan menggunakan Apache Spark Streaming di Amazon EMR, karyawan editorial Hearst dapat mempertahankan laju real-time yang berarti artikel mereka bekerja dengan baik dan tema mereka populer.

Baca selengkapnya »

200x100_CrowdStrike_Logo

CrowdStrike

CrowdStrike menyediakan proteksi titik akhir untuk menghentikan pelanggaran. Mereka menggunakan Amazon EMR dengan Spark untuk memproses ratusan terabyte data peristiwa dan meningkatkannya menjadi deskripsi perilaku tingkat yang lebih tinggi pada host. Dari data tersebut, CrowdStrike dapat menarik data peristiwa sekaligus dan mengidentifikasi adanya aktivitas berbahaya.

Baca selengkapnya »

Pelajari selengkapnya tentang harga Amazon EMR

Kunjungi halaman harga
Siap membuat?
Memulai dengan Amazon EMR
Ada pertanyaan lagi?
Hubungi kami