Integrasi Amazon Redshift untuk Apache Spark

Bangun aplikasi Apache Spark yang akan membaca dan menulis data dari Amazon Redshift

Mengapa Integrasi Amazon Redshift untuk Apache Spark?

Integrasi Amazon Redshift untuk Apache Spark menyederhanakan dan mempercepat aplikasi Apache Spark yang mengakses data Amazon Redshift dari layanan analitik AWS, seperti Amazon EMR, AWS Glue, dan Amazon SageMaker. Dengan Amazon EMR, AWS Glue, dan SageMaker, Anda dapat dengan cepat membangun aplikasi Apache Spark yang akan membaca dan menulis ke gudang data Amazon Redshift, tanpa mengorbankan konsistensi performa atau transaksional. Integrasi Amazon Redshift untuk Apache Spark juga menggunakan kredensial berbasis AWS Identity and Access Management (IAM) untuk meningkatkan keamanan. Dengan Integrasi Amazon Redshift untuk Apache Spark, tidak akan ada penyiapan dan pemeliharaan manual dari versi konektor pihak ketiga yang tidak bersertifikasi. Anda dapat memulai tugas Apache Spark menggunakan data di Amazon Redshift dalam hitungan detik. Integrasi baru ini meningkatkan performa aplikasi Apache Spark menggunakan data Amazon Redshift.

Keuntungan Amazon Redshift

Perluas cakupan sumber data yang Anda gunakan di analitik yang kaya dan aplikasi machine learning (ML) yang berjalan di Amazon EMR, AWS Glue, atau SageMaker dengan membaca dari dan menulis data ke gudang data Anda.
Sederhanakan proses penyiapan konektor yang tidak bersertifikasi dan driver JDBC yang rumit dan seringkali dilakukan secara manual untuk mengurangi waktu persiapan analitik dan tugas ML.
Gunakan kemampuan pushdown, seperti fungsi urutkan, agregat, batasi, gabungkan, dan scalar untuk hanya memindahkan data yang relevan dari gudang data Amazon Redshift.

Cara kerjanya

Gunakan layanan AWS untuk membangun aplikasi Apache Spark yang akan membaca dan menulis ke gudang data Amazon Redshift Anda.
Diagram yang menunjukkan cara menggunakan layanan AWS untuk membangun aplikasi Apache Spark yang membaca dan menulis ke gudang data Amazon Redshift.

Kasus penggunaan

Buat aplikasi Apache Spark di Java, Scala, dan Python menggunakan layanan analitik AWS berbasis Apache Spark.
Baca dan tulis data ke serta dari Amazon Redshift menggunakan Amazon EMR, AWS Glue, SageMaker, dan analitik AWS serta layanan ML.
Gunakan Amazon EMR atau AWS Glue untuk mengambil kode kerangka data dari tugas Apache Spark atau notebook dan hubungkan ke Amazon Redshift.
Sederhanakan proses Anda tanpa instalasi dan pengujian, tingkatkan pushdown keamanan (kredensial berbasis IAM) dan operasional, serta format file Parquet untuk performa.

Pelanggan

Huron

Huron adalah sebuah perusahaan layanan profesional global yang berkolaborasi dengan klien untuk mewujudkan kesempatan dengan menciptakan strategi yang tepat, mengoptimalkan operasi, mempercepat transformasi digital, dan memberdayakan bisnis serta karyawan mereka agar memiliki masa depan.

"Kami memberdayakan teknisi kami untuk membangun pipeline data dan aplikasi mereka dengan Apache Spark menggunakan Python dan Scala. Kami menginginkan solusi yang dapat disesuaikan yang menyederhanakan operasi dan memberikan klien kami dengan cepat dan efisien, dan itulah yang kami dapatkan saat menggunakan Integrasi Amazon Redshift untuk Apache Spark."

Corey Johnson, Manajer Arsitek Data (Data Architect Manager) - Huron Consulting

GE Aerospace

GE Aerospace adalah penyedia mesin jet, komponen, dan sistem untuk pesawat terbang komersial dan militer. Perusahaan ini telah merancang, mengembangkan, dan memproduksi mesin jet sejak Perang Dunia I.

“GE Aerospace menggunakan analitik AWS dan Amazon Redshift untuk memungkinkan wawasan bisnis utama yang mendukung keputusan bisnis penting. Dengan dukungan salin otomatis dari Amazon S3, kami dapat membangun pipeline data yang lebih sederhana untuk memindahkan data dari Amazon S3 ke Amazon Redshift. Hal ini mempercepat kemampuan tim produk data untuk mengakses data dan memberikan wawasan ke pengguna akhir. Kami menghabiskan lebih banyak waktu untuk menambahkan nilai melalui data dan sedikit waktu pada integrasi.”

Alcuin Weidus, Arsitek Data Utama Sr (Sr Principal Data Architect) - GE Aerospace

Goldman Sachs

Goldman Sachs Group, Inc.adalah institusi keuangan global terkemuka yang menghadirkan berbagai layanan keuangan di bidang perbankan investasi, sekuritas, manajemen investasi, dan perbankan konsumen untuk basis klien yang besar dan beragam, termasuk perusahaan, institusi keuangan, pemerintah, dan individu. 

"Fokus kami adalah memberikan akses layanan mandiri ke data untuk semua pengguna di Goldman Sachs. Melalui Legend, platform manajemen dan tata kelola data sumber terbuka, kami memungkinkan pengguna untuk mengembangkan aplikasi pusat data dan memperoleh wawasan yang didukung data saat kami berkolaborasi di seluruh industri layanan keuangan. Dengan integrasi Amazon Redshift untuk Apache Spark, tim platform data kami dapat mengakses data dengan langkah manual minimum—memungkinkan ETL kode nol yang akan meningkatkan kemampuan kami untuk memudahkan teknisi fokus menyempurnakan alur kerja mereka saat mengumpulkan informasi yang lengkap dan tepat waktu. Kami berharap dapat menyaksikan peningkatan performa aplikasi dan keamanan karena pengguna kami kini dapat mengakses data terbaru di Amazon Redshift dengan mudah.”

Neema Raphael, Chief Data Officer - Goldman Sachs