a11y-skip-to-main-content

Pustaka Solusi AWS

Panduan untuk ETL berbasis SQL dengan Apache Spark di Amazon EKS

Buka alur kerja data yang efisien dan wawasan yang lebih cepat dengan solusi extract, transform, and load (ETL) tingkat korporasi yang dapat diskalakan

Gambaran Umum

Panduan ini membantu menjembatani kesenjangan antara kebutuhan konsumsi data dan aktivitas pemrosesan data tingkat rendah yang dilakukan melalui praktik ETL umum. Bagi organisasi yang beroperasi pada sistem manajemen data berbasis SQL, adaptasi terhadap praktik rekayasa data modern dapat memperlambat upaya dalam memanfaatkan wawasan yang bernilai dari data mereka. Panduan ini memberikan desain yang mengutamakan kualitas untuk meningkatkan produktivitas proses data melalui kerangka kerja data sumber terbuka Arc untuk pendekatan ETL yang berpusat pada pengguna. Panduan ini mempercepat interaksi dengan praktik ETL, mendorong kesederhanaan dan meningkatkan tingkat abstraksi untuk menyatukan aktivitas, ETL baik dalam batch maupun streaming.

Kami juga menawarkan opsi untuk desain optimal menggunakan instans komputasi yang efisien (seperti Prosesor Graviton AWS) yang memungkinkan Anda mengoptimalkan kinerja dan biaya dalam menjalankan pekerjaan ETL pada skala besar di Amazon EKS.

Cara kerjanya

Diagram arsitektur ini mempercepat pemrosesan data dengan Apache Spark di Amazon EKS.

Pilar Well-Architected

Diagram arsitektur di atas adalah contoh Solusi yang dibuat dengan mempertimbangkan praktik terbaik Well-Architected. Untuk menjadi Well-Architected sepenuhnya, Anda perlu mengikuti sebanyak mungkin praktik terbaik Well-Architected.

    Dalam klaster Amazon EKS, instans Amazon Elastic Compute Cloud (Amazon EC2) (CPU X86_64, Graviton ARM64) berperan sebagai simpul komputasi yang menjalankan beban kerja Panduan ini. Pekerjaan Spark dijalankan pada instans Amazon EC2 Spot yang disediakan secara elastis berdasarkan tuntutan beban kerja. CodeBuild dan CodePipeline mengotomatiskan proses GitOps, membangun gambar kontainer dari pembaruan kode Git dan mendorongnya ke registri pribadi Amazon ECR. Argo Workflows menjadwalkan pekerjaan ETL di Amazon EKS, secara otomatis menarik gambar Docker Arc dari Amazon ECR, mengunduh aset ETL dari bucket artefak S3, dan mengirimkan log aplikasi ke CloudWatch. Otomatisasi deployment dan eksekusi tugas Data ETL ini meminimalkan beban operasional dan meningkatkan produktivitas. Selain itu, pipeline CI/CD yang menggunakan CodeBuild dan CodePipeline membantu memastikan peningkatan dan pengembangan berkelanjutan, sekaligus menyimpan gambar Docker Arc Panduan dengan aman di Amazon ECR.

    Baca laporan resmi Keunggulan Operasional

    Sumber daya klaster Amazon EKS di-deploy dalam Amazon VPC, menyediakan isolasi jaringan logis dari internet publik. Amazon VPC mendukung fitur keamanan, seperti titik akhir VPC (menjaga lalu lintas agar tetap berada dalam jaringan AWS), grup keamanan, daftar kontrol akses (ACL) jaringan, serta peran dan kebijakan AWS Identity and Access Management (IAM) untuk mengendalikan lalu lintas masuk dan keluar serta otorisasi. Registri gambar Amazon ECR menawarkan fitur keamanan tingkat kontainer, seperti pemindaian kerentanan. Amazon ECR dan Amazon EKS mengikuti standar registri Open Container Initiative (OCI) dan API Kubernetes, dengan penerapan protokol keamanan yang ketat. IAM menyediakan kontrol akses untuk data aplikasi di Amazon S3, sementara AWS Key Management Service (AWS KMS) mengenkripsi data diam di Amazon S3. Peran IAM untuk Akun Layanan (IRSA) pada klaster Amazon EKS memungkinkan kontrol akses terperinci pada pod, menerapkan kontrol akses berbasis peran serta membatasi akses data Amazon S3 yang tidak sah. Secrets Manager menyimpan dan mengelola kredensial dengan aman. CloudFront menyediakan titik masuk aman dengan pengodean SSL untuk alat web Jupyter dan Argo Workflows.

    Baca laporan resmi Keamanan

    Amazon EKS memungkinkan topologi dengan ketersediaan tinggi dengan melakukan deployment pada Kubernetes Control dan Compute Planes di beberapa Zona Ketersediaan (AZ). Hal ini membantu memastikan ketersediaan berkelanjutan untuk aplikasi data, bahkan jika salah satu AZ mengalami gangguan, sehingga menghasilkan deployment instans EC2 multi-AZ yang andal di Amazon EKS. Untuk penyimpanan data, Amazon S3 memberikan daya tahan dan ketersediaan yang tinggi dengan mereplikasi objek data secara otomatis di beberapa AZ dalam satu Wilayah. Selain itu, Amazon ECR meng-host gambar Docker dalam arsitektur dengan ketersediaan tinggi dan dapat diskalakan sehingga dapat mendukung deployment serta penambahan aplikasi berbasis kontainer secara andal. Amazon S3, Amazon EKS, dan Amazon ECR adalah layanan yang dikelola sepenuhnya yang dirancang untuk perjanjian tingkat layanan tinggi (SLA) dengan biaya operasional yang lebih rendah. Layanan tersebut memungkinkan deployment aplikasi penting bisnis untuk memenuhi persyaratan ketersediaan tinggi.

    Baca laporan resmi Keandalan

    Simpul komputasi Amazon EC2 pada klaster Amazon EKS dapat diskalakan naik dan turun secara dinamis berdasarkan beban kerja aplikasi. Instans EC2 berbasis Graviton memberikan peningkatan efisiensi kinerja melalui prosesor berbasis ARM yang dirancang khusus, perangkat keras yang dioptimalkan, dan peningkatan arsitektural. Pola komputasi dan penyimpanan terpisah (dengan data input dan output yang disimpan di Amazon S3) meningkatkan efisiensi penskalaan komputasi dinamis. Katalog Data menyederhanakan pengelolaan metadata, terintegrasi secara mulus dengan Athena untuk mempermudah pengelolaan metadata dan meningkatkan kinerja kueri. Katalog Data mengotomatiskan perayapan dan pemeliharaan metadata teknis untuk pemrosesan data dan kueri yang efisien. Athena menawarkan kueri cepat terhadap data Amazon S3 tanpa memindahkannya sehingga makin meningkatkan efisiensi alur kerja analitik.

    Baca laporan resmi Efisiensi Performa

    Amazon ECR adalah layanan terkelola untuk mengamankan dan mendukung aplikasi berbasis kontainer dengan biaya bulanan tetap untuk menyimpan dan menyajikan gambar kontainer. Simpul komputasi klaster Amazon EKS dapat diskalakan naik dan turun berdasarkan beban kerja Spark, dengan pilihan tipe instans Graviton dan Spot. Katalog Data menyediakan repositori metadata nirserver yang dikelola sepenuhnya sehingga menghilangkan kebutuhan untuk menyiapkan dan memelihara basis data metadata yang berjalan terus-menerus dan mengurangi beban operasional dan biaya lainnya. CodeBuild dan CodePipeline mengotomatiskan pembuatan dan deployment gambar Docker Arc ETL Framework di lingkungan nirserver sehingga menghilangkan kebutuhan untuk menyediakan dan mengelola server build sekaligus mengurangi biaya pemeliharaan infrastruktur.

    Baca laporan resmi Optimisasi Biaya

    Panduan ini menjalankan klaster Amazon EKS dengan tipe komputasi yang efisien berdasarkan prosesor Graviton. Amazon ECR menghilangkan kebutuhan akan perangkat keras khusus atau pengelolaan server fisik. Katalog Data dan Athena adalah layanan nirserver, yang makin mengurangi dampak energi dan lingkungan. Pengoptimalan lapisan komputasi Amazon EKS untuk beban kerja Apache Spark skala besar meminimalkan dampak lingkungan dari beban kerja analitik. Anda memiliki fleksibilitas untuk memilih prosesor berbasis ARM berdasarkan kebutuhan kinerja dan prioritas keberlanjutan Anda.

    Baca laporan resmi Keberlanjutan

Sumber daya implementasi

Kode sampel adalah titik awal. Kode sampel ini divalidasi industri, bersifat preskriptif tetapi tidak definitif, dan menjadi sarana untuk mencoba sebelum menggunakannya.
Buka panduan implementasi

Penafian

Kode sampel; pustaka perangkat lunak; alat baris perintah; bukti konsep; templat; atau teknologi terkait lainnya (termasuk yang sebelumnya disediakan oleh personel kami) disediakan untuk Anda sebagai Konten AWS berdasarkan Perjanjian Pelanggan AWS, atau perjanjian tertulis yang relevan antara Anda dan AWS (mana saja yang berlaku). Anda tidak boleh menggunakan Konten AWS ini di akun produksi Anda, atau pada produksi atau data penting lainnya. Anda bertanggung jawab untuk menguji, mengamankan, dan mengoptimalkan Konten AWS, seperti kode sampel, yang sesuai untuk penggunaan tingkat produksi berdasarkan praktik dan standar kontrol kualitas spesifik Anda. Melakukan deployment Konten AWS dapat dikenai biaya AWS untuk membuat atau menggunakan sumber daya AWS berbayar, seperti menjalankan instans Amazon EC2 atau menggunakan penyimpanan Amazon S3.

Apakah Anda sudah menemukan yang Anda cari?

Beri tahu kami agar kami dapat meningkatkan kualitas konten di halaman kami