AWS Glue

ETL yang simpel, fleksibel, dan hemat biaya

AWS Glue adalah layanan ekstrak, transformasi, dan beban (ETL) yang dikelola sepenuhnya yang memudahkan pelanggan untuk mempersiapkan dan memuat data mereka untuk analisis. Anda dapat membuat dan menjalankan pekerjaan ETL dengan beberapa klik di AWS Management Console. Anda cukup mengarahkan AWS Glue ke data Anda yang tersimpan di AWS, dan AWS Glue menemukan data Anda dan menyimpan metadata yang terkait (misalnya definisi dan skema tabel) di Katalog Data AWS Glue. Setelah dimasukkan ke katalog, data Anda segera dapat dicari, dapat dibuat query, dan tersedia untuk ETL.

Memperkenalkan AWS Glue (1:47)

Keuntungan

Mengurangi kerepotan

AWS Glue terintegrasi di banyak layanan AWS, artinya mengurangi kerepotan saat proses masuk. AWS Glue pada dasarnya mendukung data yang disimpan di Amazon Aurora dan mesin Amazon RDS lainnya, Amazon Redshift, dan Amazon S3, serta mesin database umum dan database dalam Virtual Private Cloud (Amazon VPC) Anda yang berjalan pada Amazon EC2.

Hemat biaya

AWS Glue adalah tanpa server. Tidak ada infrastruktur yang perlu disediakan atau dikelola. AWS Glue menangani penyediaan, konfigurasi, dan penskalaan sumber daya yang diperlukan untuk menjalankan pekerjaan ETL Anda di lingkungan yang terkelola penuh dan berskala Apache Spark. Anda hanya membayar sumber daya yang digunakan saat pekerjaan Anda berjalan.

Berkemampuan lebih tinggi

AWS Glue mengotomatiskan banyak usaha dalam membangun, mempertahankan, dan menjalankan tugas ETL. AWS Glue mengambil sumber data Anda, mengidentifikasi format data, dan menyarankan skema dan transformasi. AWS Glue secara otomatis menghasilkan kode untuk mengeksekusi transformasi data Anda dan proses pemuatan.

 

 

Cara kerjanya

Pilih sumber data dan target data. AWS Glue akan menghasilkan kode ETL dalam Scala atau Python untuk mengekstrak data dari sumber, mentransformasi data agar sesuai dengan skema target, dan memuat ke target. Anda dapat mengedit, melakukan debug, dan menguji kode ini melalui Console, di IDE favorit Anda, atau notebook apa pun.

Langkah 1: Membangun Katalog Data Anda
screenshot-glue-step1-data-catalog2b

Pertama, gunakan AWS Management Console untuk mendaftarkan sumber data Anda. AWS Glue akan mengambil sumber data Anda dan menyusun Katalog Data menggunakan pengklasifikasi yang dibuat sebelumnya untuk banyak format sumber dan jenis data yang dikenal, termasuk JSON, CSV, Parquet, dan lebih banyak lagi.

Langkah 2: Menghasilkan dan Mengedit Transformasi
screenshot-glue-step2-etl-generation4

Selanjutnya, pilih sumber data dan target data. AWS Glue akan menghasilkan kode ETL dalam Scala atau Python untuk mengekstrak data dari sumber, mentransformasi data agar sesuai dengan skema target, dan memuat ke target. Anda dapat mengedit, melakukan debug, dan menguji kode ini melalui Console, di IDE favorit Anda, atau notebook apa pun.

Langkah 3: Menjadwalkan dan Menjalankan Pekerjaan Anda
screenshot-glue-step3-orchestration2

AWS Glue mempermudah penjadwalan berulang pekerjaan ETL, menggabungkan beberapa pekerjaan, atau meminta pekerjaan pesanan dari layanan lain seperti AWS Lambda. AWS Glue mengelola dependensi antar pekerjaan Anda, secara otomatis menskalakan sumber daya yang mendasarinya, dan mencoba ulang pekerjaan jika gagal.

Kunjungi halaman fitur AWS Glue, atau lihat dokumentasi produk kami untuk mempelajari lebih lanjut.

Kasus penggunaan

Query terhadap Amazon S3 Data Lake

Data lake menjadi cara yang semakin dikenal untuk menyimpan dan menganalisis data terstruktur dan tidak terstruktur. Jika Anda ingin membuat data lake Amazon S3 kustom sendiri, AWS Glue dapat membuat semua data Anda secara langsung tersedia untuk analisis tanpa memindahkan data.

Untuk membuat data lake yang aman dalam hitungan hari, pelajari lebih lanjut tentang Pembentukan Lake AWS

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

Menganalisis Data Log di Warehouse Data Anda

Siapkan clickstream Anda atau proses data log untuk analisis dengan membersihkan, menormalkan, dan memperkaya set data Anda menggunakan AWS Glue. AWS Glue menghasilkan skema untuk data semi-terstruktur Anda, membuat kode ETL untuk mentransformasikan, mendatarkan, dan memperkaya data Anda, dan memuat gudang data Anda pada basis berulang.

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

Menyeragamkan Tampilan Data Anda antar Berbagai Penyimpanan Data

Anda dapat menggunakan AWS Glue Data Catalog untuk dengan cepat menemukan dan mencari antar berbagai set data AWS tanpa memindahkan data. Setelah data dimasukkan dalam katalog, data langsung tersedia untuk pencarian dan kueri menggunakan Amazon Athena, Amazon EMR, dan Amazon Redshift Spectrum.

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

ETL Pipelines yang berdasarkan acara

AWS Glue dapat menjalankan pekerjaan ETL Anda berdasarkan acara, seperti mendapatkan set data baru. Contohnya, Anda dapat menggunakan fungsi AWS Lambda untuk memicu pekerjaan ETL Anda agar berjalan segera setelah data baru tersedia di Amazon S3. Anda juga dapat mendaftarkan set data baru ini di AWS Glue Data Catalog sebagai bagian dari pekerjaan ETL Anda.

product-page-diagram_Glue_Event-driven-ETL-Pipelines

Mulai menggunakan AWS

icon1

Mendaftar akun AWS

Dapatkan akses secara instan ke AWS Tingkat Gratis.
icon2

Pelajari dengan Tutorial 10 menit

Jelajahi dan pelajari dengan tutorial sederhana.
icon3

Mulai membangun dengan AWS

Mulai membangun dengan panduan langkah demi langkah untuk membantu Anda meluncurkan proyek AWS.

Pelajari selengkapnya tentang AWS Glue

Kunjungi halaman fitur
Siap membuat?
Mulai dengan AWS Glue
Ada pertanyaan lagi?
Hubungi kami