Apa itu Penyerapan Data?

Penyerapan data adalah proses mengumpulkan data dari berbagai sumber, lalu menyalinnya ke sistem target untuk penyimpanan dan analisis. Sistem modern memandang data sebagai “aliran” yang bergerak melintasi dan di antara sistem serta perangkat dalam berbagai format dan kecepatan. Misalnya, data dari sensor pintar dapat diterima secara terus-menerus sebagai aliran input sensor yang konstan, sementara data penjualan pelanggan dapat dikumpulkan dan dikirimkan pada akhir hari dalam suatu batch. Sumber data yang berbeda memerlukan pemeriksaan validasi, pra-pemrosesan, serta manajemen kesalahan sebelum data tersebut dapat masuk ke destinasinya. Penyerapan data mencakup semua teknologi dan proses yang diperlukan untuk mengumpulkan data dengan aman untuk analitik lebih lanjut.

Mengapa penyerapan data itu penting?

Proses penyerapan data adalah langkah pertama dalam setiap pipeline data. Langkah ini memastikan bahwa data mentah dikumpulkan, disiapkan, dan disediakan dengan tepat untuk proses hilir. Berikut beberapa alasan pentingnya penyerapan data yang akurat.

Mendukung pemrioritasan data

Analis bisnis dan ilmuwan data memprioritaskan sumber data yang paling penting, dengan mengonfigurasi pipeline penyerapan data untuk pemrosesan dan integrasi yang efisien. Tergantung kebutuhan operasi, data yang diprioritaskan dipindahkan ke proses pembersihan, deduplikasi, transformasi, atau penyebaran. Langkah-langkah persiapan ini sangat penting untuk operasi data yang efektif. Pendekatan yang diprioritaskan meningkatkan efisiensi bisnis sekaligus menyederhanakan pemrosesan data.

Menghapus silo data

Dengan mengumpulkan data dari berbagai sumber dan mengonversinya ke dalam format yang terpadu, penyerapan data memastikan bahwa organisasi dapat memperoleh tampilan yang terkonsolidasi atas aset data mereka. Proses ini membantu mencegah silo data, sehingga informasi menjadi lebih mudah diakses di seluruh departemen untuk peningkatan kolaborasi.

Dipercepat oleh otomatisasi

Setelah mengonsepkan sistem penyerapan data, rekayasawan data dapat mengatur berbagai kontrol otomatisasi untuk mempercepat proses lebih lanjut. Proses-proses ini dengan mudah memasok ke alat berbasis data lainnya, seperti model AI dan machine learning, yang bergantung pada data ini. Pipeline data otomatis juga membantu menyederhanakan keseluruhan proses.

Meningkatkan analitik

Informasi yang relevan harus tersedia dengan cepat agar analitik data menjadi efektif. Selama penyerapan data, Anda dapat menggabungkan beberapa sumber atau melakukan aktivitas pengayaan data. Lapisan penyerapan data mengarahkan data ke sistem penyimpanan yang sesuai, seperti gudang data atau data mart khusus, sehingga memastikan akses data yang cepat dan andal. Akses sesuai permintaan ke data memungkinkan pemrosesan dan analitik data waktu nyata. Organisasi Anda dapat menggunakan hasil analisis data untuk membuat keputusan bisnis yang lebih tepat.

Apa saja jenis proses penyerapan data?

Penyerapan dan pendekatan data bervariasi tergantung pada volume, kecepatan, dan kasus penggunaan data tersebut.

Penyerapan data batch

Alat penyerapan batch mengumpulkan data selama periode yang ditentukan dengan menyerap sekelompok entri data sekaligus. Alat tersebut biasanya diatur untuk mengambil data pada interval terjadwal, seperti akhir hari, akhir pekan, atau akhir bulan. Misalnya, perangkat lunak pengeditan gambar dapat secara otomatis mengunggah semua gambar yang diedit ke cloud pada akhir hari.

Memproses data dalam batch besar dapat berlangsung cepat, atau bisa juga lambat jika melibatkan sejumlah besar data. Jika transfer berjalan lambat dan terjadi kesalahan, memulai ulang batch bisa menjadi proses yang mahal dan rumit. Rekayasawan yang menggunakan pemrosesan batch membuat pipeline yang toleran terhadap kesalahan yang memungkinkan mereka memulai dari titik batch terakhir kali terganggu.

Pendekatan ini paling sesuai ketika Anda ingin menganalisis data historis atau ketika faktor waktu tidak relevan. Untuk menyerap data secara hampir real-time atau real-time, salah satu metode berikut biasanya lebih disarankan.

Penyerapan data streaming

Alat penyerapan data streaming mengumpulkan data segera setelah data tersebut dihasilkan, seperti saat menyerap data dari sensor IoT yang melakukan pembacaan secara terus-menerus. Meskipun streaming memastikan akses ke data terbaru, hal ini dapat sangat membebani sumber daya. Rekayasawan data harus menangani kesalahan sistem atau jaringan dan lag jaringan, yang dapat menyebabkan hilangnya data dan menimbulkan celah dalam aliran data.

Terdapat dua pendekatan untuk mengalirkan penyerapan data.

Penyerapan berbasis pull

Alat penyerapan melakukan kueri ke sumber dan melakukan ekstraksi data. Proses ini dapat dilakukan secara terus-menerus atau pada interval yang telah ditentukan.

Penyerapan berbasis push

Sumber data mendorong data ke alat penyerapan segera setelah menghasilkan informasi baru.

Penyerapan batch-mikro

Penyerapan data batch-mikro membagi aliran data berkelanjutan menjadi bagian-bagian yang lebih kecil dan lebih mudah dikelola yang disebut dengan aliran diskret. Pendekatan ini menyeimbangkan keunggulan penyerapan batch dan streaming. Penyerapan batch mikro sangat ideal untuk skenario ketika pemrosesan waktu nyata diinginkan, tetapi streaming penuh terlalu membebani sumber daya. Namun, batching mikro masih menimbulkan beberapa penundaan dibandingkan dengan penyerapan streaming murni.

Pemrosesan batch mikro adalah cara yang hemat biaya untuk mendapatkan penyerapan data hampir waktu nyata tanpa membayar biaya yang lebih tinggi terkait dengan streaming.

Penyerapan berbasis peristiwa

Ini adalah bentuk khusus dari penyerapan berbasis push. Sistem berbasis peristiwa menyerap data ketika peristiwa atau pemicu tertentu terjadi, alih-alih secara terus-menerus atau pada interval waktu yang ditentukan. Pendekatan ini biasanya digunakan untuk aplikasi seperti pemrosesan pesanan, notifikasi pelanggan, dan pemantauan sistem. Metode ini dapat mengurangi perpindahan data yang tidak perlu dan mengoptimalkan penggunaan sumber daya dengan hanya menyerap data saat diperlukan. Namun, fungsi yang efektif bergantung pada pemicu peristiwa yang ditentukan dengan baik dan mekanisme penanganan peristiwa.

Pengambilan data perubahan

Sistem pengambilan data perubahan (CDC) adalah tipe penyerapan berbasis peristiwa yang biasa digunakan untuk replikasi basis data, pergudangan data inkremental, dan sinkronisasi di antara sistem terdistribusi. Alat penyerapan data ini hanya menyerap perubahan yang dilakukan pada basis data, bukan mentransfer seluruh set data. Dengan memantau peristiwa log transaksi, CDC mengidentifikasi penyisipan, pembaruan, dan penghapusan, lalu menyebarkannya ke sistem lain secara hampir real-time. CDC meminimalkan biaya transfer data serta meningkatkan efisiensi, tetapi memerlukan dukungan dari sistem basis data yang mendasarinya dan dapat menimbulkan beberapa overhead pemrosesan.

Apa perbedaan antara penyerapan, integrasi, dan ETL data?

Konsep-konsep ini sering dianggap sama, padahal mereka sebenarnya memiliki perbedaan penting.

Penyerapan data vs. integrasi data

Integrasi data mengacu pada penggabungan berbagai set data ke dalam satu tampilan yang terpadu. Ini adalah istilah umum yang luas untuk memindahkan data dari beberapa sistem sumber ke dalam sistem target tunggal, menggabungkan data, menghapus data yang tidak diperlukan, menghilangkan duplikasi, dan kemudian menganalisisnya untuk wawasan mendalam. Misalnya, mengintegrasikan data profil pelanggan dengan data pembelian pesanan dapat memberikan wawasan tentang preferensi pesanan kelompok usia atau demografi lokasi tertentu.

Penyerapan data adalah langkah pertama dalam setiap pipeline integrasi data. Namun, integrasi data melibatkan alat dan teknologi lain di luar penyerapan, termasuk pipeline extract, transform, load (ETL), dan kueri data.

Penyerapan data vs. ETL dan ELT

Extract, transform, load (ETL) adalah jenis arsitektur multi-langkah yang meningkatkan kualitas data dalam beberapa tahap, atau hop. Dalam ETL, data diekstrak dari sumbernya, ditransformasi menjadi format yang diinginkan oleh alat analitik, lalu dimuat ke dalam sistem penyimpanan data, seperti gudang atau danau data.

Extract, Load, Transform (ELT) adalah pipeline alternatif yang membalik urutan transformasi data dan segmen muatan ETL. Ini adalah arsitektur single-hop, yang berarti data dimuat dan diubah pada sistem target.

Penyerapan data mengacu pada tahap ekstrak dan pemuatan pada pipeline ETL dan ELT. Namun, ETL dan ELT melakukan lebih dari sekadar penyerapan data, dengan pemrosesan data dalam tahap transformasi.

Apa saja tantangan terkait penyerapan data?

Berikut adalah beberapa tantangan yang harus dipertimbangkan oleh organisasi saat menyerap data.

Skala

Penskalaan sistem penyerapan data menjadi tantangan tersendiri bagi organisasi karena besarnya volume data, dan ketika kecepatan data meningkat dari waktu ke waktu.

Penskalaan horizontal dan vertikal

Organisasi menggunakan dua strategi penskalaan utama. Penskalaan horizontal melibatkan pendistribusian beban kerja penyerapan di banyak simpul. Hal tersebut membutuhkan penyeimbangan beban dan koordinasi yang efisien untuk mencegah hambatan. Penskalaan vertikal bergantung pada peningkatan daya pemrosesan dalam satu simpul, yang bisa lebih mudah direkayasa, tetapi dibatasi oleh kekuatan pemrosesan simpul tersebut. Tantangan utama di sini adalah memastikan bahwa pipeline penyerapan data dapat menangani peningkatan volume data tanpa menyebabkan keterlambatan atau kegagalan sistem.

Untuk mengatasi tantangan penskalaan, Anda dapat menggunakan Amazon Kinesis Data Streams untuk penyerapan data real-time dengan penskalaan horizontal. Sebagai alternatif, Amazon EMR memungkinkan pengguna untuk menjalankan dan menskalakan Apache Spark, Trino, dan beban kerja big data lainnya dengan mudah.

Arsitektur nirserver

Pipeline nirserver adalah arsitektur penyerapan data sesuai permintaan yang tidak memerlukan konfigurasi dan deployment instans. Arsitektur nirserver paling cocok untuk pola penyerapan data yang bervariasi atau penyerapan berbasis peristiwa.

Misalnya, pipeline penyerapan nirserver di AWS dapat dibuat dengan Amazon Data Firehose dan AWS Lambda.

Keamanan

Keamanan dan kepatuhan merupakan perhatian yang krusial selama penyerapan data, terutama ketika berurusan dengan informasi sensitif. Organisasi harus mematuhi peraturan privasi data, yang memberlakukan persyaratan ketat dalam pengumpulan, transmisi, dan penyimpanan data.

Berikut beberapa praktik terbaik untuk keamanan data selama penyerapan:

Enkripsi data bergerak dan diam
Kontrol akses dan mekanisme autentikasi
Teknik pengaburan data dan anonimisasi untuk melindungi informasi pengenal pribadi (PII)

Untuk membantu melindungi keamanan data selama proses penyerapan di AWS, Anda dapat menggunakan layanan, seperti:

Amazon Macie untuk menemukan data sensitif menggunakan machine learning dan pencocokan pola
AWS Key Management Service untuk mengenkripsi data di seluruh beban kerja AWS Anda
AWS PrivateLink untuk konektivitas antara Amazon Virtual Private Cloud (VPC) dan layanan AWS tanpa mengekspos data ke internet.

Keandalan jaringan

Gangguan jaringan, kegagalan API, dan ketersediaan data yang tidak konsisten dapat mengganggu proses penyerapan data. Peristiwa semacam ini dapat menimbulkan berbagai tantangan, seperti korupsi data. Data yang berlebihan dari satu sumber dapat mengakibatkan potensi kehilangan data atau memperlambat sementara sistem, seperti gudang data Anda. Throttling adaptif mungkin diperlukan untuk mengelola lonjakan aliran data. Manajemen backpressure memungkinkan alat penyerapan data menangani data yang masuk pada tingkat yang sesuai dengan kapasitas pemrosesannya.

Percobaan ulang atau percobaan kembali untuk memproses data yang gagal adalah strategi penanganan kesalahan lainnya. Alat penyerapan data mengirimkan permintaan kirim ulang ke sumber ketika mengidentifikasi data yang korup atau hilang. Percobaan ulang dapat meningkatkan akurasi, tetapi dapat memengaruhi throughput dan latensi yang diharapkan.

Untuk menerapkan percobaan ulang otomatis di AWS, Anda dapat membuat alur kerja sendiri menggunakan AWS Step Functions, sedangkan Amazon Kinesis menawarkan kebijakan dan proses yang dapat dikonfigurasi untuk mengelola aliran data masuk.

Kualitas data

Ketika data tiba di pipeline penyerapan data dari berbagai sumber, tidak ada jaminan bahwa data tersebut akan berada dalam format yang konsisten yang berlaku bagi organisasi. Sumber data mentah mungkin berisi nilai yang hilang, format data yang salah, dan ketidakcocokan skema. Hal-hal tersebut terutama terjadi saat bekerja dengan data yang tidak terstruktur, karena kurangnya keseragaman menambah lapisan interaksi dan pembersihan tambahan.

Alat penyerapan data biasanya menyertakan pemeriksaan kualitas data serta mengimplementasikan metode untuk memvalidasi, membersihkan, dan menstandarkan data. Deduplikasi otomatis, penegakan skema, dan deteksi anomali berbasis AI dapat membantu mengidentifikasi dan memperbaiki kesalahan sebelum menyebar lebih jauh ke dalam pipeline data.

Alat kualitas data di AWS mencakup Kualitas Data AWS Glue untuk aturan kualitas dan otomatisasi, dan Amazon DataZone untuk penyusunan katalog dan tata kelola data.

Bagaimana kerangka kerja penyerapan data mendukung pengambilan keputusan bisnis yang lebih baik?

Akses yang lebih cepat ke data akurat membantu tim menemukan tren lebih cepat, merespons kebutuhan pelanggan saat mereka berkembang, dan menyesuaikan strategi secara real time. Organisasi Anda akan lebih siap untuk mengambil keputusan berdasarkan bukti, bukan asumsi.

Membangun kepercayaan dengan pipeline data yang aman dan andal

Pelanggan dan regulator mengharapkan bisnis untuk menangani data secara bertanggung jawab. Proses penyerapan data yang dirancang dengan baik membantu memenuhi harapan ini dengan memastikan data dikumpulkan, ditransitkan, dan diakses dengan aman.

Manfaatnya melampaui peningkatan operasional langsung yang akan Anda lihat. Kepatuhan menjadi lebih andal, dan demonstrasi penanganan data yang aman di gudang data Anda dapat membangun kepercayaan internal di seluruh tim dan memperkuat kepercayaan pelanggan.

Menyederhanakan kepatuhan dan pelaporan di seluruh bisnis

Proses penyerapan data yang andal membantu organisasi memenuhi persyaratan peraturan dan menyederhanakan audit. Ketika data dari seluruh bisnis Anda dikumpulkan secara konsisten dan aman, terciptalah catatan operasi yang jelas dan dapat dilacak, yang sangat penting untuk kepatuhan terhadap standar, seperti Peraturan Perlindungan Data Umum (GDPR), Undang-Undang Portabilitas dan Akuntabilitas Asuransi Kesehatan (HIPAA), atau Standar Keamanan Data Industri Kartu Pembayaran (PCI DSS).

Penyerapan data otomatis mengurangi risiko kesalahan manusia dan memastikan bahwa data yang diperlukan ditangkap tepat waktu. Hal ini memudahkan pembuatan laporan yang akurat, merespons permintaan auditor, serta menunjukkan bahwa praktik data Anda transparan dan terkontrol.

Memungkinkan inovasi yang lebih cepat di seluruh tim

Ketika data diserap secara andal dan tersedia dengan cepat, tim di seluruh bisnis dapat menjadi lebih gesit. Misalnya, tim produk, pemasaran, dan operasi dapat menguji hipotesis, mengukur hasil dalam sistem manajemen hubungan pelanggan (CRM) Anda, dan melakukan iterasi tanpa harus menunggu TI menyiapkan set data. Dengan pipeline penyerapan otomatis, tim-tim ini mendapatkan akses mandiri ke data terbaru dan tepercaya yang dapat mempercepat waktu menuju wawasan.

Bagaimana cara AWS mendukung kebutuhan penyerapan data Anda?

AWS menyediakan layanan dan kemampuan untuk menyerap berbagai tipe data ke dalam basis data AWS Cloud atau layanan analitik lainnya. Misalnya:

Amazon Data Firehose adalah bagian dari keluarga layanan Kinesis yang secara otomatis menskalakan agar sesuai dengan volume serta throughput data streaming dan tidak memerlukan administrasi berkelanjutan.
AWS Glue adalah layanan ETL nirserver terkelola penuh yang mengategorikan, membersihkan, mentransformasikan, dan mentransfer data dengan andal di antara berbagai penyimpanan data dengan cara yang sederhana serta hemat biaya.
AWS Transfer Family adalah layanan transfer yang aman dan terkelola penuh untuk memindahkan file ke dalam dan ke luar layanan penyimpanan AWS.
Basis Data AWS dan AWS Database Migration Service (DMS) menyediakan mekanisme untuk menangkap dan melakukan streaming perubahan dari semua layanan basis data AWS. Anda dapat menggunakan CDC native dari Amazon DynamoDB atau Amazon Neptune, yang memungkinkan Anda mengurangi kompleksitas pipeline integrasi data. Pilihan lainnya adalah menggunakan CDC di AWS Database Migration Service (DMS), yang mengekstrak perubahan dari log transaksi sumbernya. DMS adalah layanan dengan ketersediaan tinggi, serta memiliki ketahanan untuk tugas replikasi jangka panjang. Aliran data Anda kemudian dapat diubah dan didistribusikan menggunakan Amazon MSK, Amazon Kinesis, atau AWS Glue.
Amazon Managed Streaming for Apache Kafka (Amazon MSK) adalah layanan terkelola penuh yang memudahkan dalam membangun dan menjalankan aplikasi yang menggunakan Apache Kafka sumber terbuka untuk penyerapan aliran.

Anda juga dapat menginstal platform penyerapan data kustom pada Amazon EC2 dan Amazon EMR serta membangun lapisan penyimpanan dan pemrosesan aliran Anda sendiri. Dengan cara ini, Anda terhindar dari friksi penyediaan infrastruktur dan mendapatkan akses ke berbagai kerangka kerja penyimpanan dan pemrosesan aliran.

Mulai penyerapan data di AWS dengan membuat akun gratis sekarang juga.

Apa itu Penyerapan Data?