Apa itu Lake House Data?
Apa itu Lake House Data?
Lake house data adalah sistem manajemen data yang menawarkan penyimpanan fleksibel dan hemat biaya dalam skala besar, sekaligus menyediakan kemampuan analitik, seperti penataan, tata kelola, dan pelaporan. Teknologi ini memungkinkan Anda menyimpan data mentah dalam berbagai format dari ribuan atau bahkan ratusan ribu sumber secara lebih hemat biaya di satu lokasi pusat. Data tersebut kemudian dapat digunakan oleh alat analitik untuk melatih model AI serta menghasilkan laporan dan dasbor. Lake house data menyediakan banyak kemampuan yang memungkinkan Anda memproses data mentah di dalam lake house tersebut untuk kebutuhan analitik lebih lanjut.
Apa perbedaan antara danau data, gudang data, dan lake house data?
Arsitektur lake house data muncul dengan menggabungkan keunggulan dari dua sistem penyimpanan data terpusat tradisional: gudang data dan danau data.
Gudang data
Gudang data adalah sistem penyimpanan data yang menyimpan data terstruktur berdasarkan skema data standar. Skema adalah cetak biru yang telah ditentukan sebelumnya, yang menentukan format data, hubungan, dan struktur informasi dalam basis data relasional.
Organisasi menggunakan sistem gudang data untuk akses cepat ke pemrosesan data, analitik intelijen bisnis, dan pelaporan korporasi. Sistem gudang data menyediakan akses ke alat analitik canggih, tata kelola data yang kuat, dan kemudahan penggunaan untuk pengguna non-teknis. Misalnya, Anda dapat memperoleh laporan kinerja pemasaran menggunakan dasbor di gudang data.
Namun, sistem gudang data juga memiliki beberapa langkah tambahan dalam siklus hidup data. Untuk mendapatkan wawasan yang siap digunakan untuk analitik, data melewati beberapa pipeline extract, transform, load (ETL) sebelum disimpan di gudang data. Selain itu, gudang data tidak dapat menangani data yang tidak terstruktur dan semi-terstruktur, yang dibutuhkan oleh beban kerja kecerdasan buatan dan machine learning. Dalam pengaturan gudang data, penyimpanan dan daya komputasi berkaitan erat, yang meningkatkan biaya penskalaan infrastruktur.
Danau data
Danau data adalah sistem penyimpanan yang mempertahankan data dalam format aslinya. Ilmuwan data menggunakan danau data untuk menyimpan data terstruktur, tidak terstruktur, dan semi-terstruktur. Penyimpanan data di danau data berlangsung cepat karena informasi tidak melewati pipeline ETL. Sebaliknya, data mentah disimpan apa adanya. Oleh karena itu, danau data dapat menyimpan informasi dalam jumlah besar dengan kecepatan tinggi, termasuk aliran data real-time.
Karena volume datanya yang besar, danau data cloud ideal digunakan untuk eksplorasi data, machine learning, dan aplikasi ilmu data lainnya. Danau data juga lebih terjangkau untuk diskalakan karena menggunakan hosting penyimpanannya yang murah.
Berbeda dengan gudang data, mengakses data yang disimpan di danau data memerlukan keahlian teknis, yang membatasi akses data hanya pada sekelompok pengguna tertentu. Artinya, hanya pengguna yang mahir dalam ilmu data yang dapat mengekstrak, memanipulasi, dan menganalisis data mentah untuk wawasan bisnis. Selain itu, danau data yang tidak dikelola dapat menjadi rawa data. Rawa data adalah keadaan data yang tidak terorganisasi yang membuatnya lebih sulit untuk diekstrak guna mendapatkan wawasan yang bermakna.
Lake house data
Lake house data adalah arsitektur data terpadu yang menggabungkan keunggulan gudang data dan danau data. Teknologi ini menyediakan ruang penyimpanan yang berkinerja tinggi, terjangkau, dan ramah tata kelola untuk berbagai jenis data.
Tidak seperti gudang data, lake house data dapat menyimpan data semi-terstruktur dan tidak terstruktur untuk tujuan machine learning. Selain itu, arsitektur lake house data terdiri dari alat analitik SQL yang digunakan manajer bisnis untuk melaporkan dan mengekstraksi wawasan yang dapat ditindaklanjuti.
Apa saja fitur utama dari lake house data?
Lake house data menyediakan fitur manajemen data bagi organisasi untuk membangun hub pemrosesan data yang dapat diskalakan, kompleks, dan berlatensi rendah. Berikut adalah beberapa fitur utama dari lake house data.
Mendukung beragam jenis data dan beban kerja
Lake house data dapat menyimpan beragam jenis data, termasuk file teks, gambar, video, dan audio, tanpa langkah transformasi tambahan atau skema yang kaku. Hal ini memungkinkan penyerapan data yang cepat sehingga data tetap segar untuk aplikasi yang terhubung.
Untuk mendukung keberagaman data, lake house data menyimpan data mentah dalam penyimpanan berbasis objek. Penyimpanan berbasis objek adalah jenis arsitektur penyimpanan data yang dioptimalkan untuk menangani data tidak terstruktur dalam jumlah besar.
Dukungan transaksi
Lake house data menyediakan fitur manajemen data untuk menyimpan transaksi yang sesuai dengan standar ACID, mirip dengan yang ditemukan pada basis data konvensional. ACID adalah singkatan dari atomicity, consistency, isolation, dan durability.
- Atomicity berarti memperlakukan semua transaksi data sebagai satu kesatuan, yang berarti berhasil sepenuhnya atau tidak sama sekali.
- Consistency mengacu pada perilaku basis data yang dapat diprediksi, yang terjadi saat memperbarui tabel data tertentu. Setiap pembaruan mengikuti aturan yang telah ditentukan guna memastikan konsistensi data.
- Isolation berarti memungkinkan beberapa transaksi terjadi tanpa mengganggu satu sama lain. Bahkan jika beberapa pengguna memperbarui basis data secara bersamaan, setiap operasi berjalan secara independen, yang berarti suatu transaksi tidak akan dimulai jika transaksi sebelumnya belum berakhir.
- Durability adalah kemampuan basis data untuk mempertahankan dan menyimpan perubahan, bahkan jika sistem gagal.
Secara keseluruhan, ACID memastikan integritas data sehingga tim perangkat lunak dapat membangun aplikasi yang mengandalkan penyimpanan data transaksional yang andal.
Penyerapan streaming
Aliran data adalah aliran informasi berkelanjutan yang berasal dari sumber data, seperti perangkat Internet untuk Segala (IoT), transaksi keuangan, dan layanan aplikasi.
Beberapa aplikasi memerlukan streaming data untuk mencerminkan dan memvisualisasikan perubahan data secara hampir real-time. Arsitektur lake house data dapat menyerap aliran data dan membuatnya tersedia untuk aplikasi yang digunakan langsung oleh pengguna. Selain itu, ilmuwan data dapat membangun alat analitik di atas aliran data serta memvisualisasikannya dengan bagan, tabel, dan grafik.
Integrasi Nol ETL
Nol ETL adalah proses data yang melewati pipeline transformasi data yang kompleks saat memindahkan data. Infrastruktur lake house data memungkinkan integrasi nol ETL.
Secara konvensional, organisasi membangun beban kerja mereka di gudang data dan danau data. Pengaturan data ini memerlukan pipeline ETL tambahan untuk melakukan kueri dan mengubah data. Dengan integrasi nol ETL, ilmuwan data dapat melakukan kueri pada berbagai silo data tanpa perlu membangun pipeline data tambahan.
Ketika lake house data melakukan penyerapan, data otomatis diubah ke format yang selaras dengan kebutuhan analitik bisnis. Sebagai contoh, Amazon Redshift mendukung integrasi nol ETL dengan Amazon Aurora. Redshift adalah gudang data, sedangkan Aurora adalah sistem manajemen basis data relasional. Ketika diintegrasikan, data yang diserap Aurora otomatis direplikasi pada Redshift dalam hitungan detik. Dengan cara ini, organisasi dapat mempercepat waktu untuk mendapatkan wawasan sambil mempertahankan infrastruktur data yang sederhana dan hemat biaya.
Analitik terpadu
Lake house data menyediakan platform data terpadu untuk mengakses semua data yang disimpan. Fitur ini membantu arsitek data mengatasi duplikasi, inkonsistensi, dan fragmentasi data di berbagai sistem.
Manfaat utama lain dari analitik terpusat adalah kemampuan untuk menghindari pergerakan data yang tidak perlu antar-penyimpanan cloud. Alih-alih melakukan kueri pada data dalam silo, tim data menyimpan, menganalisis, dan membagikan data dari satu antarmuka yang terhubung ke lake house data. Sebagai contoh, Anda dapat mengambil data tidak terstruktur untuk beban kerja machine learning dan menghasilkan laporan kinerja pemasaran dari satu salinan data.
Editor kueri
Analis data, rekayasawan machine learning, dan pengguna data dapat dengan mudah mengakses data di lake house data dengan menggunakan editor kueri SQL. Mereka dapat membuat perintah SQL untuk analisis data, visualisasi, menelusuri data historis, membuat skema basis data, dan banyak lagi. Editor kueri juga meningkatkan kolaborasi dengan memungkinkan rekayasawan data untuk dengan mudah membagikan kueri yang mereka buat.
Dukungan ML/AI
Lake house data dirancang untuk membangun, menguji, dan menskalakan beban kerja kecerdasan buatan dan machine learning (AI/ML). Selain menyediakan akses langsung ke data tidak terstruktur, banyak penyedia lake house data menawarkan analitik, alat, dan perpustakaan machine learning yang menyederhanakan pengembangan AI.
Misalnya, Amazon SageMaker Lakehouse terintegrasi secara mulus dengan Studio Terpadu Amazon SageMaker, menyediakan akses ke alat dan analitik untuk mempercepat alur kerja AI/ML.
Bagaimana cara kerja lake house data?
Lake house data menggabungkan kemampuan analitik canggih dari gudang data dengan fleksibilitas danau data, menyediakan platform data yang dapat diskalakan, terjangkau, dan andal. Alih-alih memelihara infrastruktur danau data dan gudang data secara terpisah, organisasi memilih lake house data untuk memperoleh wawasan bisnis dengan lebih cepat.
Lake house data menyerap data dari berbagai sumber, mengaturnya secara internal, dan menyajikannya kepada berbagai pengguna data dalam format yang berbeda. Selain itu, komputasi lake house data terpisah dari penyimpanan. Dengan penyimpanan dan komputasi terpisah, Anda dapat menskalakan fungsi-fungsi ini secara independen untuk memaksimalkan efisiensi biaya.
Berikut adalah lapisan data yang membentuk sebuah lake house data.
Lapisan penyerapan
Lapisan penyerapan menghubungkan lake house data ke berbagai jenis sumber data, termasuk log aplikasi, basis data, dan umpan media sosial. Pada lapisan ini, data dipertahankan dalam format aslinya.
Lapisan penyimpanan
Lapisan penyimpanan menerima data mentah yang masuk dan menyimpannya dalam penyimpanan berbiaya rendah yang dapat diskalakan. Dalam pengaturan lake house data, lapisan ini sering kali terhubung dengan penyimpanan objek cloud. Penyimpanan objek mendukung beragam jenis data, termasuk data terstruktur, semi-terstruktur, dan tidak terstruktur.
Tergantung pada kasus penggunaannya, beberapa data akan mengalami transformasi setelah disimpan dalam penyimpanan objek. Misalnya, jika Anda ingin melatih model machine learning menggunakan data yang diserap, lake house data akan mengubah dan menyimpan data tersebut dalam format Parquet. Parquet adalah format file terbuka yang dirancang untuk menyimpan dan memproses data terstruktur secara efisien dengan memisahkannya menjadi kolom.
Lapisan staging
Lapisan staging, atau lapisan metadata, menyediakan dukungan skema untuk mengatur, mengelola, dan mengoptimalkan data yang disimpan di lake house data. Lapisan ini memungkinkan Anda menentukan kebijakan untuk memastikan kualitas data dan membuat jejak yang dapat diaudit untuk tujuan kepatuhan. Selain itu, tim data dapat membuat alur kerja data yang andal menggunakan transaksi ACID, pengindeksan file, penentuan versi data, dan caching, mirip dengan yang ditemukan di gudang data tradisional.
Lapisan API
Lapisan antarmuka pemrograman aplikasi (API) memungkinkan pengembang perangkat lunak dan aplikasi untuk melakukan kueri pada data yang disimpan di lake house data. Lapisan ini menyediakan akses granular ke data yang memungkinkan pembangunan analitik yang lebih canggih secara terprogram dari data tersebut. Misalnya, tim perangkat lunak dapat melakukan panggilan API untuk mengambil aliran data secara real time untuk mendukung dasbor aplikasi investasi.
Lapisan semantik
Lapisan semantik adalah lapisan paling atas dari lake house data. Juga dikenal sebagai lapisan konsumsi data, lapisan ini terdiri dari aplikasi dan alat analitik data yang menyediakan akses ke data dan skema yang disimpan. Pengguna bisnis dapat membuat laporan, membuat bagan, melakukan kueri untuk mendapatkan wawasan, dan melakukan analisis data lainnya dengan alat yang tersedia pada lapisan ini.
Bagaimana AWS dapat mendukung kebutuhan lake house data Anda?
Amazon SageMaker Lakehouse adalah lake house data yang digunakan organisasi untuk memproses data dalam jumlah exabyte guna mendapatkan wawasan bisnis dan memperkuat beban kerja AI. Amazon SageMaker Lakehouse terintegrasi secara mendalam dengan layanan penyimpanan data, analitik, dan machine learning dari AWS untuk membantu Anda:
- Mengakses data di tempat untuk analitik yang hampir real-time
- Membangun model machine learning dan kecerdasan buatan pada satu hub data
- Mengakses, menggabungkan, dan membagikan data secara aman dengan pergerakan atau penyalinan minimal
Dengan arsitektur yang memisahkan komputasi dan penyimpanan untuk penskalaan yang efisien, Amazon SageMaker Lakehouse memberikan kinerja harga yang lebih baik daripada lake house data cloud lainnya.
Amazon SageMaker Lakehouse terintegrasi dengan gudang data dan danau data AWS:
- Amazon Redshift adalah solusi gudang data yang memberikan kinerja harga yang tak tertandingi dalam skala besar dengan SQL untuk lake house data Anda
- Amazon S3 adalah penyimpanan objek danau data yang dibangun untuk mengambil data dalam jumlah berapa pun dari mana pun
Mulai menggunakan lake house data di AWS dengan membuat akun gratis sekarang juga.