Lewati ke Konten Utama

Amazon SageMaker Lakehouse

FAQ Arsitektur Lakehouse

Umum

Buka semua

Amazon SageMaker generasi berikutnya dibangun menggunakan arsitektur lakehouse terbuka yang mengintegrasikan semua data Anda di berbagai danau data Amazon Simple Storage Service (Amazon S3), termasuk Tabel S3, dan gudang data Amazon Redshift, sehingga membantu Anda membangun analitik dan aplikasi AI/ML yang andal dengan satu salinan data. Lakehouse memberi Anda fleksibilitas untuk mengakses dan menanyakan data Anda dengan semua alat dan mesin yang kompatibel dengan Apache Iceberg. Anda juga dapat terhubung ke sumber data federasi seperti Amazon DynamoDB, Google BigQuery, dan Snowflake dan menanyakan data Anda di tempat. Bawa data dari basis data operasional dan aplikasi ke lakehouse Anda yang mendekati waktu nyata melalui integrasi nol-ETL. Amankan data Anda dengan kontrol akses berbutir halus terintegrasi, yang diberlakukan di semua alat dan mesin analitik dan ML. Dengan Amazon SageMaker, Anda dapat membangun rumah danau terbuka pada investasi data yang ada, tanpa mengubah arsitektur data Anda.

SageMaker Lakehouse memberikan 3 manfaat utama:

a) Ak ses data terpadu: SageMaker Lakehouse mengurangi silo data dengan menyediakan akses terpadu ke data Anda di Amazon S3 data lake dan gudang data Amazon Redshift. Anda juga dapat terhubung ke sumber data federasi seperti Amazon DynamoDB, Google BigQuery, dan Snowflake. Selain itu, data dari database operasional dan aplikasi dapat dicerna ke rumah danau Anda hampir secara real time melalui integrasi Zero-ETL.

b) Kompatibilitas sumber terbuka: SageMaker Lakehouse memberi Anda fleksibilitas untuk mengakses dan menanyakan semua data Anda di tempat, dari berbagai layanan AWS dan sumber terbuka dan alat dan mesin pihak ketiga yang kompatibel dengan Apache Iceberg. Anda dapat menggunakan alat analitik dan mesin pilihan Anda, seperti SQL, Apache Spark, kecerdasan bisnis (BI), dan alat AI/ML, serta berkolaborasi dengan satu salinan data yang disimpan di Amazon S3 dan Amazon Redshift.

c) Ak ses data yang aman: SageMaker Lakehouse menyediakan kontrol akses halus terintegrasi ke data Anda. Ini berarti Anda dapat menentukan izin dan menerapkannya secara konsisten di semua alat dan mesin analitik dan ML, terlepas dari format penyimpanan yang mendasarinya atau mesin kueri yang digunakan.

Dapat diakses langsung dari Amazon SageMaker Unified Studio, SageMaker Lakehouse adalah arsitektur rumah danau terbuka yang menyatukan data di seluruh data estate Anda. Data dari berbagai sumber diatur dalam kontainer logis yang disebut katalog di SageMaker Lakehouse. Setiap katalog mewakili sumber seperti gudang data Amazon Redshift, danau data S3, atau database. Anda juga dapat membuat katalog baru untuk menyimpan data di Amazon S3 atau Redshift Managed Storage (RMS). Data di SageMaker Lakehouse dapat diakses dari mesin yang kompatibel dengan Apache Iceberg seperti Apache Spark, Athena, atau Amazon EMR. Selain itu, Anda juga dapat terhubung ke dan menganalisis data di danau Anda menggunakan alat SQL. Data diamankan dengan mendefinisikan kontrol akses halus, yang diberlakukan di seluruh alat dan mesin yang mengakses data.

Kemampuan

Buka semua

SageMaker Lakehouse menyatukan kontrol akses ke data Anda dengan dua kemampuan: 1) SageMaker Lakehouse memungkinkan Anda untuk menentukan izin yang mendetail. Izin ini diberlakukan oleh mesin kueri, seperti Amazon EMR, Athena, dan Amazon Redshift. 2) SageMaker Lakehouse memungkinkan Anda untuk mendapatkan akses di tempat ke data Anda, yang menghilangkan kebutuhan untuk membuat salinan data. Anda dapat menyimpan satu salinan data dan satu set kebijakan kontrol akses untuk mendapatkan manfaat dari kontrol akses terperinci dan terpadu di SageMaker Lakehouse.

SageMaker Lakehouse dibangun di atas beberapa katalog teknis di Katalog Data AWS Glue, Lake Formation, dan Amazon Redshift untuk menyediakan akses data terpadu di seluruh danau data dan gudang data. SageMaker Lakehouse menggunakan Katalog Data AWS Glue dan Lake Formation untuk menyimpan definisi tabel dan izin. Izin terperinci Lake Formation tersedia untuk tabel yang ditentukan di SageMaker Lakehouse. Anda dapat mengelola definisi tabel di Katalog Data AWS Glue dan menentukan izin yang mendetail, seperti izin tingkat tabel, tingkat kolom, dan tingkat sel, untuk mengamankan data Anda. Selain itu, dengan menggunakan kemampuan berbagi data lintas akun, Anda dapat mengaktifkan berbagi data tanpa salinan agar data tersedia untuk kolaborasi yang aman.

Ya. Pustaka klien Apache Iceberg sumber terbuka diperlukan untuk mengakses SageMaker Lakehouse. Pelanggan yang menggunakan mesin sumber terbuka pihak ketiga atau yang dikelola sendiri, seperti Apache Spark atau Trino perlu menyertakan pustaka klien Apache Iceberg di mesin kueri mereka untuk mengakses SageMaker Lakehouse.

Ya, dengan pustaka klien Apache Iceberg, Anda dapat membaca dan menulis data ke Amazon Redshift yang ada dari mesin Apache Spark di layanan AWS, seperti Amazon EMR, AWS Glue, Amazon Athena, dan Amazon SageMaker atau Apache Spark pihak ketiga. Namun, Anda harus memiliki izin menulis yang sesuai pada tabel untuk menuliskan data kepada mereka.

Ya, Anda dapat menggabungkan tabel danau data di Amazon S3 dengan tabel di gudang data Amazon Redshift di beberapa basis data menggunakan mesin pilihan Anda, seperti Apache Spark.

Tabel Amazon S3 sekarang terintegrasi dengan mulus dengan SageMaker Lakehouse, sehingga memudahkan untuk menanyakan dan menggabungkan Tabel S3 dengan data di danau data S3, gudang data Amazon Redshift, dan sumber data pihak ketiga. SageMaker Lakehouse memberikan fleksibilitas untuk mengakses dan mengkueri data di tempat di seluruh Tabel S3, bucket S3, dan gudang Redshift menggunakan standar terbuka Apache Iceberg. Anda dapat mengamankan dan mengelola data Anda secara terpusat di danau dengan menetapkan izin mendetail, yang secara konsisten diterapkan di semua alat dan mesin analitik dan ML.

Integrasi nol-ETL

Buka semua

SageMaker Lakehouse memungkinkan dukungan untuk integrasi nol-ETL dengan Amazon DynamoDB, Amazon Aurora, dan Amazon RDS for MySQL, dan delapan aplikasi: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, iklan Facebook, iklan Instagram, Zendesk, dan SAP.

Anda dapat mengonfigurasi dan memantau integrasi nol-ETL melalui konsol AWS Glue dalam Pemrosesan Data Amazon SageMaker dengan AWS Glue. Setelah data diserap, Anda dapat mengakses dan mengkueri data dari mesin kueri yang kompatibel dengan Apache Iceberg. Untuk detail selengkapnya, kunjungi integrasi nol-ETL.

Untuk mempelajari selengkapnya tentang harga, kunjungi halaman harga SageMaker Lakehouse dan AWS Glue.

Harga

Buka semua

Kunjungi harga SageMaker Lakehouse untuk detailnya.

Ketersediaan

Buka semua

SageMaker Lakehouse tersedia di AS Timur (Virginia Utara), AS Timur (Ohio), As Barat (Oregon), Asia Pasifik (Hong Kong), Asia Pasifik (Seoul), Asia Pasifik (Singapura), Asia Pasifik (Sydney), Asia Pasifik (Tokyo), Kanada (Pusat), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Stockholm), dan Amerika Selatan (Sao Paulo).

Ya. SageMaker Lakehouse menyimpan metadata di Katalog Data AWS Glue dan menawarkan SLA yang sama dengan Amazon Glue.

Memulai

Buka semua

SageMaker Lakehouse dapat diakses dari Amazon SageMaker Unified Studio. Dari SageMaker Unified Studio, Anda dapat membuat proyek baru atau memilih proyek yang sudah ada. Dari proyek Anda, klik Data di navigasi kiri untuk melihat panel penjelajah data. Panel Data explorer memberi Anda tampilan data yang dapat Anda akses di SageMaker Lakehouse. Untuk membantu Anda memulai, katalog terkelola S3 default dibuat secara otomatis dengan proyek Anda di mana Anda dapat menambahkan file data baru ke rumah danau Anda. Selain itu, dari panel Data explorer, saat Anda mengklik (+) Tambahkan Data, Anda dapat terus membangun rumah danau Anda dengan membuat katalog terkelola tambahan di Redshift Managed Storage, terhubung ke sumber data federasi, atau mengungg ah data ke katalog terkelola Anda.

Jika Anda memiliki database dan katalog yang ada, Anda dapat men ambahkannya ke rumah danau dengan memberikan izin ke peran proyek Anda menggunakan AWS Lake Formation. Misalnya, Anda dapat membawa gudang data Amazon Redshift Anda ke SageMaker Lakehouse dengan mendaftarkan cluster Redshift atau namespace tanpa server dengan Glue Data Catalog. Anda kemudian dapat menerima undangan cluster atau namespace dan memberikan izin yang sesuai di Lake Formation untuk membuatnya tersedia untuk akses.

Tidak, Anda tidak perlu memigrasikan data Anda untuk menggunakan SageMaker Lakehouse. SageMaker Lakehouse memungkinkan Anda untuk mengakses dan menanyakan data Anda di tempatnya berada, dengan standar terbuka Apache Iceberg. Anda dapat mengakses data secara langsung di Amazon S3 data lake, S3 Tables, dan Amazon Redshift data warehouse. Anda juga dapat terhubung ke sumber data federasi seperti Snowflake dan gudang data Google BigQuery, serta database operasional seperti PostgreSQL dan SQL Server. Data dari database operasional dan aplikasi pihak ketiga dapat dibawa ke katalog terkelola di danau hampir real-time melalui integrasi Zero-ETL, tanpa harus memelihara infrastruktur atau saluran pipa yang kompleks. Selain itu, Anda dapat menggunakan ratusan konektor AWS Glue untuk diintegrasikan dengan sumber data yang ada. 

Untuk membawa gudang data Amazon Redshift Anda ke SageMaker Lakehouse, buka konsol manajemen Redshift, dan daftarkan cluster Redshift atau namespace tanpa server dengan Glue Data Catalog melalui menu drop-down Action. Anda kemudian dapat pergi ke Lake Formation, dan menerima undangan cluster atau namespace untuk membuat katalog federasi, dan memberikan izin yang sesuai untuk membuatnya tersedia untuk akses di SageMaker Lakehouse. Instruksi tersedia dalam dokumentasi di sini. Tugas ini juga dapat dilakukan menggunakan AWS Command Line Interface (AWS CLI), atau API/SDK.

Untuk membawa data lake S3 Anda ke SageMaker Lakehouse, Anda harus terlebih dahulu membuat katalog data lake S3 Anda di Katalog Data AWS Glue dengan mengikuti petunjuk di sini. Setelah Anda membuat katalog data lake Amazon S3 menggunakan Katalog Data AWS Glue, data Anda tersedia untuk diakses di SageMaker Lakehouse. Di AWS Lake Formation, Anda dapat memberikan izin ke peran proyek Unified Studio, untuk membuat danau data S3 tersedia untuk digunakan di SageMaker Unified Studio. 

Amazon SageMaker Lakehouse menyatukan akses semua data Anda di Amazon S3 data lake, gudang data Amazon Redshift, dan sumber data pihak ketiga. Amazon S3 Tables menghadirkan penyimpanan objek cloud pertama dengan dukungan Apache Iceberg bawaan. Amazon SageMaker Lakehouse terintegrasi dengan Amazon S3 Tables sehingga Anda dapat mengakses Tabel S3 dari layanan analisis AWS, seperti Amazon Redshift, Amazon Athena, Amazon EMR, AWS Glue, atau mesin yang kompatibel dengan Apache Iceberg (Apache Spark atau PyIceberg). SageMaker Lakehouse juga memungkinkan pengelolaan terpusat izin akses data yang halus untuk Tabel S3 dan data lainnya, dan secara konsisten menerapkannya di semua mesin.


Untuk memulai, navigasikan ke konsol Amazon S3 dan aktifkan integrasi bucket S3 Table dengan layanan analisis AWS. Setelah integrasi diaktifkan, navigasikan ke AWS Lake Formation untuk memberikan izin ke bucket Tabel S3 Anda ke peran proyek SageMaker Unified Studio Anda. Anda kemudian menggunakan layanan analitik terintegrasi di SageMaker Unified Studio untuk menanyakan, menganalisis data di Tabel S3. Anda bahkan dapat menggabungkan data dari Amazon S3 Tables dengan sumber lain, seperti gudang data Amazon Redshift, pihak ketiga, dan sumber data federasi (Amazon DynamoDB, Snowflake, atau PostgreSQL). 

SageMaker Lakehouse dapat diakses langsung dari Studio Terpadu Amazon SageMaker. SageMaker Unified Studio menyediakan pengalaman terintegrasi untuk mengakses semua data Anda dari SageMaker Lakehouse dan menggunakannya menggunakan alat AWS yang sudah dikenal untuk pengembangan model, AI generatif, pemrosesan data, dan analisis SQL. Untuk memulai, Anda dapat masuk ke domain SageMaker menggunakan kredenSIAL perusahaan Anda di SageMaker Unified Studio. Dalam beberapa langkah singkat di SageMaker Unified Studio, administrator dapat membuat proyek dengan memilih profil proyek tertentu. Anda kemudian dapat memilih proyek untuk bekerja dengan data di SageMaker Lakehouse. Setelah proyek dipilih, Anda mendapatkan tampilan data terpadu di rumah danau Anda di panel Data explorer, dan mengakses mesin kueri dan alat pengembang Anda di satu tempat.

SageMaker Lakehouse juga memberi Anda fleksibilitas untuk mengakses dan menanyakan data Anda dengan semua alat dan mesin yang kompatibel dengan Apache Iceberg. Anda dapat menggunakan alat analisis dan mesin pilihan Anda, seperti SQL, Apache Spark, intelijen bisnis (BI), dan alat AI/ML, dan berkolaborasi dengan data yang disimpan di SageMaker Lakehouse.

Ya. SageMaker Lakehouse memberi Anda fleksibilitas untuk mengakses dan memeriksa data Anda dengan semua alat dan mesin yang kompatibel dengan Apache Iceberg. Anda dapat menggunakan alat analisis dan mesin pilihan Anda, seperti SQL, Apache Spark, intelijen bisnis (BI), dan alat AI/ML, dan berkolaborasi dengan data yang disimpan di SageMaker Lakehouse.