Ana İçeriğe Atla

Amazon SageMaker Göl Evi

Lakehouse Architecture SSS

Yeni nesil Amazon SageMaker, tüm verilerinizi S3 Tabloları dahil olmak üzere Amazon Simple Storage Service (Amazon S3) veri gölleri ve Amazon Redshift veri ambarları genelinde birleştiren ve tek bir veri kopyası üzerinde güçlü analiz ve yapay zeka/makine öğrenimi uygulamaları oluşturmanızı sağlayan göl evi mimarisi üzerine inşa edilmiştir. Göl evi, tüm Apache Iceberg uyumlu araçlar ve motorlarla verilerinize erişme ve sorgulama esnekliği sağlar. Ayrıca Amazon DynamoDB, Google BigQuery ve Snowflake gibi birleştirilmiş veri kaynaklarına bağlanabilir ve verilerinizi yerinde sorgulayabilirsiniz. Sıfır ETL entegrasyonları yoluyla operasyonel veri tabanlarındaki ve uygulamalardaki verileri neredeyse gerçek zamanlı olarak veri göl evinize getirin. Tüm analitik ve ML araçları ve motorlarında uygulanan entegre, ince taneli erişim denetimleriyle verilerinizi koruyun. Amazon SageMaker ile veri mimarinizi değiştirmeden mevcut veri yatırımlarınız üzerine açık bir göl evi oluşturabilirsiniz.

SageMaker Lakehouse 3 temel avantaj sağlar:

a) Birleşik veri erişimi: SageMaker Lakehouse, Amazon S3 veri gölleri ve Amazon Redshift veri ambarları genelinde verilerinize birleşik erişim sağlayarak veri silolarını azaltır. Amazon DynamoDB, Google BigQuery ve Snowflake gibi birleştirilmiş veri kaynaklarına da bağlanabilirsiniz. Ek olarak, operasyonel veritabanlarından ve uygulamalardan gelen veriler, Zero-ETL entegrasyonları aracılığıyla neredeyse gerçek zamanlı olarak göl evinize alınabilir.

b) Açık kaynak uyumluluğu: SageMaker Lakehouse, çok çeşitli AWS hizmetlerinden ve Apache Iceberg ile uyumlu açık kaynaklı ve üçüncü taraf araç ve motorlardan tüm verilerinize yerinde erişme ve sorgulama esnekliği sağlar. SQL, Apache Spark, iş zekası (BI) ve yapay zeka/makine öğrenimi araçları gibi dilediğiniz analiz araçlarını ve altyapılarını kullanabilir ve Amazon S3 veya Amazon Redshift'te depolanan verilerin tek bir kopyası üzerinden iş birliği yapabilirsiniz.

c) Güvenli veri erişimi: SageMaker Lakehouse, verilerinize entegre ince taneli erişim kontrolü sağlar. Bu, temel depolama biçimlerinden veya kullanılan sorgu motorlarından bağımsız olarak izinleri tanımlayabileceğiniz ve bunları tüm analitik ve ML araçları ve motorlarında tutarlı bir şekilde uygulayabileceğiniz anlamına gelir.

Amazon SageMaker Unified Studio'dan doğrudan erişilebilen SageMaker Lakehouse, veri alanınızdaki verileri birleştiren açık bir göl evi mimarisidir. Farklı kaynaklardan gelen veriler, SageMaker Göl Evi'nde katalog adı verilen mantıksal container'larda düzenlenir. Her katalog Amazon Redshift veri ambarları, S3 veri gölleri veya veritabanları gibi kaynakları temsil eder. Ayrıca, verileri Amazon S3 veya Redshift Yönetilen Depolama'da (RMS) depolamak için yeni kataloglar oluşturabilirsiniz. SageMaker Lakehouse'daki verilere Apache Spark, Athena veya Amazon EMR gibi Apache Iceberg uyumlu motorlardan erişilebilir. Ek olarak, SQL araçlarını kullanarak göl evinizdeki verilere bağlanıp bunları analiz edebilirsiniz. Veriler, verilere erişen araçlar ve motorlar arasında uygulanan ince taneli erişim denetimleri tanımlanarak güvence altına alınır.

Özellikler

Tümünü aç

SageMaker Lakehouse, verilerinize erişim denetimini şu iki özellik yoluyla birleştirir: 1) SageMaker Lakehouse, ayrıntılı izinler tanımlamanıza olanak tanır. Bu izinler Amazon EMR, Athena ve Amazon Redshift gibi sorgu altyapıları tarafından uygulanır. 2) SageMaker Lakehouse, verilerinize yerinde erişim sağlamanıza olanak tanıyarak verilerin kopyalarını oluşturma ihtiyacını ortadan kaldırır. SageMaker Lakehouse'ta birleşik ayrıntılı erişim denetiminden yararlanmak için verilerin tek bir kopyasını ve tek bir erişim denetimi politikası kümesi tutabilirsiniz.

SageMaker Lakehouse, veri gölleri ve veri ambarları genelinde birleşik veri erişimi sağlamak için AWS Glue Veri Kataloğu, Lake Formation ve Amazon Redshift'teki birden fazla teknik katalog üzerine kurulmuştur. SageMaker Lakehouse, tablo tanımlarını ve izinlerini depolamak için AWS Glue Veri Kataloğu'nu ve Lake Formation'ı kullanır. Lake Formation ayrıntılı izinleri, SageMaker Lakehouse'ta tanımlanan tablolar için kullanılabilir. Tablo tanımlarınızı AWS Glue Veri Kataloğu'nda yönetebilir ve verilerinizi güvence altına almak için tablo düzeyinde, sütun düzeyinde ve hücre düzeyinde izinler gibi ayrıntılı izinler tanımlayabilirsiniz. Ayrıca, hesaplar arası veri paylaşımı özelliklerini kullanarak, verileri güvenli iş birliği için kullanılabilir hale getirmek üzere sıfır kopya veri paylaşımını etkinleştirebilirsiniz.

Evet. SageMaker Lakehouse'a erişmek için açık kaynak Apache Iceberg istemci kitaplığı gereklidir. Apache Spark veya Trino gibi üçüncü taraf veya kendi kendini yöneten açık kaynak altyapıları kullanan müşterilerin, SageMaker Lakehouse'a erişmek için sorgu altyapılarına Apache Iceberg istemci kitaplığını eklemeleri gerekir.

Evet, bir Apache Iceberg istemci kitaplığını kullanarak Amazon EMR, AWS Glue, Athena ve Amazon SageMaker gibi AWS hizmetlerindeki Apache Spark altyapılarından veya üçüncü taraf Apache Spark'tan mevcut Amazon Redshift veri ambarınızdaki verileri okuyabilir ve bu konuma veri yazabilirsiniz. Ancak, tablolara veri yazmak için bunlarla ilgili uygun yazma izinlerine sahip olmanız gerekir.

Evet. Apache Spark gibi dilediğiniz bir altyapıyı kullanarak Amazon S3'teki veri gölü tablolarınızı, birden çok veri tabanı genelinde Amazon Redshift veri ambarınızdaki tablolarla birleştirebilirsiniz.

Amazon S3 Tablolar artık SageMaker Lakehouse ile sorunsuz bir şekilde entegre oluyor ve S3 veri göllerindeki, Amazon Redshift veri ambarlarındaki ve üçüncü taraf veri kaynaklarındaki verilerle S3 Tablolarını sorgulamayı ve birleştirmeyi kolaylaştırıyor. SageMaker Göl Evi, Apache Iceberg açık standardını kullanarak S3 Tabloları, S3 bucket'ları ve Redshift depolarında verilere yerinde erişim ile sorgulama esnekliği sağlar. Tüm analiz, makine öğrenimi araçları ve altyapılarında tutarlı bir şekilde uygulanan ayrıntılı izinler tanımlayarak göl evindeki verilerinizi güvence altına alabilir ve merkezi olarak yönetebilirsiniz.

Sıfır ETL entegrasyonları

Tümünü aç

SageMaker Lakehouse; Amazon DynamoDB, Amazon Aurora ve MySQL İçin Amazon RDS ile sıfır ETL entegrasyonları ve şu sekiz uygulama için destek sağlar: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, Facebook ads, Instagram ads, Zendesk ve SAP.

Sıfır ETL entegrasyonlarınızı, AWS Glue ile Amazon SageMaker Veri İşleme içindeki AWS Glue konsolu üzerinden yapılandırıp izleyebilirsiniz. Veriler alındıktan sonra Apache Iceberg uyumlu sorgu altyapılarından verilere erişebilir ve verileri sorgulayabilirsiniz. Daha fazla bilgi için Sıfır ETL entegrasyonlarına bakın.

Fiyatlandırma hakkında daha fazla bilgi edinmek için SageMaker Lakehouse ve AWS Glue fiyatlandırma sayfalarını ziyaret edin.

Fiyatlandırma

Tümünü aç

Ayrıntılar için SageMaker Lakehouse fiyatlandırmasını ziyaret edin.

Erişilebilirlik

Tümünü aç

SageMaker Lakehouse; ABD Doğu (K. Virginia), ABD Doğu (Ohio), ABD Batı (Oregon), Asya Pasifik (Hong Kong), Asya Pasifik (Seul), Asya Pasifik (Singapur), Asya Pasifik (Sidney), Asya Pasifik (Tokyo), Kanada (Orta), Avrupa (Frankfurt), Avrupa (İrlanda), Avrupa (Londra), Avrupa (Stokholm) ve Güney Amerika (Sao Paulo) bölgelerinde kullanılabilir.

Evet. SageMaker Lakehouse, meta verileri AWS Glue Veri Kataloğu'nda depolar ve Amazon Glue ile aynı SLA'yı sunar.

Kullanmaya başlama

Tümünü aç

SageMaker Lakehouse'a Amazon SageMaker Unified Studio'dan erişilebilir. SageMaker Unified Studio'dan yeni bir proje oluşturabilir veya mevcut bir projeyi seçebilirsiniz. Projenizden, Veri gezgini panelini görüntülemek için sol gezinme alanındaki Verileri tıklayın. Veri gezgini paneli, SageMaker Lakehouse'da erişiminiz olan verilerin bir görünümünü sunar. Başlamanıza yardımcı olmak için, projenizle birlikte göl evinize yeni veri dosyaları ekleyebileceğiniz varsayılan bir S3 yönetilen kataloğu otomatik olarak oluşturulur. Buna ek olarak, Veri gezgini panelinden (+) Veri Ekle'yi tıklattığınızda, Redshift Yönetilen Depolama'da ek yönetilen kataloglar oluşturarak, birleştirilmiş veri kaynaklarına bağlan arak veya yönetilen katalog larınıza veri yük leyerek göl evinizi oluşturmaya devam edebilirsiniz.

Mevcut veritabanlarınız ve kataloglarınız varsa AWS Lake Formas yon'u kullanarak proje rolünüze izin vererek bunları göl evine ekleyebilirsiniz. Örneğin, Redshift kümesini veya sunucusuz ad alanını Glue Data Catalog ile kaydettirerek Amazon Redshift veri ambarınızı SageMaker Lakehouse'a getirebilirsiniz. Daha sonra küme veya ad alanı davetini kabul edebilir ve Lake Formasyon'da erişime açık hale getirmek için uygun izinleri verebilirsiniz.

Hayır, SageMaker Lakehouse'u kullanmak için verilerinizi taşımak zorunda değilsiniz. SageMaker Lakehouse, Apache Iceberg'in açık standardı ile verilerinize yerinde erişmenizi ve bunları sorgulamanızı sağlar. Verilerinize Amazon S3 veri gölleri, S3 Tablolar ve Amazon Redshift veri ambarlarından doğrudan erişebilirsiniz. Ayrıca Snowflake ve Google BigQuery veri ambarları gibi birleştirilmiş veri kaynaklarına ve PostgreSQL ve SQL Server gibi operasyonel veritabanlarına da bağlanabilirsiniz. Operasyonel veritabanlarından ve üçüncü taraf uygulamalardan gelen veriler, altyapıyı veya karmaşık boru hatlarını korumak zorunda kalmadan, sıfır ETL entegrasyonları aracılığıyla göl evindeki yönetilen kataloglara neredeyse gerçek zamanlı olarak getirilebilir. Bunlara ek olarak, mevcut veri kaynaklarınızla entegrasyonu sağlamak için yüzlerce AWS Glue bağlayıcısını kullanabilirsiniz. 

Amazon Redshift veri ambarınızı SageMaker Lakehouse'a getirmek için Redshift yönetim konsoluna gidin ve Eylem açılır menüsünden Redshift kümesini veya sunucusuz ad alanını Glue Data Catalog ile kaydedin. Daha sonra Lake Formasyon'a gidebilir ve birleştirilmiş bir katalog oluşturmak için küme veya ad alanı davetini kabul edebilir ve SageMaker Lakehouse'da erişime açık hale getirmek için uygun izinleri verebilirsiniz. Talimatlar bur adaki belgelerde mevcuttur. Bu görevler AWS Komut Satırı Arabirimi (AWS CLI) veya API/SDK'lar kullanılarak da gerçekleştirilebilir.

S3 veri gölünüzü SageMaker Lakehouse'a taşımak için önce buradaki talimatları izleyerek S3 veri gölünüzü AWS Glue Veri Kataloğu'nda kataloglamanız gerekir. Amazon S3 veri gölünüzü AWS Glue Data Catalog'u kullanarak katalogladıktan sonra verilerinize SageMaker Lakehouse'da erişilebilir hale gelir. AWS Lake Formation'da, S3 veri gölünü SageMaker Unified Studio'da kullanıma hazır hale getirmek için Unified Studio proje rolüne izin verebilirsiniz. 

Amazon SageMaker Lakehouse, Amazon S3 veri gölleri, Amazon Redshift veri ambarları ve üçüncü taraf veri kaynakları genelinde tüm verilerinize erişimi birleştirir. Amazon S3 Tables, yerleşik Apache Iceberg desteğine sahip ilk bulut nesne deposunu sunar. Amazon SageMaker Lakehouse, Amazon S3 Tablolarıyla entegre olur, böylece Amazon Redshift, Amazon Athena, Amazon EMR, AWS Glue veya Apache Iceberg uyumlu motorlar (Apache Spark veya PyIceberg) gibi AWS analiz hizmetlerinden S3 Tablolarına erişebilirsiniz. SageMaker Lakehouse ayrıca S3 Tabloları ve diğer veriler için ince taneli veri erişim izinlerinin merkezi yönetimini sağlar ve bunları tüm motorlara tutarlı bir şekilde uygular.


Başlamak için Amazon S3 konsoluna gidin ve S3 Table klasörünün AWS analiz hizmetleriyle entegrasyonunu etkinleştirin. Tümleştirme etkinleştirildikten sonra, SageMaker Unified Studio proje rolünüze S3 Table klasörünüze izin vermek için AWS Lake Formasyon'a gidin. Daha sonra S3 Tablolarındaki verileri sorgulamak ve analiz etmek için SageMaker Unified Studio'daki tümleşik analiz hizmetlerini kullanın. Amazon S3 Tabloları'ndaki verileri Amazon Redshift veri ambarları, üçüncü taraf ve birleştirilmiş veri kaynakları (Amazon DynamoDB, Snowflake veya PostgreSQL) gibi diğer kaynaklarla bile birleştirebilirsiniz. 

SageMaker Göl Evi'ne doğrudan Amazon SageMaker Birleşik Stüdyosu'ndan erişilebilir. SageMaker Unified Studio, SageMaker Lakehouse'dan tüm verilerinize erişmek ve model geliştirme, üretken yapay zeka, veri işleme ve SQL analitiği için tanıdık AWS araçlarını kullanarak bunları çalıştırmak için entegre bir deneyim sunar. Başlamak için SageMaker Unified Studio'daki kurumsal kimlik bilgilerinizi kullanarak SageMaker etki alanınızda oturum açabilirsiniz. Yöneticiler SageMaker Birleşik Stüdyosu'nda belirli bir proje profilini seçerek birkaç kısa adımda projeler oluşturabilir. Daha sonra SageMaker Lakehouse'da verilerle çalışmak için bir proje seçebilirsiniz. Bir proje seçildikten sonra, Veri gezgini panelinde göl evinizdeki verilerin birleşik bir görünümünü elde edersiniz ve sorgu motorlarınıza ve geliştirici araçlarınıza tek bir yerden erişirsiniz.

SageMaker Lakehouse ayrıca tüm Apache Iceberg uyumlu araç ve motorlarla verilerinize erişme ve sorgulama esnekliği sağlar. SQL, Apache Spark, iş zekası (BI) ve AI/ML araçları gibi seçtiğiniz analiz araçlarını ve motorlarını kullanabilir ve SageMaker Lakehouse'da depolanan verilerle işbirliği yapabilirsiniz.

Evet. SageMaker Göl Evi, Apache Iceberg ile uyumlu tüm araç ve altyapıları kullanarak verilerinize erişme ve verilerinizi sorgulama esnekliğini tanır. SQL, Apache Spark, iş zekası (BI) ve AI/ML araçları gibi seçtiğiniz analiz araçlarını ve motorlarını kullanabilir ve SageMaker Lakehouse'da depolanan verilerle işbirliği yapabilirsiniz.