ข้ามไปที่เนื้อหาหลัก

คำถามที่พบบ่อยเกี่ยวกับสถาปัตยกรรมเลคเฮ้า

ข้อมูลทั่วไป

เปิดทั้งหมด

Amazon SageMaker Lakehouse รุ่นใหม่สร้างขึ้นบนสถาปัตยกรรม Lakehouse แบบเปิดที่รวมข้อมูลทั้งหมดของคุณใน Data Lake ของ Amazon Simple Storage Service (Amazon S3) รวมถึง S3 Tables และคลังข้อมูล Amazon Redshift ซึ่งช่วยให้คุณสร้างการวิเคราะห์และแอปพลิเคชัน AI/ML ที่มีประสิทธิภาพบนสำเนาข้อมูลเดียว บ้านทะเลสาบให้ความยืดหยุ่นในการเข้าถึงและสืบค้นข้อมูลของคุณด้วยเครื่องมือและเครื่องมือที่รองรับ Apache Iceberg ทั้งหมด นอกจากนี้คุณยังสามารถเชื่อมต่อกับแหล่งข้อมูลแบบรวมกลุ่มเช่น Amazon DynamoDB, Google BigQuery และ Snowflake และสืบค้นข้อมูลของคุณในสถานที่ นำข้อมูลจากฐานข้อมูลการดำเนินงานและแอปพลิเคชันเข้าสู่ Lakehouse ของคุณแบบใกล้เรียลไทม์ผ่านการบูรณาการ ETL แบบไร้รอยต่อ รักษาความปลอดภัยข้อมูลของคุณด้วยการควบคุมการเข้าถึงแบบละเอียดแบบบูรณาการ ซึ่งบังคับใช้ในเครื่องมือและเครื่องมือวิเคราะห์และ ML ทั้งหมด ด้วย Amazon SageMaker คุณสามารถสร้างบ้านทะเลสาบแบบเปิดด้วยการลงทุนข้อมูลที่มีอยู่ของคุณโดยไม่ต้องเปลี่ยนสถาปัตยกรรมข้อมูลของคุณ

SageMaker Lakehouse มีสิทธิประโยชน์หลัก 3 ประการ:

ก) การ เข้าถึงข้อมูล แบบครบวงจร: SageMaker Lakehouse ช่วยลดไซโลข้อมูลโดยให้การเข้าถึงข้อมูลของคุณแบบครบวงจรผ่านทะเลสาบข้อมูล Amazon S3 และคลังข้อมูลของ Amazon Redshift นอกจากนี้คุณยังสามารถเชื่อมต่อกับแหล่งข้อมูลแบบรวมกลุ่มเช่น Amazon DynamoDB, Google BigQuery และ Snowflake นอกจากนี้ ข้อมูลจากฐานข้อมูลการดำเนินงานและแอปพลิเคชันสามารถเข้าสู่บ้านทะเลสาบของคุณได้ในเวลาจริงผ่านการผสานรวม Zero-ETL

b) ความ เข้ากันได้แบบโอ เพ่นซอร์ส: SageMaker Lakehouse ให้ความยืดหยุ่นในการเข้าถึงและสืบค้นข้อมูลทั้งหมดของคุณในสถานที่ จากบริการ AWS ที่หลากหลายและเครื่องมือและเครื่องมือโอเพนซอร์สและบุคคลที่สามที่เข้ากันได้กับ Apache Iceberg คุณสามารถใช้เครื่องมือการวิเคราะห์และเครื่องมือที่คุณต้องการ เช่น SQL, Apache Spark, ระบบธุรกิจอัจฉริยะ (BI) และเครื่องมือ AI/ML และทำงานร่วมกับข้อมูลสำเนาเดียวที่จัดเก็บไว้บน Amazon S3 หรือ Amazon Redshift

c) การ เข้าถึงข้อมูลที่ปลอดภัย: SageMaker Lakehouse ให้การควบคุมการเข้าถึงข้อมูลของคุณอย่างละเอียดแบบบูรณาการ ซึ่งหมายความว่าคุณสามารถกำหนดสิทธิ์และนำสิทธิ์ไปใช้ได้อย่างสม่ำเสมอในเครื่องมือและเครื่องมือวิเคราะห์และ ML ทั้งหมด โดยไม่คำนึงถึงรูปแบบการจัดเก็บข้อมูลพื้นฐานหรือเครื่องมือแบบสอบถามที่ใช้

SageMaker Lakehouse สามารถเข้าถึงได้โดยตรงจาก Amazon SageMaker Unified Studio เป็นสถาปัตยกรรมโอเพ่นเลคเฮาส์ที่รวมข้อมูลทั่วเอสเตทข้อมูลของคุณ ข้อมูลจากแหล่งต่าง ๆ จะได้รับการจัดระเบียบไว้ในคอนเทนเนอร์เชิงตรรกะที่เรียกว่าแค็ตตาล็อกใน SageMaker Lakehouse แต่ละแคตตาล็อกแสดงถึงแหล่งที่มาเช่นคลังข้อมูลของ Amazon Redshift, ทะเลสาบข้อมูล S3 หรือฐานข้อมูล คุณยังสามารถสร้างแคตตาล็อกใหม่เพื่อจัดเก็บข้อมูลใน Amazon S3 หรือ Redshift Managed Storage (RMS) ข้อมูลใน SageMaker Lakehouse สามารถเข้าถึงได้จากเครื่องยนต์ที่รองรับ Apache Iceberg เช่น Apache Spark, Athena หรือ Amazon EMR นอกจากนี้คุณยังสามารถเชื่อมต่อและวิเคราะห์ข้อมูลในบ้านทะเลสาบของคุณโดยใช้เครื่องมือ SQL ข้อมูลได้รับการรักษาความปลอดภัยโดยการกำหนดการควบคุมการเข้าถึงแบบละเอียดซึ่งถูกบังคับใช้ในเครื่องมือและเครื่องมือที่เข้าถึงข้อมูล

ความสามารถ

เปิดทั้งหมด

SageMaker Lakehouse รวมการควบคุมการเข้าถึงข้อมูลของคุณด้วยความสามารถ 2 ประการ: 1) SageMaker Lakehouse ช่วยให้คุณสามารถกำหนดการอนุญาตแบบละเอียดได้ สิทธิ์เหล่านี้ได้รับการบังคับใช้โดยเครื่องมือสืบค้นเช่น Amazon EMR, Athena และ Amazon Redshift 2) SageMaker Lakehouse ช่วยให้คุณเข้าถึงข้อมูลของคุณในตำแหน่งเดิมโดยไม่ต้องสร้างสำเนาข้อมูล คุณสามารถเก็บรักษาสำเนาข้อมูลชุดเดียวและนโยบายการควบคุมการเข้าถึงชุดเดียว เพื่อรับประโยชน์จากการควบคุมการเข้าถึงแบบละเอียดแบบครบวงจรใน SageMaker Lakehouse

SageMaker Lakehouse สร้างขึ้นจากแค็ตตาล็อกทางเทคนิคหลายรายการในแค็ตตาล็อกข้อมูลของ AWS Glue, Lake Formation และ Amazon Redshift เพื่อให้การเข้าถึงข้อมูลแบบครบวงจรผ่าน Data Lake ข้อมูลและคลังข้อมูล SageMaker Lakehouse ใช้แค็ตตาล็อกข้อมูลของ AWS Glue และ Lake Formation เพื่อจัดเก็บคำจำกัดความตารางและสิทธิ์ สิทธิ์การเข้าถึงแบบละเอียดของ Lake Formation สามารถใช้ได้กับตารางที่กำหนดใน SageMaker Lakehouse คุณสามารถจัดการคำจำกัดความตารางของคุณใน แค็ตตาล็อกข้อมูลของ AWS Glue และกำหนดสิทธิ์แบบละเอียด เช่น สิทธิ์ระดับตาราง ระดับคอลัมน์ และระดับเซลล์ เพื่อรักษาความปลอดภัยของข้อมูล นอกจากนี้ การใช้ความสามารถในการแชร์ข้อมูลข้ามบัญชี คุณสามารถเปิดใช้งานการแชร์ข้อมูลแบบ zero-copy เพื่อให้ข้อมูลพร้อมใช้งานเพื่อการทำงานร่วมกันอย่างปลอดภัย

ได้ คุณจำเป็นต้องใช้ไลบรารีไคเอนต์ Apache Iceberg แบบโอเพนซอร์ส เพื่อเข้าถึง SageMaker Lakehouse ลูกค้าที่ใช้เครื่องมือโอเพนซอร์สของบุคคลที่สามหรือที่จัดการด้วยตนเอง เช่น Apache Spark หรือ Trino จะต้องรวมไลบรารีไคลเอนต์ Apache Iceberg ไว้ในเครื่องมือสืบค้นเพื่อเข้าถึง SageMaker Lakehouse

ได้ คุณสามารถอ่านและเขียนข้อมูลไปยัง Amazon Redshift ที่มีอยู่จากเครื่องมือ Apache Spark บนบริการ AWS เช่น Amazon EMR, AWS Glue, Athena และ Amazon SageMaker หรือ Apache Spark ของบุคคลที่สามได้โดยใช้ไลบรารีไคลเอนต์ Apache Iceberg อย่างไรก็ตาม คุณต้องมีสิทธิ์การเขียนที่เหมาะสมบนตารางจึงจะเขียนข้อมูลลงในตารางได้

ได้ คุณสามารถรวมตาราง Data Lake ของคุณบน Amazon S3 เข้ากับตารางในคลังข้อมูล Amazon Redshift ได้ทั่วทั้งฐานข้อมูลหลาย ๆ ฐานโดยใช้เครืองมือที่คุณเลือก เช่น Apache Spark

Amazon S3 Tables ผสานเข้ากับ SageMaker Lakehouse ได้อย่างราบรื่น ทำให้สามารถสืบค้นและเชื่อมต่อ S3 Tables กับข้อมูลในทะเลสาบข้อมูล S3 คลังข้อมูล Amazon Redshift และแหล่งข้อมูลของบุคคลที่สาม SageMaker Lakehouse ให้ความยืดหยุ่นในการเข้าถึงและสืบค้นข้อมูลแบบ In-place ทั่วทั้งตาราง S3, บัคเก็ต S3 และคลัง Redshift โดยใช้มาตรฐานแบบเปิดของ Apache Iceberg คุณสามารถรักษาความปลอดภัยและจัดการข้อมูลของคุณจากส่วนกลางใน Lakehouse ได้ด้วยการปรับแต่งสิทธิ์แบบละเอียด ซึ่งจะมีการนำไปใช้กับเครื่องมือและกลไกการวิเคราะห์และ ML ทั้งหมดอย่างสม่ำเสมอ

การบูรณาการ ETL แบบไร้รอยต่อ

เปิดทั้งหมด

SageMaker Lakehouse รองรับการบูรณาการ ETL แบบไร้รอยต่อกับ Amazon DynamoDB, Amazon Aurora และ Amazon RDS สำหรับ MySQL และแอปพลิเคชัน 8 รายการ ได้แก่ Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, โฆษณาบน Facebook, โฆษณาบน Instagram, Zendesk และ SAP

คุณสามารถกำหนดค่าและตรวจสอบการบูรณาการ ETL แบบไร้รอยต่อของคุณผ่านคอนโซล AWS Glue ภายในการประมวลผลข้อมูลของ Amazon SageMaker ด้วย AWS Glue ได้ เมื่อข้อมูลได้รับการนำเข้าแล้ว คุณสามารถเข้าถึงและสืบค้นข้อมูลจากเครื่องมือสืบค้นที่เข้ากันได้กับ Apache Iceberg สำหรับรายละเอียดเพิ่มเติม ไปยังการผสานรวม ETL แบบไร้รอยต่อ

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับราคา โปรดไปที่หน้าราคา SageMaker Lakehouse และ AWS Glue

ดูรายละเอียดได้ที่หน้าราคา SageMaker Lakehouse

ความพร้อมใช้งาน

เปิดทั้งหมด

SageMaker Lakehouse มีให้บริการในสหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียฝั่งเหนือ) สหรัฐอเมริกาฝั่งตะวันออก (โอไฮโอ) สหรัฐอเมริกาฝั่งตะวันตก (ออริกอน) เอเชียแปซิฟิก (ฮ่องกง) เอเชียแปซิฟิก (โซล) เอเชียแปซิฟิก (สิงคโปร์) เอเชียแปซิฟิก (ซิดนีย์) เอเชียแปซิฟิก (โตเกียว) แคนาดา (ภาคกลาง) ยุโรป (แฟรงก์เฟิร์ต) ยุโรป (ไอร์แลนด์) ยุโรป (ลอนดอน) ยุโรป (สตอกโฮล์ม) และอเมริกาใต้ (เซาเปาลู)

ได้ SageMaker Lakehouse จัดเก็บข้อมูลเมตาในแค็ตตาล็อกข้อมูลของ AWS Glue และมี SLA เดียวกันกับ Amazon Glue

เริ่มต้นใช้งาน

เปิดทั้งหมด

เซจเมคเกอร์ เลคเฮาส์ สามารถเข้าถึงได้จาก Amazon SageMaker Unified Studio จาก SageMaker Unified Studio คุณสามารถสร้างโครงการใหม่หรือเลือกโครงการที่มีอยู่ได้ จากโครงการของคุณ ให้คลิกที่ข้อมูลที่การนำทางด้านซ้ายเพื่อดูแผงสำรวจข้อมูล แผงสำรวจข้อมูลช่วยให้คุณสามารถดูข้อมูลที่คุณเข้าถึงได้ใน SageMaker Lakehouse เพื่อช่วยให้คุณเริ่มต้น แคตตาล็อกที่มีการจัดการ S3 เริ่มต้นจะถูกสร้างขึ้นโดยอัตโนมัติกับโครงการของคุณซึ่งคุณสามารถเพิ่มไฟล์ข้อมูลใหม่ลงในบ้านทะเลสาบของคุณได้ นอกจากนี้ จากแผงสำรวจข้อมูล เมื่อคุณคลิก (+) เพิ่มข้อมูล คุณสามารถสร้างบ้านทะเลสาบของคุณต่อไปโดยการสร้างแคตตาล็อกที่มีการจัดการเพิ่มเติมใน Redshift Managed Stor age เชื่อมต่อ กับแหล่งข้อมูลแบบรวมศูนย์ หรือ อัปโหลดข้อมูล ไปยังแคตตาล็อกที่มีการจัดการของคุณ

หากคุณมีฐานข้อมูลและแคตตาล็อกที่มีอยู่ คุณสามารถ เพิ่มลงใน บ้านทะเลสาบได้โดยการให้สิทธิ์ให้กับบทบาทโครงการของคุณโดยใช้ AWS Lake Formation ตัวอย่างเช่น คุณสามารถนำคลังข้อมูล Amazon Redshift ของคุณไปยัง SageMaker Lakehouse ได้โดยการลงทะเบียนคลัสเตอร์ Redshift หรือเนมสเปซไร้เซิร์ฟเวอร์ด้วย Glue Data Catalog จากนั้นคุณสามารถยอมรับคำเชิญคลัสเตอร์หรือเนมสเปซ และให้สิทธิ์ที่เหมาะสมใน Lake Formation เพื่อให้สามารถเข้าถึงได้

ไม่ คุณไม่จำเป็นต้องย้ายข้อมูลของคุณเพื่อใช้ SageMaker Lakehouse SageMaker Lakehouse ช่วยให้คุณสามารถเข้าถึงและสืบค้นข้อมูลของคุณในตำแหน่งเดิมด้วยมาตรฐานที่เปิดกว้างของ Apache Iceberg คุณสามารถเข้าถึงข้อมูลของคุณได้โดยตรงในคลังข้อมูล Amazon S3, S3 Tables และคลังข้อมูล Amazon Redshift นอกจากนี้คุณยังสามารถเชื่อมต่อกับแหล่งข้อมูลแบบรวมกลุ่มเช่น คลังข้อมูล Snowflake และ Google BigQuery รวมถึงฐานข้อมูลการดำเนินงานเช่น PostgreSQL และ SQL Server ข้อมูลจากฐานข้อมูลการดำเนินงานและแอปพลิเคชันของบุคคลที่สามสามารถนำเข้าสู่แคตตาล็อกที่มีการจัดการในบ้านทะเลสาบได้เกือบเรียลไทม์ผ่านการผสานรวม Zero-ETL โดยไม่ต้องบำรุงรักษาโครงสร้างพื้นฐานหรือท่อที่ซับซ้อน นอกจากสิ่งเหล่านี้แล้ว คุณสามารถใช้ตัวเชื่อมต่อ AWS Glue หลายร้อยตัวเพื่อผสานรวมกับแหล่งที่มาของข้อมูลที่มีอยู่ของคุณ 

หากต้องการนำคลังข้อมูล Amazon Redshift ของคุณไปที่ SageMaker Lakehouse ให้ไปที่คอนโซลการจัดการ Redshift และลงทะเบียนคลัสเตอร์ Redshift หรือเนมสเปซไร้เซิร์ฟเวอร์ด้วย Glue Data Catalog ผ่านเมนูแบบเลื่อนลง Action จากนั้นคุณสามารถไปที่ Lake Formation และยอมรับคำเชิญคลัสเตอร์หรือเนมสเปซเพื่อสร้างแคตตาล็อกแบบสหพันธรัฐ และให้สิทธิ์ที่เหมาะสมเพื่อให้สามารถเข้าถึงได้ใน SageMaker Lakehouse คำแนะนำมีอยู่ในเอกสาร ที่ นี่ งานเหล่านี้ยังสามารถทำได้โดยใช้อินเทอร์เฟซบรรทัดคำสั่ง AWS (AWS CLI) หรือ APIS/SDK

ในการนำทะเลสาบข้อมูล S3 ของคุณไปที่ SageMaker Lakehouse คุณต้องแคตตาล็อกทะเลสาบข้อมูล S3 ของคุณใน AWS Glue Data Catalog โดยทำตามคำแนะนำที่นี่ เมื่อคุณจัดแคตตาล็อกข้อมูลของ Amazon S3 ของคุณโดยใช้แคตตาล็อกข้อมูล AWS Glue ข้อมูลของคุณจะพร้อมใช้งานใน SageMaker Lakehouse ใน AWS Lake Formation คุณสามารถมอบสิทธิ์ให้กับบทบาทโครงการ Unified Studio เพื่อให้ทะเลสาบข้อมูล S3 พร้อมใช้งานใน SageMaker Unified Studio 

Amazon SageMaker Lakehouse รวมการเข้าถึงข้อมูลทั้งหมดของคุณผ่านทะเลสาบข้อมูล Amazon S3 คลังข้อมูล Amazon Redshift และแหล่งข้อมูลของบุคคลที่สาม Amazon S3 Tables นำเสนอร้านค้าวัตถุบนคลาวด์แห่งแรกพร้อมรองรับ Apache Iceberg ในตัว Amazon SageMaker Lakehouse ผสานเข้ากับ Amazon S3 Tables เพื่อให้คุณสามารถเข้าถึง S3 Tables จากบริการวิเคราะห์ AWS เช่น Amazon Redshift, Amazon Athena, Amazon EMR, AWS Glue หรือเครื่องยนต์ที่รองรับ Apache Iceberg (Apache Spark หรือ PyIceberg) SageMaker Lakehouse ยังช่วยให้สามารถจัดการสิทธิ์การเข้าถึงข้อมูลแบบละเอียดแบบละเอียดแบบรวมศูนย์สำหรับตาราง S3 และข้อมูลอื่น ๆ และนำไปใช้กับทุกเครื่องยนต์อย่างสม่ำเสมอ


ในการเริ่มต้นให้ไปที่คอนโซล Amazon S3 และเปิดใช้งานการรวมถังโต๊ะ S3 กับบริการวิเคราะห์ AWS เมื่อเปิดใช้งานการรวมแล้ว ให้ไปที่ AWS Lake Formation เพื่อมอบสิทธิ์ให้กับถังโต๊ะ S3 ของคุณให้กับบทบาทโครงการ SageMaker Unified Studio ของคุณ จากนั้นคุณจะใช้บริการวิเคราะห์แบบบูรณาการใน SageMaker Unified Studio เพื่อสืบค้นวิเคราะห์ข้อมูลใน S3 Tables คุณยังสามารถรวมข้อมูลจาก Amazon S3 Tables กับแหล่งอื่น ๆ เช่นคลังข้อมูลของ Amazon Redshift แหล่งข้อมูลของบุคคลที่สามและแบบรวมศูนย์ (Amazon DynamoDB, Snowflake หรือ PostgreSQL) 

Amazon SageMaker Lakehouse สามารถเข้าถึงได้โดยตรงจากสตูดิโอแบบครบวงจรของ Amazon SageMaker SageMaker Unified Studio มอบประสบการณ์แบบบูรณาการเพื่อเข้าถึงข้อมูลทั้งหมดของคุณจาก SageMaker Lakehouse และนำไปใช้งานโดยใช้เครื่องมือ AWS ที่คุ้นเคยสำหรับการพัฒนาแบบจำลอง AI แบบสร้าง การประมวลผลข้อมูล และการวิเคราะห์ SQL ในการเริ่มต้น คุณสามารถเข้าสู่โดเมน SageMaker ของคุณโดยใช้ข้อมูลประจำตัวขององค์กรของคุณบน SageMaker Unified Studio ผู้ดูแลระบบสามารถสร้างโปรเจกต์ใหม่ใน SageMaker Unified Studio ได้อย่างรวดเร็ว โดยเลือกโปรไฟล์โปรเจกต์ที่ต้องการ จากนั้นคุณสามารถเลือกโครงการเพื่อทำงานกับข้อมูลใน SageMaker Lakehouse เมื่อเลือกโครงการแล้ว คุณจะได้รับมุมมองแบบครบวงจรของข้อมูลในบ้านทะเลสาบของคุณในแผง Data Explorer และเข้าถึงเครื่องมือค้นหาและเครื่องมือสำหรับนักพัฒนาของคุณในที่เดียว

SageMaker Lakehouse ยังให้ความยืดหยุ่นในการเข้าถึงและสืบค้นข้อมูลของคุณด้วยเครื่องมือและเครื่องมือที่รองรับ Apache Iceberg ทั้งหมด คุณสามารถใช้เครื่องมือวิเคราะห์และเครื่องมือที่คุณเลือก เช่น SQL, Apache Spark, Business Intelligence (BI) และเครื่องมือ AI/ML และทำงานร่วมกับข้อมูลที่เก็บไว้ใน SageMaker Lakehouse

ได้ SageMaker Lakehouse ให้ความยืดหยุ่นในการเข้าถึงและสืบค้นข้อมูลของคุณด้วยเครื่องมือที่ใช้งานร่วมกันได้กับ Apache Iceberg และเครื่องมืออื่น ๆ ทั้งหมด คุณสามารถใช้เครื่องมือวิเคราะห์และเครื่องมือที่คุณเลือก เช่น SQL, Apache Spark, Business Intelligence (BI) และเครื่องมือ AI/ML และทำงานร่วมกับข้อมูลที่เก็บไว้ใน SageMaker Lakehouse