- Amazon SageMaker›
- Amazon SageMaker Lakehouse›
- คำถามที่พบบ่อย
คำถามที่พบบ่อยเกี่ยวกับ Amazon SageMaker Lakehouse
ข้อมูลทั่วไป
Amazon SageMaker Lakehouse คืออะไร
Amazon SageMaker Lakehouse รวมข้อมูลทั้งหมดของคุณใน Data Lake ของ Amazon Simple Storage Service (Amazon S3) และคลังข้อมูล Amazon Redshift ซึ่งช่วยให้คุณสร้างการวิเคราะห์และแอปพลิเคชัน AI/ML ที่มีประสิทธิภาพบนสำเนาข้อมูลเดียว SageMaker Lakehouse ให้ความยืดหยุ่นในการเข้าถึงและสืบค้นข้อมูลของคุณด้วยเครื่องมือที่รองรับ Apache Iceberg และเครื่องมืออื่น ๆ ทั้งหมด รักษาความปลอดภัยของข้อมูลของคุณใน lakehouse โดยการกำหนดสิทธิ์ ซึ่งจะบังคับใช้กับเครื่องมือการวิเคราะห์และแมชชีนเลิร์นนิง (ML) และเครื่องมืออื่น ๆ ทั้งหมด นำข้อมูลจากฐานข้อมูลการดำเนินงานและแอปพลิเคชันเข้าสู่ Lakehouse ของคุณแบบแทบจะเรียลไทม์ผ่านการบูรณาการ ETL แบบไร้รอยต่อ นอกจากนี้ การเข้าถึงและการสืบค้นข้อมูลยังมีความสามารถในการสืบค้นที่เชื่อมโยงกับส่วนกลางในแหล่งที่มาของข้อมูลจากภายนอก
ประโยชน์ของ SageMaker Lakehouse มีอะไรบ้าง
SageMaker Lakehouse:
ก) ลด Data Silo โดยให้การเข้าถึงข้อมูลของคุณแบบรวมศูนย์ผ่าน Amazon S3 Data Lake และคลังข้อมูล Amazon Redshift ข้อมูลจากฐานข้อมูลและแอปพลิเคชันการปฏิบัติงานสามารถเพิ่มเข้าไปใน Lakehouse ของคุณได้ในเวลาเกือบเรียลไทม์สำหรับการวิเคราะห์และ ML โดยใช้ไปป์ไลน์กระบวนการ Extract, Transform and Load (ETL) แบบไม่ต้องใช้โค้ดหรือใช้โค้ดน้อย นอกจากนี้คุณยังสามารถใช้ตัวเชื่อมต่อหลายร้อยตัวและความสามารถในการสืบค้นแบบรวมศูนย์ 13 รายการเพื่อเข้าถึงข้อมูลจาก AWS และแหล่งที่มาภายนอก AWS ได้อีกด้วย
ข) ให้ความยืดหยุ่นในการเข้าถึงและสืบค้นข้อมูลทั้งหมดของคุณในตำแหน่งเดิมด้วยบริการ AWS ที่หลากหลาย รวมถึงเครื่องมือและเครื่องมือแบบโอเพ่นซอร์สและจากบุคคลที่สามซึ่งเข้ากันได้กับ Apache Iceberg คุณสามารถใช้เครื่องมือการวิเคราะห์และเครื่องมือที่คุณต้องการ เช่น SQL, Apache Spark, ระบบธุรกิจอัจฉริยะ (BI) และเครื่องมือ AI/ML และทำงานร่วมกับข้อมูลสำเนาเดียวที่จัดเก็บไว้บน Amazon S3 หรือ Amazon Redshift
ค) ปรับปรุงความปลอดภัยขององค์กรด้วยเครื่องมือการควบคุมการเข้าถึงในตัวที่ช่วยรักษาความปลอดภัยข้อมูลของคุณเมื่อเข้าถึงจากบริการ AWS แบบผสานรวม เช่น Amazon Redshift, Amazon Athena หรือ Amazon EMR ตลอดจนเครื่องมือที่รองรับ Apache Iceberg ของบุคคลที่สาม
SageMaker Lakehouse ทำงานอย่างไร
Amazon SageMaker Lakehouse สามารถเข้าถึงได้โดยตรงจาก Amazon SageMaker Unified Studio (เวอร์ชันทดลองใช้) ข้อมูลจากแหล่งข้อมูลต่าง ๆ ได้รับการจัดระเบียบในคอนเทนเนอร์เชิงตรรกะที่เรียกว่าแค็ตตาล็อกใน SageMaker Lakehouse แค็ตตาล็อกแต่ละรายการแสดงถึงข้อมูลจากแหล่งที่มาของข้อมูลที่มีอยู่ เช่น คลังข้อมูล Amazon Redshift, Data Lakeล, หรือฐานข้อมูล แค็ตตาล็อกใหม่สามารถสร้างได้โดยตรงใน Lakehouse เพื่อจัดเก็บข้อมูลใน Amazon S3 หรือ Amazon Redshift Managed Storage (RMS) ข้อมูลใน SageMaker Lakehouse สามารถเข้าถึงได้จากเครื่องมือที่รองรับ Apache Iceberg เช่น Apache Spark, Athena หรือ Amazon EMR นอกจากนี้ยังสามารถค้นพบแค็ตตาล็อกเหล่านี้ได้ในรูปแบบฐานข้อมูลในคลังข้อมูล Amazon Redshift ซึ่งช่วยให้คุณสามารถใช้เครื่องมือ SQL และวิเคราะห์ข้อมูลใน Lakehouse ของคุณได้
ความสามารถ
SageMaker Lakehouse จัดการการควบคุมการเข้าถึงข้อมูลแบบรวมศูนย์อย่างไร
SageMaker Lakehouse รวมการควบคุมการเข้าถึงข้อมูลของคุณด้วยความสามารถ 2 ประการ: 1) SageMaker Lakehouse ช่วยให้คุณสามารถกำหนดการอนุญาตแบบละเอียดได้ สิทธิ์เหล่านี้ได้รับการบังคับใช้โดยเครื่องมือสืบค้นเช่น Amazon EMR, Amazon Athena และ Amazon Redshift 2) SageMaker Lakehouse ช่วยให้คุณเข้าถึงข้อมูลของคุณในตำแหน่งเดิมโดยไม่ต้องสร้างสำเนาข้อมูล คุณสามารถเก็บรักษาสำเนาข้อมูลชุดเดียวและนโยบายการควบคุมการเข้าถึงชุดเดียว เพื่อรับประโยชน์จากการควบคุมการเข้าถึงแบบละเอียดแบบครบวงจรใน SageMaker Lakehouse
SageMaker Lakehouse ทำงานร่วมกับบริการ AWS อื่น ๆ เช่น แค็ตตาล็อกข้อมูลของ AWS Glue, AWS Lake Formation และ Amazon Redshift อย่างไร
SageMaker Lakehouse สร้างขึ้นจากแค็ตตาล็อกทางเทคนิคหลายรายการในแค็ตตาล็อกข้อมูลของ AWS Glue, Lake Formation และ Amazon Redshift เพื่อให้การเข้าถึงข้อมูลแบบครบวงจรผ่าน Data Lake ข้อมูลและคลังข้อมูล SageMaker Lakehouse ใช้แค็ตตาล็อกข้อมูลของ AWS Glue และ Lake Formation เพื่อจัดเก็บคำจำกัดความตารางและสิทธิ์ สิทธิ์การเข้าถึงแบบละเอียดของ Lake Formation สามารถใช้ได้กับตารางที่กำหนดใน SageMaker Lakehouse คุณสามารถจัดการคำจำกัดความตารางของคุณใน แค็ตตาล็อกข้อมูลของ AWS Glue และกำหนดสิทธิ์แบบละเอียด เช่น สิทธิ์ระดับตาราง ระดับคอลัมน์ และระดับเซลล์ เพื่อรักษาความปลอดภัยของข้อมูล นอกจากนี้ การใช้ความสามารถในการแชร์ข้อมูลข้ามบัญชี คุณสามารถเปิดใช้งานการแชร์ข้อมูลแบบ zero-copy เพื่อให้ข้อมูลพร้อมใช้งานเพื่อการทำงานร่วมกันอย่างปลอดภัย
ฉันจำเป็นต้องมีซอฟต์แวร์ไคลเอ็นต์เพื่อเข้าถึง Apache Iceberg API ที่ให้บริการโดย SageMaker Lakehouse หรือไม่
ใช่ คุณจำเป็นต้องใช้ไลบรารีไคเอนต์ Apache Iceberg แบบโอเพนซอร์ส เพื่อเข้าถึง SageMaker Lakehouse ลูกค้าที่ใช้เครื่องมือโอเพนซอร์สของบุคคลที่สามหรือที่จัดการด้วยตนเอง เช่น Apache Spark หรือ Trino จะต้องรวมไลบรารีไคลเอนต์ Apache Iceberg ไว้ในเครื่องมือสืบค้นเพื่อเข้าถึง SageMaker Lakehouse
ฉันสามารถใช้ SageMaker Lakehouse เพื่อเขียนข้อมูลลงในคลังข้อมูล Amazon Redshift โดยใช้ Apache Spark ได้หรือไม่
ได้ คุณสามารถอ่านและเขียนข้อมูลไปยัง Amazon Redshift ที่มีอยู่จากเครื่องมือ Apache Spark บนบริการ AWS เช่น Amazon EMR, AWS Glue, Amazon Athena และ Amazon SageMaker หรือ Apache Spark ของบุคคลที่สามได้โดยใช้ไลบรารีไคลเอนต์ Apache Iceberg อย่างไรก็ตาม คุณต้องมีสิทธิ์การเขียนที่เหมาะสมบนตารางจึงจะเขียนข้อมูลลงในตารางได้
ฉันสามารถรวมตาราง Data Lake และคลังข้อมูล Amazon Redshift ของฉันบน SageMaker Lakehouse ได้หรือไม่
ได้ คุณสามารถรวมตาราง Data Lake ของคุณบน Amazon S3 เข้ากับตารางในคลังข้อมูล Amazon Redshift ได้ทั่วทั้งฐานข้อมูลหลาย ๆ ฐานโดยใช้เครืองมือที่คุณเลือก เช่น Apache Spark
การย้ายข้อมูล
ฉันจำเป็นต้องย้ายข้อมูลของฉันเพื่อใช้ SageMaker Lakehouse หรือไม่
ไม่ คุณไม่จำเป็นต้องย้ายข้อมูลของคุณเพื่อใช้ SageMaker Lakehouse SageMaker Lakehouse ช่วยให้คุณสามารถเข้าถึงและสืบค้นข้อมูลของคุณในตำแหน่งเดิมด้วยมาตรฐานที่เปิดกว้างของ Apache Iceberg คุณสามารถเข้าถึงข้อมูลของคุณได้โดยตรงใน Data Lake ของ Amazon S3 และคลังข้อมูล Amazon Redshift ข้อมูลจากฐานข้อมูลเชิงปฏิบัติการและแอปพลิเคชันสามารถนำเข้าไปยัง Lakehouse ได้เกือบเรียลไทม์ผ่านการบูรณาการ ETL แบบไร้รอยต่อที่มีอยู่ โดยไม่ต้องบำรุงรักษาโครงสร้างพื้นฐานหรือไปป์ไลน์ที่ซับซ้อน คุณยังสามารถใช้ความสามารถในการสืบค้นแบบรวมเพื่อเข้าถึงข้อมูลในสถานที่ของคุณได้เช่นกัน นอกจากสิ่งเหล่านี้แล้ว คุณสามารถใช้ตัวเชื่อมต่อ AWS Glue หลายร้อยตัวเพื่อผสานรวมกับแหล่งที่มาของข้อมูลที่มีอยู่ของคุณ
ปัจจุบันฉันใช้ Amazon Redshift ฉันจะนำคลังข้อมูล Amazon Redshift มายัง SageMaker Lakehouse ได้อย่างไร
หากคุณเป็นผู้ใช้ Amazon Redshift อยู่แล้ว คุณสามารถลงทะเบียนคลังข้อมูล Amazon Redshift ของคุณกับ SageMaker Lakehouse ได้ในไม่กี่ขั้นตอนง่าย ๆ และโดยไม่ต้องย้ายข้อมูลของคุณ โปรดทำตามขั้นตอนในคู่มือนักพัฒนา
ปัจจุบันฉันใช้ Amazon S3 Data Lake ฉันจะนำ Data Lake ของฉันมายัง SageMaker Lakehouse ได้อย่างไร
หากคุณได้กำหนดค่า Data Lake ของ Amazon S3 โดยใช้แค็ตตาล็อกข้อมูลของ AWS Glue คุณจะไม่จำเป็นต้องทำการเปลี่ยนแปลงใด ๆ
การบูรณาการ ETL แบบไร้รอยต่อ
การบูรณาการ ETL แบบไร้รอยต่อใดบ้างที่สามารถใช้งานร่วมกับ SageMaker Lakehouse ได้
SageMaker Lakehouse รองรับการบูรณาการ ETL แบบไร้รอยต่อกับ Amazon DynamoDB, Amazon Aurora และ Amazon RDS สำหรับ MySQL และแอปพลิเคชัน 8 รายการ ได้แก่ Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, โฆษณาบน Facebook, โฆษณาบน Instagram, Zendesk และ SAP
ฉันจะเข้าถึงการบูรณาการ ETL แบบไร้รอยต่อกับ SageMaker Lakehouse ได้อย่างไร
คุณสามารถกำหนดค่าและตรวจสอบการบูรณาการ ETL แบบไร้รอยต่อของคุณผ่านคอนโซล AWS Glue ภายในการประมวลผลข้อมูลของ Amazon SageMaker ด้วย AWS Glue ได้ เมื่อข้อมูลได้รับการนำเข้าแล้ว คุณสามารถเข้าถึงและสืบค้นข้อมูลจากเครื่องมือสืบค้นที่เข้ากันได้กับ Apache Iceberg ดูรายละเอียดเพิ่มเติมได้ที่หน้าเอกสารเกี่ยวกับการบูรณาการ ETL แบบไร้รอยต่อ
โมเดลการกำหนดราคาสำหรับ ETL แบบไร้รอยต่อคืออะไร
หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับราคา โปรดไปที่หน้าราคา SageMaker Lakehouse และ AWS Glue
การกำหนดราคา
ราคาของ Amazon SageMaker Lakehouse เป็นอย่างไร
ดูรายละเอียดได้ที่หน้าราคา SageMaker Lakehouse
ความพร้อมใช้งาน
SageMaker Lakehouse มีให้บริการใน AWS Region ใดบ้าง
SageMaker Lakehouse มีให้บริการในสหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียฝั่งเหนือ) สหรัฐอเมริกาฝั่งตะวันออก (โอไฮโอ) สหรัฐอเมริกาฝั่งตะวันตก (ออริกอน) เอเชียแปซิฟิก (ฮ่องกง) เอเชียแปซิฟิก (โซล) เอเชียแปซิฟิก (สิงคโปร์) เอเชียแปซิฟิก (ซิดนีย์) เอเชียแปซิฟิก (โตเกียว) แคนาดา (ภาคกลาง) ยุโรป (แฟรงก์เฟิร์ต) ยุโรป (ไอร์แลนด์) ยุโรป (ลอนดอน) ยุโรป (สตอกโฮล์ม) และอเมริกาใต้ (เซาเปาลู)
SageMaker Lakehouse มี SLA หรือไม่
ใช่ SageMaker Lakehouse จัดเก็บข้อมูลเมตาในแค็ตตาล็อกข้อมูลของ AWS Glue และมี SLA เดียวกันกับ Amazon Glue SLA
เริ่มต้นใช้งาน
ฉันจะเริ่มต้นใช้ SageMaker Lakehouse ได้อย่างไร
เริ่มต้นใช้งานโดยการเข้าสู่ระบบโดเมน SageMaker ของคุณโดยใช้ข้อมูลประจำตัวขององค์กร (เช่น Okta) ใน SageMaker Unified Studio (เวอร์ชันทดลองใช้) ผู้ดูแลระบบสามารถสร้างโปรเจกต์ใหม่ใน SageMaker Unified Studio ได้อย่างรวดเร็ว โดยเลือกโปรไฟล์โปรเจกต์ที่ต้องการ จากนั้นคุณสามารถเลือกโครงการเพื่อทำงานกับ SageMaker Lakehouse เมื่อเลือกโครงการแล้วคุณจะเห็นภาพรวมของข้อมูล เครื่องมือสืบค้น และเครื่องมือพัฒนาในที่เดียว ผู้ใช้ เช่น วิศวกรข้อมูลและนักวิเคราะห์ข้อมูลสามารถสืบค้นข้อมูลโดยใช้เครื่องมือที่ตนเลือกได้ ตัวอย่างเช่น เมื่อวิศวกรข้อมูลใช้โน้ตบุ๊คและออกคำสั่ง Spark เพื่อแสดงรายการตาราง พวกเขาจะเห็นตารางคลังข้อมูลและ Data Lake ทั้งหมดที่พวกเขามีสิทธิ์เข้าถึง จากนั้นพวกเขาสามารถเรียกใช้คำสั่งเพื่ออ่านและเขียนข้อมูลลงในตารางที่จัดเก็บไว้ใน Data Lake ของ Amazon S3 หรือคลังข้อมูล Amazon Redshift ในลักษณะเดียวกัน เมื่อนักวิเคราะห์ข้อมูลเรียกใช้คำสั่ง Redshift SQL จากตัวแก้ไข SQL พวกเขาจะได้รับมุมมองแบบรวมเดียวกันของข้อมูล และสามารถอ่านและเขียนข้อมูลไปยังตารางเหล่านี้ได้ คุณสามารถสร้างตารางใหม่ใน Amazon S3 หรือ Amazon Redshift จากเครื่องมือที่คุณเลือก (ตัวแก้ไข SQL หรือโน้ตบุ๊ค) ได้ สืบค้นมุมมองผลการสืบค้นของ Amazon Redshift เพื่อเร่งประสิทธิภาพบนตาราง Data Lake ของคุณ นอกเหนือจาก SageMaker Unified Studio แล้ว SageMaker Lakehouse ยังสามารถเข้าถึงได้จากคอนโซลการจัดการของ AWS, AWS Glue APIs, AWS Command Line Interface (AWS CLI) หรือ AWS SDKs โปรดไปที่หน้าเอกสารประกอบเพื่อดูรายละเอียดเพิ่มเติม