- Amazon SageMaker›
- Kiến trúc Lakehouse›
- Câu hỏi thường gặp
Câu hỏi thường gặp về kiến trúc Lakehouse
Thông tin chung
Mở tất cảThế hệ Amazon SageMaker mới được xây dựng dựa trên kiến trúc lakehouse mở, thống nhất tất cả dữ liệu của bạn trên các hồ dữ liệu Amazon Simple Storage Service (Amazon S3), bao gồm Bảng S3, và kho dữ liệu Amazon Redshift, từ đó giúp bạn xây dựng các ứng dụng phân tích và AI/ML mạnh mẽ trên một bản sao dữ liệu duy nhất. Lakehouse cung cấp cho bạn sự linh hoạt để truy cập và truy vấn dữ liệu của mình với tất cả các công cụ và công cụ tương thích với Apache Iceberg. Bạn cũng có thể kết nối với các nguồn dữ liệu liên kết như Amazon DynamoDB, Google BigQuery và Snowflake và truy vấn dữ liệu của bạn tại chỗ. Đưa dữ liệu từ các ứng dụng và cơ sở dữ liệu vận hành vào lakehouse của bạn gần theo thời gian thực thông qua tích hợp không ETL. Bảo mật dữ liệu của bạn với các kiểm soát truy cập chi tiết tích hợp, được thực thi trên tất cả các công cụ và công cụ phân tích và ML. Với Amazon SageMaker, bạn có thể xây dựng một hồ nước mở dựa trên các khoản đầu tư dữ liệu hiện có của mình mà không cần thay đổi kiến trúc dữ liệu của mình.
SageMaker Lakehouse cung cấp 3 lợi ích chính:
a) Truy cập dữ liệu thống nhất: SageMaker Lakehouse giảm thiểu các kho dữ liệu bằng cách cung cấp quyền truy cập thống nhất vào dữ liệu của bạn trên các hồ dữ liệu Amazon S3 và kho dữ liệu Amazon Redshift. Bạn cũng có thể kết nối với các nguồn dữ liệu liên kết như Amazon DynamoDB, Google BigQuery và Snowflake. Ngoài ra, dữ liệu từ cơ sở dữ liệu và ứng dụng hoạt động có thể được đưa vào hồ của bạn trong thời gian gần như thực thông qua tích hợp Zero-ETL.
b) Khả năng tương thích mã nguồn mở: SageMaker Lakehouse cung cấp cho bạn sự linh hoạt để truy cập và truy vấn tất cả dữ liệu của bạn tại chỗ, từ một loạt các dịch vụ AWS và các công cụ và công cụ mã nguồn mở và bên thứ ba tương thích với Apache Iceberg. Bạn có thể sử dụng công cụ và phương tiện phân tích tùy chọn như SQL, Apache Spark, trí tuệ doanh nghiệp (BI) và các công cụ AI/ML, đồng thời cộng tác với một bản sao dữ liệu duy nhất được lưu trữ trên Amazon S3 hoặc Amazon Redshift.
c) Truy cập dữ liệu an toàn: SageMaker Lakehouse cung cấp kiểm soát truy cập chi tiết tích hợp vào dữ liệu của bạn. Điều này có nghĩa là bạn có thể xác định các quyền và áp dụng chúng một cách nhất quán trên tất cả các công cụ và công cụ phân tích và ML, bất kể định dạng lưu trữ cơ bản hoặc công cụ truy vấn được sử dụng.
Có thể truy cập trực tiếp từ Amazon SageMaker Unified Studio, SageMaker Lakehouse là một kiến trúc hồ mở giúp thống nhất dữ liệu trên kho dữ liệu của bạn. Dữ liệu từ các nguồn khác nhau được tổ chức trong các bộ chứa logic được gọi là danh mục trong Lakehouse của SageMaker. Mỗi danh mục đại diện cho các nguồn như kho dữ liệu Amazon Redshift, hồ dữ liệu S3 hoặc cơ sở dữ liệu. Bạn cũng có thể tạo danh mục mới để lưu trữ dữ liệu trong Amazon S3 hoặc Redshift Managed Storage (RMS). Dữ liệu trong SageMaker Lakehouse có thể được truy cập từ các công cụ tương thích với Apache Iceberg như Apache Spark, Athena hoặc Amazon EMR. Ngoài ra, bạn cũng có thể kết nối và phân tích dữ liệu trong hồ của mình bằng các công cụ SQL. Dữ liệu được bảo mật bằng cách xác định các kiểm soát truy cập chi tiết, được thực thi trên các công cụ và công cụ truy cập dữ liệu.
Khả năng
Mở tất cảHồ dữ liệu SageMaker thống nhất kiểm soát truy cập vào dữ liệu của bạn với hai khả năng: 1) SageMaker Lakehouse cho phép bạn xác định các quyền chi tiết. Các quyền này được các công cụ truy vấn như Amazon EMR, Athena và Amazon Redshift thực thi. 2) Hồ dữ liệu SageMaker cho phép bạn có quyền truy cập tại chỗ vào dữ liệu, xóa bỏ nhu cầu tạo bản sao dữ liệu. Bạn có thể duy trì một bản sao dữ liệu và một bộ chính sách kiểm soát truy cập duy nhất để hưởng lợi từ việc kiểm soát truy cập chi tiết thống nhất trong Hồ dữ liệu SageMaker.
Hồ dữ liệu SageMaker được xây dựng trên nhiều danh mục kỹ thuật tại Danh mục dữ liệu AWS Glue, Lake Formation và Amazon Redshift để cung cấp quyền truy cập dữ liệu thống nhất trên các hồ dữ liệu và kho dữ liệu. Hồ dữ liệu SageMaker sử dụng Danh mục dữ liệu AWS Glue và Lake Formation để lưu trữ các định nghĩa và quyền đối với bảng. Các quyền chi tiết về Lake Formation có sẵn cho các bảng đã xác định trong Hồ dữ liệu SageMaker. Bạn có thể quản lý định nghĩa bảng trong Danh mục dữ liệu AWS Glue và xác định các quyền chi tiết, chẳng hạn như quyền đối với cấp bảng, cấp cột và cấp ô, để bảo mật dữ liệu. Ngoài ra, khi sử dụng khả năng chia sẻ dữ liệu cho tài khoản chéo, bạn có thể bật tính năng chia sẻ dữ liệu không sao chép để cung cấp dữ liệu cho mục tiêu đảm bảo cộng tác an toàn.
Có. Phải có thư viện máy khách Apache Iceberg nguồn mở để truy cập Hồ dữ liệu SageMaker. Khách hàng sử dụng các công cụ nguồn mở của bên thứ ba hoặc tự quản lý như Apache Spark hoặc Trino cần đưa thư viện máy khách Apache Iceberg vào công cụ truy vấn của họ để truy cập Hồ dữ liệu SageMaker.
Có, bằng cách sử dụng thư viện máy khách Apache Iceberg, bạn có thể đọc và ghi dữ liệu vào Amazon Redshift hiện có của mình từ các công cụ Apache Spark trên dịch vụ AWS như Amazon EMR, AWS Glue, Athena và Amazon SageMaker hoặc Apache Spark của bên thứ ba. Tuy nhiên, bạn phải có quyền ghi thích hợp trên các bảng để ghi dữ liệu vào bảng.
Có, bạn có thể ghép các bảng trong hồ dữ liệu trên Amazon S3 với các bảng trong kho dữ liệu Amazon Redshift trên nhiều cơ sở dữ liệu bằng cách sử dụng công cụ mà bạn chọn, chẳng hạn như Apache Spark.
Amazon S3 Tables hiện tích hợp liền mạch với SageMaker Lakehouse, giúp dễ dàng truy vấn và kết hợp Bảng S3 với dữ liệu trong hồ dữ liệu S3, kho dữ liệu Amazon Redshift và nguồn dữ liệu của bên thứ ba. Lakehouse của SageMaker cho phép bạn truy cập và truy vấn dữ liệu tại chỗ một cách linh hoạt trên Bảng S3, vùng lưu trữ S3 và kho dữ liệu Redshift thông qua tiêu chuẩn mở của Apache Iceberg. Bạn có thể bảo mật và quản lý tập trung dữ liệu trong hồ dữ liệu bằng cách xác định các quyền chi tiết sẽ được áp dụng nhất quán trên tất cả các công cụ phân tích và ML.
Tích hợp không ETL
Mở tất cảHồ dữ liệu SageMaker cho phép hỗ trợ tích hợp không ETL với Amazon DynamoDB, Amazon Aurora và Amazon RDS dành cho MySQL và tám ứng dụng: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, quảng cáo Facebook, quảng cáo Instagram, Zendesk và SAP.
Bạn có thể định cấu hình và giám sát các tích hợp không ETL của mình thông qua bảng điều khiển AWS Glue trong Xử lý dữ liệu Amazon SageMaker bằng AWS Glue. Sau khi dữ liệu được nhập vào, bạn có thể truy cập và truy vấn dữ liệu từ các công cụ truy vấn tương thích với Apache Iceberg. Để biết thêm chi tiết, hãy truy cập trang tích hợp không ETL.
Để tìm hiểu thêm về mức giá, hãy truy cập trang định giá của Hồ dữ liệu SageMaker và AWS Glue.
Giá cả
Mở tất cảVui lòng truy cập Giá cho Hồ dữ liệu SageMaker để biết thêm chi tiết.
Độ sẵn sàng
Mở tất cảHồ dữ liệu SageMaker được cung cấp tại Miền Đông Hoa Kỳ (Bắc Virginia), Miền Đông Hoa Kỳ (Ohio), Miền Tây Hoa Kỳ (Oregon), Châu Á Thái Bình Dương (Hồng Kông), Châu Á Thái Bình Dương (Seoul), Châu Á Thái Bình Dương (Singapore), Châu Á Thái Bình Dương (Sydney), Châu Á Thái Bình Dương (Tokyo), Canada (Miền Trung), Châu Âu (Frankfurt), Châu Âu (Ireland), Châu Âu (London), Châu Âu (Stockholm) và Nam Mỹ (Sao Paulo).
Có. Hồ dữ liệu tích hợp SageMaker lưu trữ siêu dữ liệu trong Danh mục dữ liệu AWS Glue và cung cấp SLA tương tự như Amazon Glue.
Bắt đầu
Mở tất cảSageMaker Lakehouse có thể truy cập từ Amazon SageMaker Unified Studio. Từ SageMaker Unified Studio, bạn có thể tạo một dự án mới hoặc chọn một dự án hiện có. Từ dự án của bạn, nhấp vào Dữ liệu ở điều hướng bên trái để xem bảng điều khiển Data explorer. Bảng điều khiển Data explorer cung cấp cho bạn một cái nhìn về dữ liệu mà bạn có quyền truy cập trong SageMaker Lakehouse. Để giúp bạn bắt đầu, một danh mục được quản lý S3 mặc định sẽ tự động tạo với dự án của bạn, nơi bạn có thể thêm các tệp dữ liệu mới vào hồ của mình. Ngoài ra, từ bảng điều khiển Data explorer, khi bạn nhấp vào (+) Thêm dữ liệu, bạn có thể tiếp tục xây dựng hồ chứa của mình bằng cách tạo danh mục được quản lý bổ sung trong Redshift Managed Storage, kết nối với nguồn dữ liệu liên kết hoặc tải dữ liệu lên danh mục được quản lý của bạn.
Nếu bạn có cơ sở dữ liệu và danh mục hiện có, bạn có thể thêm chúng vào hồ bằng cách cấp quyền cho vai trò dự án của mình bằng cách sử dụng AWS Lake Formation. Ví dụ: bạn có thể đưa kho dữ liệu Amazon Redshift của mình đến SageMaker Lakehouse bằng cách đăng ký cụm Redshift hoặc không gian tên không máy chủ với Glue Data Catalog. Sau đó, bạn có thể chấp nhận lời mời cụm hoặc không gian tên và cấp các quyền thích hợp trong Lake Formation để làm cho nó có sẵn để truy cập.
Không, bạn không cần phải chuyển dữ liệu để sử dụng Hồ dữ liệu SageMaker. Hồ dữ liệu SageMaker cho phép bạn truy cập và truy vấn dữ liệu của mình tại chỗ, với tiêu chuẩn mở của Apache Iceberg. Bạn có thể truy cập trực tiếp dữ liệu của mình trong hồ dữ liệu Amazon S3, Bảng S3 và kho dữ liệu Amazon Redshift. Bạn cũng có thể kết nối với các nguồn dữ liệu liên kết như Snowflake và kho dữ liệu Google BigQuery, cũng như cơ sở dữ liệu hoạt động như PostgreSQL và SQL Server. Dữ liệu từ cơ sở dữ liệu hoạt động và các ứng dụng của bên thứ ba có thể được đưa vào danh mục được quản lý trong hồ gần như thời gian thực thông qua tích hợp Zero-ETL mà không cần phải duy trì cơ sở hạ tầng hoặc đường ống phức tạp. Ngoài ra, bạn có thể sử dụng hàng trăm trình kết nối AWS Glue để tích hợp với các nguồn dữ liệu hiện có.
Để đưa kho dữ liệu Amazon Redshift của bạn đến SageMaker Lakehouse, hãy truy cập bảng điều khiển quản lý Redshift và đăng ký cụm Redshift hoặc không gian tên không máy chủ với Glue Data Catalog thông qua menu thả xuống Action. Sau đó, bạn có thể đi đến Lake Formation và chấp nhận lời mời cụm hoặc không gian tên để tạo danh mục liên kết và cấp các quyền thích hợp để cung cấp cho nó khả dụng để truy cập trong SageMaker Lakehouse. Hướng dẫn có sẵn trong tài liệu ở đây. Các tác vụ này cũng có thể được thực hiện bằng Giao diện dòng lệnh AWS (AWS CLI) hoặc API/SDK.
Để đưa hồ dữ liệu S3 của bạn đến SageMaker Lakehouse, trước tiên bạn phải lập danh mục hồ dữ liệu S3 của mình trong Danh mục dữ liệu AWS Glue bằng cách làm theo hướng dẫn tại đây. Sau khi bạn đã lập danh mục hồ dữ liệu Amazon S3 của mình bằng Danh mục dữ liệu AWS Glue, dữ liệu của bạn sẽ có sẵn để truy cập trong SageMaker Lakehouse. Trong AWS Lake Formation, bạn có thể cấp quyền cho vai trò dự án Unified Studio để cung cấp hồ dữ liệu S3 để sử dụng trong SageMaker Unified Studio.
Amazon SageMaker Lakehouse thống nhất quyền truy cập tất cả dữ liệu của bạn trên các hồ dữ liệu Amazon S3, kho dữ liệu Amazon Redshift và các nguồn dữ liệu của bên thứ ba. Amazon S3 Tables cung cấp kho đối tượng đám mây đầu tiên với hỗ trợ Apache Iceberg tích hợp. Amazon SageMaker Lakehouse tích hợp với Amazon S3 Tables để bạn có thể truy cập Bảng S3 từ các dịch vụ phân tích AWS, chẳng hạn như Amazon Redshift, Amazon Athena, Amazon EMR, AWS Glue hoặc các công cụ tương thích Apache Iceberg (Apache Spark hoặc PyIceberg). SageMaker Lakehouse cũng cho phép quản lý tập trung các quyền truy cập dữ liệu chi tiết cho Bảng S3 và dữ liệu khác, đồng thời áp dụng chúng một cách nhất quán trên tất cả các công cụ.
Để bắt đầu, hãy điều hướng đến bảng điều khiển Amazon S3 và bật tích hợp bộ chứa S3 Table với các dịch vụ phân tích AWS. Sau khi tích hợp được bật, hãy điều hướng đến AWS Lake Formation để cấp quyền cho bộ chứa S3 Table cho vai trò dự án SageMaker Unified Studio của bạn. Sau đó, bạn sử dụng các dịch vụ phân tích tích hợp trong SageMaker Unified Studio để truy vấn, phân tích dữ liệu trong Bảng S3. Bạn thậm chí có thể kết hợp dữ liệu từ Bảng Amazon S3 với các nguồn khác, chẳng hạn như kho dữ liệu Amazon Redshift, nguồn dữ liệu của bên thứ ba và liên kết (Amazon DynamoDB, Snowflake hoặc PostgreSQL).
Bạn có thể truy cập Lakehouse của SageMaker trực tiếp từ Studio hợp nhất của Amazon SageMaker. SageMaker Unified Studio cung cấp trải nghiệm tích hợp để truy cập tất cả dữ liệu của bạn từ SageMaker Lakehouse và đưa nó vào hoạt động bằng cách sử dụng các công cụ AWS quen thuộc để phát triển mô hình, AI tạo, xử lý dữ liệu và phân tích SQL. Để bắt đầu, bạn có thể đăng nhập vào miền SageMaker bằng thông tin đăng nhập công ty của bạn trên SageMaker Unified Studio. Trong một vài bước ngắn trong SageMaker Unified Studio, quản trị viên có thể tạo dự án bằng cách chọn một hồ sơ dự án cụ thể. Sau đó, bạn có thể chọn một dự án để làm việc với dữ liệu trong SageMaker Lakehouse. Khi một dự án được chọn, bạn sẽ có một chế độ xem thống nhất về dữ liệu trong hồ của bạn trong bảng điều khiển Data explorer và truy cập các công cụ truy vấn và công cụ dành cho nhà phát triển của bạn ở một nơi.
SageMaker Lakehouse cũng cung cấp cho bạn sự linh hoạt để truy cập và truy vấn dữ liệu của bạn với tất cả các công cụ và công cụ tương thích với Apache Iceberg. Bạn có thể sử dụng các công cụ phân tích và công cụ mà bạn chọn, chẳng hạn như SQL, Apache Spark, Business Intelligence (BI) và các công cụ AI/ML, đồng thời cộng tác với dữ liệu được lưu trữ trên SageMaker Lakehouse.
Có. Lakehouse của SageMaker giúp bạn linh hoạt truy cập và truy vấn dữ liệu của mình bằng tất cả các công cụ và phương tiện tương thích với Apache Iceberg. Bạn có thể sử dụng các công cụ phân tích và công cụ mà bạn chọn, chẳng hạn như SQL, Apache Spark, Business Intelligence (BI) và các công cụ AI/ML, đồng thời cộng tác với dữ liệu được lưu trữ trong SageMaker Lakehouse.