Định giá SageMaker Lakehouse
Lakehouse của Amazon SageMaker thống nhất tất cả dữ liệu của bạn trên các hồ dữ liệu Amazon Simple Storage Service (Amazon S3) và kho dữ liệu Amazon Redshift, từ đó giúp bạn xây dựng các ứng dụng phân tích và AI/ML mạnh mẽ trên một bản sao dữ liệu duy nhất. Lakehouse của SageMaker giúp bạn linh hoạt truy cập và truy vấn dữ liệu của mình bằng tất cả các công cụ và phương tiện tương thích với Apache Iceberg. Công cụ này bảo mật dữ liệu trong kho hồ bằng cách xác định các quyền chi tiết sẽ được áp dụng nhất quán trên tất cả các công cụ phân tích và máy học (ML). Bên cạnh những lợi ích này, bạn còn có thể truy cập dữ liệu của mình từ cơ sở dữ liệu vận hành và ứng dụng qua tích hợp không ETL và dữ liệu trên các nguồn của bên thứ ba thông qua các khả năng truy vấn liên kết trong kho hồ.
Bạn có thể truy cập Lakehouse của SageMaker trực tiếp từ Studio hợp nhất của Amazon SageMaker (bản xem trước). Dữ liệu từ các nguồn khác nhau được tổ chức trong các bộ chứa logic được gọi là danh mục trong Lakehouse của SageMaker. Mỗi danh mục đại diện cho dữ liệu từ các nguồn dữ liệu hiện có như kho dữ liệu và cơ sở dữ liệu của bên thứ ba hoặc được tạo trực tiếp trong kho hồ để lưu trữ dữ liệu trong Amazon S3 hoặc Dung lượng lưu trữ được Amazon Redshift quản lý (RMS). Các công cụ truy vấn có thể kết nối với các danh mục này và truy cập dữ liệu tại chỗ với API Apache Iceberg. Bạn có thể sử dụng bất kỳ công cụ tương thích với Apache Iceberg nào như Apache Spark, Trino, Amazon Athena hoặc Amazon EMR để truy cập dữ liệu dưới dạng bảng Apache Iceberg và truy vấn dữ liệu từ công cụ truy vấn của bên thứ nhất và bên thứ ba. Tương tự, các danh mục được gắn trong các công cụ truy vấn của bên thứ nhất như cụm Amazon Redshift và nhóm làm việc dưới dạng cơ sở dữ liệu. Kết nối với cơ sở dữ liệu từ các công cụ truy vấn thông qua Kết nối cơ sở dữ liệu Java (JDBC) hoặc Trình soạn thảo truy vấn của Amazon Redshift V2 để truy vấn bằng SQL.
Lakehouse của SageMaker có các thành phần cơ bản dưới đây. Bạn trả tiền cho các thành phần bạn sử dụng trên kho hồ.
Siêu dữ liệu Lakehouse của SageMaker: Định nghĩa dữ liệu được sắp xếp theo hệ thống phân cấp logic gồm danh mục, cơ sở dữ liệu và bảng bằng Danh mục dữ liệu AWS Glue.
- Danh mục: Một bộ chứa logic chứa các đối tượng từ kho dữ liệu như lược đồ, bảng, chế độ xem hoặc chế độ xem cụ thể hóa từ Amazon Redshift. Bạn có thể lồng nhiều danh mục trong một danh mục để khớp với các cấp độ phân cấp từ nguồn dữ liệu mà bạn mang đến kho hồ.
- Cơ sở dữ liệu: Cơ sở dữ liệu có thể được sử dụng để tổ chức các đối tượng dữ liệu như bảng và chế độ xem trong kho hồ.
- Bảng và chế độ xem: Bảng và chế độ xem là các đối tượng dữ liệu trong cơ sở dữ liệu mô tả cách truy cập dữ liệu cơ bản như lược đồ, phân vùng, vị trí lưu trữ, định dạng lưu trữ và truy vấn SQL để truy cập dữ liệu.
Bạn có thể truy cập siêu dữ liệu Lakehouse của SageMaker từ API AWS Glue. Đối với dung lượng lưu trữ siêu dữ liệu và yêu cầu API, mức giá cho siêu dữ liệu của Danh mục dữ liệu AWS Glue sẽ được áp dụng, bao gồm Bậc miễn phí của AWS. Để biết thêm thông tin, vui lòng truy cập định giá AWS Glue.
Kho lưu trữ dữ liệu và truy cập dữ liệu: Với Lakehouse của SageMaker, bạn có thể đọc và ghi dữ liệu vào Amazon S3 hoặc RMS. Dựa trên loại lưu trữ bạn muốn sử dụng để lưu trữ dữ liệu trong kho hồ, bạn sẽ phải chịu thêm chi phí lưu trữ và điện toán để truy cập bộ nhớ cơ bản. Truy cập định giá AWS Glue để biết thêm chi tiết về mức giá lưu trữ và điện toán cho các loại lưu trữ.
Số liệu thống kê và bảo trì bảng Apache Iceberg: Trong Lakehouse của SageMaker, bạn có thể tự động hóa việc thu thập số liệu thống kê trên các bảng hồ dữ liệu trong Amazon S3 để thực hiện truy vấn nhanh hơn và bảo trì bảng Apache Iceberg, chẳng hạn như nén, để tối ưu hóa bố cục lưu trữ của các bảng Apache Iceberg của bạn. Bạn sẽ phải chịu thêm phí khi bật các tính năng dưới đây. Để biết thêm thông tin, vui lòng truy cập định giá AWS Glue.
Quyền: Các quyền chi tiết trong Lakehouse của SageMaker được cung cấp bởi AWS Lake Formation. Các quyền trên Lakehouse của SageMaker là miễn phí. Để biết thêm chi tiết, hãy truy cập định giá Lake Formation.
Chi phí tích hợp không ETL
SageMaker tích hợp không ETL với các ứng dụng, loại bỏ nhu cầu xây dựng và quản lý các quy trình trích xuất, chuyển đổi và tải (ETL). Các ứng dụng được hỗ trợ bao gồm Salesforce, ServiceNow, Zendesk, v.v.
Các tích hợp này cung cấp cho bạn sự linh hoạt, vì vậy bạn có thể chọn các bảng dữ liệu cụ thể trong một ứng dụng để tự động sao chép vào Amazon Redshift. Sự linh hoạt này cho phép bạn chạy phân tích thống nhất trên nhiều ứng dụng và nguồn dữ liệu. AWS không tính thêm phí cho việc tích hợp không ETL. Bạn trả tiền cho các tài nguyên hiện tại được sử dụng để tạo và xử lý dữ liệu thay đổi được tạo trong quá trình tích hợp không ETL. Điều này bao gồm lưu trữ Amazon Redshift bổ sung để lưu trữ dữ liệu được sao chép, tài nguyên điện toán để xử lý sao chép dữ liệu (hoặc RPU trên Amazon Redshift phi máy chủ) và chi phí truyền dữ liệu liên Khu vực để di chuyển dữ liệu từ nguồn sang mục tiêu. Dịch vụ xử lý liên tục các thay đổi dữ liệu bằng cách tích hợp không ETL được cung cấp mà không tính thêm phí. Để biết thêm thông tin, hãy truy cập định giá Amazon Aurora, định giá Amazon Relational Database (Amazon RDS) dành cho MySQL, định giá Amazon DynamoDB và định giá AWS Glue.