- Amazon SageMaker›
- Amazon SageMaker Lakehouse›
- Câu hỏi thường gặp
Câu hỏi thường gặp về Amazon SageMaker Lakehouse
Thông tin chung
Hồ dữ liệu Amazon SageMaker là gì?
Hồ dữ liệu Amazon SageMaker thống nhất tất cả dữ liệu của bạn trên các hồ dữ liệu Amazon Simple Storage Service (Amazon S3) và kho dữ liệu Amazon Redshift, từ đó giúp bạn xây dựng các ứng dụng phân tích và AI/ML mạnh mẽ trên một bản sao dữ liệu duy nhất. Hồ dữ liệu SageMaker giúp bạn linh hoạt truy cập và truy vấn dữ liệu của mình bằng tất cả các công cụ và phương tiện tương thích với Apache Iceberg. Bảo mật dữ liệu của bạn trong hồ dữ liệu bằng cách xác định quyền được thực thi trên tất cả các công cụ và phương tiện phân tích cũng như máy học (ML). Mang dữ liệu từ cơ sở dữ liệu và ứng dụng liên quan đến vận hành vào hồ dữ liệu của bạn gần với thời gian thực thông qua tích hợp không ETL. Ngoài ra, truy cập và truy vấn dữ liệu tại chỗ nhờ khả năng truy vấn liên kết trên các nguồn dữ liệu của bên thứ ba.
Những lợi ích của Hồ dữ liệu SageMaker là gì?
Hồ dữ liệu SageMaker:
a) Giảm thiểu các lô cốt dữ liệu bằng cách cung cấp quyền truy cập thống nhất vào dữ liệu của bạn trên các hồ dữ liệu Amazon S3 và kho dữ liệu Amazon Redshift. Dữ liệu từ cơ sở dữ liệu và ứng dụng liên quan đến vận hành có thể được đưa vào hồ của bạn trong thời gian gần với thời gian thực để phân tích và ML với các quy trình trích xuất, chuyển đổi và tải (ETL) không cần mã hoặc có mã thấp. Bạn cũng có thể sử dụng hàng trăm trình kết nối và 13 khả năng truy vấn liên kết để truy cập dữ liệu từ AWS và các nguồn bên ngoài AWS.
b) Giúp bạn linh hoạt truy cập và truy vấn tất cả dữ liệu tại chỗ, từ một loạt các dịch vụ AWS và nguồn mở cũng như các công cụ và phương tiện của bên thứ ba, tương thích với Apache Iceberg. Bạn có thể sử dụng công cụ và phương tiện phân tích tùy chọn như SQL, Apache Spark, trí tuệ doanh nghiệp (BI) và các công cụ AI/ML, đồng thời cộng tác với một bản sao dữ liệu duy nhất được lưu trữ trên Amazon S3 hoặc Amazon Redshift.
c) Cải thiện tính bảo mật cho doanh nghiệp với cơ chế kiểm soát truy cập tích hợp để bảo mật dữ liệu của bạn khi được truy cập từ các dịch vụ AWS tích hợp, chẳng hạn như Amazon Redshift, Amazon Athena hoặc Amazon EMR hoặc các phương tiện tương thích với Apache Iceberg của bên thứ ba.
Hồ dữ liệu SageMaker hoạt động như thế nào?
Hồ dữ liệu SageMaker có thể truy cập trực tiếp từ Amazon SageMaker Unified Studio (bản xem trước). Dữ liệu từ các nguồn khác nhau được tổ chức trong các bộ chứa logic được gọi là danh mục trong Hồ dữ liệu SageMaker. Mỗi danh mục đại diện cho dữ liệu từ các nguồn dữ liệu hiện có như kho dữ liệu Amazon Redshift, hồ dữ liệu hoặc cơ sở dữ liệu. Danh mục mới có thể được tạo trực tiếp trong hồ để lưu trữ dữ liệu trong Amazon S3 hoặc Amazon Redshift Managed Storage (RMS). Dữ liệu trong Hồ dữ liệu SageMaker có thể được truy cập từ phương tiện tương thích với Apache Iceberg như Apache Spark, Athena hoặc Amazon EMR. Ngoài ra, các danh mục này có thể được phát hiện dưới dạng cơ sở dữ liệu trong kho dữ liệu Amazon Redshift, cho phép bạn sử dụng các công cụ SQL và phân tích dữ liệu trong hồ dữ liệu của bạn.
Tính năng
Hồ dữ liệu SageMaker cho phép kiểm soát truy cập thống nhất vào dữ liệu như thế nào?
Hồ dữ liệu SageMaker thống nhất kiểm soát truy cập vào dữ liệu của bạn với hai khả năng: 1) SageMaker Lakehouse cho phép bạn xác định các quyền chi tiết. Các quyền này được thực thi bởi công cụ truy vấn như Amazon EMR, Amazon Athena và Amazon Redshift. 2) Hồ dữ liệu SageMaker cho phép bạn có quyền truy cập tại chỗ vào dữ liệu, xóa bỏ nhu cầu tạo bản sao dữ liệu. Bạn có thể duy trì một bản sao dữ liệu và một bộ chính sách kiểm soát truy cập duy nhất để hưởng lợi từ việc kiểm soát truy cập chi tiết thống nhất trong Hồ dữ liệu SageMaker.
Hồ dữ liệu SageMaker hoạt động như thế nào với các dịch vụ AWS hiện có như Danh mục dữ liệu AWS Glue, AWS Lake Formation và Amazon Redshift?
Hồ dữ liệu SageMaker được xây dựng trên nhiều danh mục kỹ thuật tại Danh mục dữ liệu AWS Glue, Lake Formation và Amazon Redshift để cung cấp quyền truy cập dữ liệu thống nhất trên các hồ dữ liệu và kho dữ liệu. Hồ dữ liệu SageMaker sử dụng Danh mục dữ liệu AWS Glue và Lake Formation để lưu trữ các định nghĩa và quyền đối với bảng. Các quyền chi tiết về Lake Formation có sẵn cho các bảng đã xác định trong Hồ dữ liệu SageMaker. Bạn có thể quản lý định nghĩa bảng trong Danh mục dữ liệu AWS Glue và xác định các quyền chi tiết, chẳng hạn như quyền đối với cấp bảng, cấp cột và cấp ô, để bảo mật dữ liệu. Ngoài ra, khi sử dụng khả năng chia sẻ dữ liệu cho tài khoản chéo, bạn có thể bật tính năng chia sẻ dữ liệu không sao chép để cung cấp dữ liệu cho mục tiêu đảm bảo cộng tác an toàn.
Tôi có cần bất kỳ phần mềm máy khách nào để truy cập API của Apache Iceberg do Hồ dữ liệu SageMaker cung cấp không?
Có. Phải có thư viện máy khách Apache Iceberg nguồn mở để truy cập Hồ dữ liệu SageMaker. Khách hàng sử dụng các công cụ nguồn mở của bên thứ ba hoặc tự quản lý như Apache Spark hoặc Trino cần đưa thư viện máy khách Apache Iceberg vào công cụ truy vấn của họ để truy cập Hồ dữ liệu SageMaker.
Tôi có thể sử dụng Hồ dữ liệu SageMaker để ghi dữ liệu vào kho dữ liệu Amazon Redshift bằng Apache Spark không?
Có, sử dụng thư viện máy khách Apache Iceberg, bạn có thể đọc và ghi dữ liệu vào Amazon Redshift hiện có của mình từ các công cụ Apache Spark trên dịch vụ AWS như Amazon EMR, AWS Glue, Amazon Athena và Amazon SageMaker hoặc Apache Spark của bên thứ ba. Tuy nhiên, bạn phải có quyền ghi thích hợp trên các bảng để ghi dữ liệu vào bảng.
Tôi có thể ghép bảng trong hồ dữ liệu và kho dữ liệu Amazon Redshift của mình trên Hồ dữ liệu SageMaker không?
Có, bạn có thể ghép các bảng trong hồ dữ liệu trên Amazon S3 với các bảng trong kho dữ liệu Amazon Redshift trên nhiều cơ sở dữ liệu bằng cách sử dụng công cụ mà bạn chọn, chẳng hạn như Apache Spark.
Di chuyển
Tôi có cần chuyển dữ liệu của mình để sử dụng Hồ dữ liệu SageMaker không?
Không, bạn không cần phải chuyển dữ liệu để sử dụng Hồ dữ liệu SageMaker. Hồ dữ liệu SageMaker cho phép bạn truy cập và truy vấn dữ liệu của mình tại chỗ, với tiêu chuẩn mở của Apache Iceberg. Bạn có thể truy cập trực tiếp dữ liệu của mình trong hồ dữ liệu Amazon S3 và kho dữ liệu Amazon Redshift. Dữ liệu từ cơ sở dữ liệu và ứng dụng liên quan đến vận hành có thể được đưa vào hồ gần với thời gian thực thông qua các tích hợp Không ETL có sẵn mà không cần duy trì cơ sở hạ tầng hoặc đường ống phức tạp. Bạn cũng có thể sử dụng khả năng truy vấn liên kết để truy cập dữ liệu tại chỗ. Ngoài ra, bạn có thể sử dụng hàng trăm trình kết nối AWS Glue để tích hợp với các nguồn dữ liệu hiện có.
Tôi hiện đang sử dụng Amazon Redshift. Làm cách nào để tôi mang kho dữ liệu Amazon Redshift của mình vào Hồ dữ liệu SageMaker?
Nếu đã là người dùng Amazon Redshift, bạn có thể đăng ký kho dữ liệu Amazon Redshift với Hồ dữ liệu SageMaker trong một vài bước đơn giản mà không cần chuyển dữ liệu của mình. Thực hiện theo các bước trong hướng dẫn dành cho nhà phát triển.
Tôi hiện đang sử dụng hồ dữ liệu Amazon S3. Làm cách nào để tôi đưa hồ dữ liệu của mình sang Hồ dữ liệu SageMaker?
Nếu bạn đã cấu hình hồ dữ liệu Amazon S3 của mình bằng Danh mục dữ liệu AWS Glue, bạn không cần thực hiện bất kỳ thay đổi nào.
Tích hợp không ETL
Các tích hợp không ETL khác nhau có sẵn cho Hồ dữ liệu SageMaker là gì?
Hồ dữ liệu SageMaker cho phép hỗ trợ tích hợp không ETL với Amazon DynamoDB, Amazon Aurora và Amazon RDS dành cho MySQL và tám ứng dụng: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, quảng cáo Facebook, quảng cáo Instagram, Zendesk và SAP.
Làm cách nào để truy cập tích hợp Không ETL với Hồ dữ liệu SageMaker?
Bạn có thể định cấu hình và giám sát các tích hợp không ETL của mình thông qua bảng điều khiển AWS Glue trong Xử lý dữ liệu Amazon SageMaker bằng AWS Glue. Sau khi dữ liệu được nhập vào, bạn có thể truy cập và truy vấn dữ liệu từ các công cụ truy vấn tương thích với Apache Iceberg. Để biết thêm chi tiết, hãy truy cập trang tài liệu về tích hợp không ETL.
Mô hình định giá cho Không ETL là gì?
Để tìm hiểu thêm về mức giá, hãy truy cập trang định giá của Hồ dữ liệu SageMaker và AWS Glue.
Định giá
Hồ dữ liệu SageMaker có mức giá bao nhiêu?
Vui lòng truy cập Giá cho Hồ dữ liệu SageMaker để biết thêm chi tiết.
Độ sẵn sàng
Hồ dữ liệu SageMaker được cung cấp ở những Khu vực AWS nào?
Hồ dữ liệu SageMaker được cung cấp tại Miền Đông Hoa Kỳ (Bắc Virginia), Miền Đông Hoa Kỳ (Ohio), Miền Tây Hoa Kỳ (Oregon), Châu Á Thái Bình Dương (Hồng Kông), Châu Á Thái Bình Dương (Seoul), Châu Á Thái Bình Dương (Singapore), Châu Á Thái Bình Dương (Sydney), Châu Á Thái Bình Dương (Tokyo), Canada (Miền Trung), Châu Âu (Frankfurt), Châu Âu (Ireland), Châu Âu (London), Châu Âu (Stockholm) và Nam Mỹ (Sao Paulo).
Hồ dữ liệu SageMaker có cung cấp SLA không?
Có. Hồ dữ liệu SageMaker lưu trữ siêu dữ liệu trong Danh mục dữ liệu AWS Glue và cung cấp SLA tương tự như SLA của Amazon Glue.
Bắt đầu
Tôi bắt đầu sử dụng Hồ dữ liệu SageMaker bằng cách nào?
Để bắt đầu, bạn có thể đăng nhập vào miền SageMaker của mình bằng thông tin đăng nhập của công ty (ví dụ: Okta) trên SageMaker Unified Studio (bản xem trước). Trong một vài bước ngắn trong SageMaker Unified Studio, quản trị viên có thể tạo dự án bằng cách chọn một hồ sơ dự án cụ thể. Sau đó, bạn có thể chọn một dự án để làm việc với Hồ dữ liệu SageMaker. Sau khi chọn dự án, bạn sẽ có chế độ xem thống nhất về dữ liệu, phương tiện truy vấn và công cụ dành cho nhà phát triển tại một nơi. Người dùng như kỹ sư dữ liệu và nhà phân tích dữ liệu sau đó có thể truy vấn dữ liệu bằng cách sử dụng một công cụ mà họ chọn. Ví dụ: khi kỹ sư dữ liệu sử dụng sổ ghi chép và phát lệnh Spark để liệt kê các bảng, họ sẽ khám phá tất cả các bảng kho dữ liệu và hồ dữ liệu mà họ có quyền truy cập. Sau đó, họ có thể chạy lệnh để đọc và ghi dữ liệu vào các bảng được lưu trữ vật lý trong hồ dữ liệu Amazon S3 hoặc kho dữ liệu Amazon Redshift. Tương tự, khi một nhà phân tích dữ liệu chạy lệnh Redshift SQL từ trình soạn thảo SQL, họ sẽ nhận được cùng một chế độ xem dữ liệu thống nhất và có thể đọc cũng như ghi dữ liệu vào các bảng này. Từ các công cụ ưa thích của mình (trình soạn thảo SQL hoặc sổ ghi chép), bạn có thể tạo bảng mới trong Amazon S3 hoặc Amazon Redshift. Truy vấn các chế độ xem cụ thể hóa trong Amazon Redshift để tăng hiệu suất trên bảng hồ dữ liệu. Ngoài SageMaker Unified Studio, Hồ dữ liệu SageMaker cũng có thể truy cập từ Bảng điều khiển quản lý AWS, API dành cho AWS Glue, Giao diện dòng lệnh AWS (AWS CLI) hoặc SDK của AWS. Để biết thêm chi tiết, hãy truy cập trang Tài liệu.