Tại sao nên chọn Glue?
Với AWS Glue, bạn trả phí theo giờ, tính tiền theo giây, đối với các trình tìm kéo (khám phá dữ liệu) và tác vụ trích xuất, chuyển đổi và tải (ETL) (xử lý và tải dữ liệu). Đối với Danh mục dữ liệu AWS Glue, bạn trả khoản phí hàng tháng đơn giản để lưu trữ và truy cập siêu dữ liệu. Miễn phí lưu trữ một triệu đối tượng đầu tiên và miễn phí truy cập một triệu lượt truy cập đầu tiên. Nếu bạn cung cấp điểm cuối phát triển để dựng mã ETL theo phương pháp tương tác, bạn phải trả phí theo mức phí theo giờ, tính tiền theo giây. Đối với AWS Glue DataBrew, các phiên tương tác sẽ được tính phí theo mỗi phiên và các tác vụ DataBrew sẽ được tính phí theo phút. Sổ đăng ký lược đồ AWS Glue được sử dụng mà không mất phụ phí.
Lưu ý: Giá có thể thay đổi theo Khu vực AWS.
-
Tác vụ ETL và các phiên tương tác
-
Danh mục dữ liệu
-
Trình tìm kéo
-
Phiên tương tác DataBrew
-
Tác vụ DataBrew
-
Chất lượng dữ liệu
-
Tác vụ ETL và các phiên tương tác
-
Ví dụ định giá
Tác vụ ETL: Hãy cân nhắc việc một tác vụ AWS Glue Apache Spark chạy trong 15 phút và dùng 6 DPU. Mức giá của 1 DPU-Giờ là 0,44 USD. Vì tác vụ của bạn chạy trong 1/4 giờ và dùng 6 DPU, AWS sẽ tính phí cho bạn 6 DPU * 1/4 giờ * 0,44 USD hoặc 0,66 USD.
AWS Glue Studio Job Notebooks và các Phiên tương tác: Giả sử bạn sử dụng một sổ ghi chép trong AWS Glue Studio để phát triển mã ETL theo cách tương tác. Theo mặc định, một Phiên tương tác có 5 DPU. Nếu bạn duy trì phiên chạy trong 24 phút hay 2/5 giờ, bạn sẽ bị tính phí cho 5 DPU * 2/5 giờ theo mức phí 0,44 USD trên mỗi DPU-Giờ hay 0,88 USD.
ML Transforms: Tương tự như các lượt chạy tác vụ AWS Glue, chi phí chạy ML Transforms, bao gồm FindMatches, trên dữ liệu của bạn sẽ thay đổi theo kích thước dữ liệu, nội dung dữ liệu, số lượng và loại nút bạn sử dụng. Trong ví dụ sau, chúng tôi sử dụng FindMatches để tích hợp thông tin điểm quan tâm từ nhiều nguồn dữ liệu. Với kích thước tập dữ liệu khoảng 11.000.000 hàng (1,6 GB), kích thước dữ liệu Nhãn (ví dụ gồm kết quả khớp thực sự hoặc kết quả không khớp thực sự) khoảng 8.000 hàng (641 KB), chạy trên 16 phiên bản thuộc loại G.2x, thì thời gian hoạt động để tạo bộ nhãn sẽ là 34 phút với chi phí là 8,23 USD, thời gian hoạt động để ước tính chỉ số là 11 phút với chi phí là 2,66 USD và thời gian hoạt động để thực thi tác vụ FindingMatches là 32 phút với chi phí là 7,75 USD.
-
Danh mục dữ liệu
-
Ví dụ về định giá
Bậc miễn phí của Danh mục dữ liệu AWS Glue: Hãy xét trường hợp bạn lưu trữ một triệu bảng trên Danh mục dữ liệu trong một tháng cụ thể và thực hiện 1 triệu yêu cầu để truy cập vào các bảng này. Bạn trả 0 USD vì mức sử dụng của bạn nằm trong bậc miễn phí của Danh mục dữ liệu AWS Glue. Bạn có thể lưu trữ một triệu đối tượng đầu tiên và thực hiện một triệu yêu cầu mỗi tháng miễn phí.
Danh mục dữ liệu AWS Glue: Bây giờ, hãy xét rằng mức sử dụng dung lượng lưu trữ của bạn duy trì ở mức 1 triệu bảng mỗi tháng, tuy nhiên yêu cầu của bạn tăng gấp đôi lên 2 triệu yêu cầu mỗi tháng. Giả sử bạn cũng sử dụng trình tìm kéo để tìm bảng mới và chúng chạy trong 30 phút và sử dụng 2 DPU.
Chi phí dung lượng lưu trữ của bạn vẫn bằng 0 USD, vì dung lượng lưu trữ cho một triệu bảng đầu tiên được miễn phí. Một triệu yêu cầu đầu tiên của bạn cũng được miễn phí. Bạn sẽ bị tính phí đối với 1 triệu yêu cầu vượt trên bậc miễn phí, tức là 1 USD. Trình tìm kéo bị tính phí theo mức phí 0,44 USD mỗi DPU-Giờ nên bạn sẽ phải trả 2 DPU * 1/2 giờ theo mức phí 0,44 USD trên mỗi DPU-Giờ hay 0,44 USD.
Nếu bạn tạo số liệu thống kê trên các bảng Glue và việc chạy số liệu thống kê mất 10 phút và tiêu thụ 1 DPU, bạn sẽ bị tính phí 1 DPU * 1/6 giờ * 0,44 USD/DPU-giờ, tương đương với 0,07 USD.
Nếu bạn nén các bảng Apache Iceberg và quá trình nén chạy trong 30 phút và tiêu thụ 2 DPU, bạn sẽ bị tính phí 2 DPU * 1/2 giờ * 0,44 USD/DPU-giờ, tương đương với 0,44 USD. -
Trình tìm kéo
-
-
Phiên tương tác DataBrew
-
Ví dụ định giá
AWS Glue DataBrew: Mức giá cho mỗi phiên tương tác có thời lượng 30 phút là 1,00 USD. Nếu bạn khởi chạy phiên lúc 9:00 sáng, rời khỏi bảng điều khiển ngay lập tức và quay lại trong khoảng thời gian từ 9:20 sáng đến 9:30 sáng, việc này sẽ sử dụng 1 phiên với tổng phí là 1,00 USD.
Nếu bạn khởi chạy một phiên lúc 9:00 sáng và tương tác với bảng điều khiển DataBrew đến 9:50 sáng, bạn thoát khỏi không gian dự án DataBrew và sau đó quay lại để thực hiện tương tác cuối cùng vào lúc 10:15 sáng, việc này sẽ sử dụng 3 phiên và bạn sẽ bị tính phí 1,00 USD cho mỗi phiên với tổng phí là 3,00 USD.
-
Tác vụ DataBrew
-
Ví dụ về định giá
AWS Glue DataBrew: Nếu một tác vụ DataBrew chạy trong 10 phút và tiêu tốn 5 nút DataBrew, giá sẽ là 0,40 USD. Do tác vụ của bạn chạy trong 1/6 giờ và tiêu tốn 5 nút, bạn sẽ phải trả phí cho 5 nút * 1/6 giờ * 0,48 USD mỗi giờ chạy nút, tương đương với 0,40 USD.
-
Chất lượng dữ liệu
-
AWS Glue Data Quality tạo độ tin cậy cho dữ liệu với việc giúp bạn đạt được chất lượng dữ liệu cao. Công cụ này tự động đo lường, giám sát và quản lý chất lượng dữ liệu trong hồ dữ liệu và quy trình của bạn, giúp bạn dễ dàng xác định dữ liệu bị thiếu, cũ hoặc kém.
Bạn có thể truy cập các tính năng chất lượng dữ liệu từ Danh mục dữ liệu và AWS Glue Studio cũng như thông qua các API AWS Glue.
Định giá cho quản lý chất lượng dữ liệu của các tập dữ liệu được lập danh mục trong Danh mục dữ liệu:Bạn có thể chọn một tập dữ liệu từ Danh mục dữ liệu và tạo đề xuất. Hành động này sẽ tạo ra một Tác vụ đề xuất mà bạn sẽ cung cấp các đơn vị xử lý dữ liệu (DPU) cho tác vụ đó. Sau khi nhận được đề xuất, bạn có thể sửa đổi hoặc thêm các quy tắc mới và lên lịch quy tắc. Những tác vụ này được gọi là Tác vụ chất lượng dữ liệu mà bạn sẽ cung cấp DPU cho các tác vụ đó. Bạn sẽ cần có tối thiểu 2 DPU với thời gian thanh toán tối thiểu 1 phút.
Định giá cho quản lý chất lượng dữ liệu của các tập dữ liệu được xử lý trên AWS Glue ETL:Bạn cũng có thể bổ sung các kiểm tra chất lượng dữ liệu này vào tác vụ ETL của mình để ngăn dữ liệu xấu xâm nhập vào hồ dữ liệu của bạn. Các quy tắc chất lượng dữ liệu này sẽ nằm trong các tác vụ ETL của bạn, dẫn đến tăng thời gian hoạt động hoặc tăng mức tiêu thụ DPU. Ngoài ra, bạn có thể sử dụng Thực thi linh hoạt cho khối lượng công việc không thiên về SLA.
Định giá cho phát hiện bất thường trong AWS Glue ETL:
Phát hiện bất thường:
Bạn sẽ phải chịu phí 1 DPU cho mỗi số liệu thống kê ngoài DPU cho tác vụ ETL của bạn trong thời gian cần thiết để phát hiện bất thường. Trung bình, phải mất từ 10-20 giây để phát hiện bất thường cho 1 số liệu thống kê. Giả sử rằng bạn đã cấu hình hai Quy tắc (Quy tắc 1: khối lượng dữ liệu phải lớn hơn 1000 bản ghi, Quy tắc 2: số cột phải lớn hơn 10) và một Trình phân tích (Trình phân tích 1: giám sát tính đầy đủ của cột). Cấu hình này sẽ tạo ra ba số liệu thống kê: số hàng, số cột và tỷ lệ phần trăm đầy đủ của một cột. Bạn sẽ được tính thêm 3 DPU trong thời gian cần thiết để phát hiện bất thường với mức tối thiểu 1 giây. Xem ví dụ 4 để biết thêm chi tiết.
Đào tạo lại:
Bạn có thể muốn loại trừ các lần chạy tác vụ hoặc số liệu thống kê bất thường để thuật toán phát hiện bất thường dự đoán chính xác các bất thường tiếp theo. Để thực hiện việc này, AWS Glue cho phép bạn loại trừ hoặc bao gồm số liệu thống kê. Bạn sẽ phải chịu phí 1 DPU để đào tạo lại mô hình trong thời gian cần thiết để đào tạo lại. Trung bình, đào tạo lại mất 10 giây đến 20 phút cho mỗi số liệu thống kê. Xem ví dụ 5 để biết thêm chi tiết.
Lưu trữ số liệu thống kê:
Không tính phí để lưu trữ số liệu thống kê được thu thập. Có giới hạn 100.000 số liệu thống kê cho mỗi tài khoản và thời gian lưu trữ là 2 năm.
Phụ phí:
AWS Glue xử lý dữ liệu trực tiếp từ Amazon Simple Storage Service (Amazon S3). Không có phụ phí lưu trữ cho việc đọc dữ liệu bằng AWS Glue. Bạn phải trả mức giá Amazon S3 tiêu chuẩn cho việc lưu trữ, yêu cầu và truyền dữ liệu. Dựa trên cấu hình của bạn, các tệp tạm thời, kết quả chất lượng dữ liệu và tệp xáo trộn được lưu trữ trong vùng lưu trữ S3 mà bạn chọn và cũng được tính phí theo mức giá S3 tiêu chuẩn.
Nếu sử dụng Danh mục dữ liệu, bạn sẽ phải trả phí theo mức giá Danh mục dữ liệu tiêu chuẩn. Để biết chi tiết, hãy chọn tab Lưu trữ và yêu cầu Danh mục dữ liệu.
Ví dụ về định giá
Ví dụ 1 – Nhận đề xuất cho một bảng trong Danh mục dữ liệuVí dụ: giả sử một nhiệm vụ đề xuất với 5 DPU hoàn thành trong 10 phút. Bạn sẽ trả 5 DPU * 1/6 giờ * 0,44 USD, tương đương 0,37 USD.
Ví dụ 2 – Đánh giá chất lượng dữ liệu của một bảng trong Danh mục dữ liệuSau khi xem xét đề xuất, bạn có thể chỉnh sửa đề xuất nếu cần và sau đó lên lịch nhiệm vụ chất lượng dữ liệu bằng cách cung cấp DPU. Ví dụ: ta có một nhiệm vụ đánh giá chất lượng dữ liệu với 5 DPU hoàn thành trong 20 phút.
Bạn sẽ trả 5 DPU * 1/3 giờ * 0,44 USD, tương đương 0,73 USD.
Ví dụ 3 – Đánh giá chất lượng dữ liệu trong tác vụ AWS Glue ETLBạn cũng có thể bổ sung các kiểm tra chất lượng dữ liệu này vào tác vụ AWS Glue ETL của mình để ngăn dữ liệu xấu xâm nhập vào hồ dữ liệu của bạn. Bạn có thể thực hiện việc này bằng cách thêm tính năng Chuyển đổi chất lượng dữ liệu trên AWS Glue Studio hoặc sử dụng API AWS Glue trong mã bạn viết trong sổ tay AWS Glue Studio. Ta có tác vụ AWS Glue chạy trong đó quy tắc chất lượng dữ liệu được định cấu hình trong quy trình, thực thi trong 20 phút (1/3 giờ) với 6 DPU. Bạn sẽ phải trả phí 6 DPU * 1/3 giờ * 0,44 USD, tương đương 0,88 USD. Ngoài ra, bạn có thể sử dụng Flex với mức phí 6 DPU * 1/3 giờ * 0,29 USD, tương đương 0,58 USD.
Ví dụ 4 – Đánh giá chất lượng dữ liệu trong một tác vụ AWS Glue ETL với tính năng Phát hiện bất thường
Giả sử một tác vụ AWS Glue đọc dữ liệu từ Amazon S3, chuyển đổi dữ liệu và chạy kiểm tra chất lượng dữ liệu trước khi tải lên Amazon Redshift. Giả sử rằng quy trình này có 10 quy tắc và 10 trình phân tích, thu thập được 20 số liệu thống kê. Ngoài ra, giả sử rằng quá trình trích xuất, chuyển đổi, tải, thu thập số liệu thống kê, đánh giá chất lượng dữ liệu sẽ mất 20 phút. Nếu không bật tính năng Phát hiện bất thường, khách hàng sẽ bị tính phí 6 DPU * 1/3 giờ (20 phút) * 0,44 USD, tương đương 0,88 USD (A). Khi bật Phát hiện bất thường, chúng tôi sẽ thêm 1 DPU cho mỗi số liệu thống kê và trung bình sẽ mất 15 giây để phát hiện bất thường. Trong ví dụ này, khách hàng sẽ phải chịu phí cho 20 số liệu thống kê * 1 DPU * 15/3600 (0,0041 giờ/số liệu thống kê) * 0,44 USD (chi phí cho mỗi DPU/giờ) = 0,037 USD (B). Tổng chi phí cho tác vụ sẽ là 0,88 USD (A) + 0,037 USD (B) = 0,917 USD.
Ví dụ 5 – Đào tạo lạiGiả sử rằng tác vụ trên Glue của bạn đã phát hiện ra một bất thường. Bạn quyết định loại trừ bất thường khỏi mô hình để thuật toán phát hiện bất thường dự đoán chính xác các bất thường trong tương lai. Để làm điều này, bạn có thể đào tạo lại mô hình bằng cách loại trừ số liệu thống kê bất thường này. Bạn sẽ phải chịu phí 1 DPU cho mỗi số liệu thông kê trong thời gian cần thiết để đào tạo lại mô hình. Trung bình, hành động này có thể mất 15 giây. Trong ví dụ này, giả sử bạn loại trừ 1 điểm dữ liệu, bạn sẽ phải chịu phí 1 số liệu thống kê * 1 DPU * 15/3600 (0,0041 giờ/số liệu thống kê) * 0,44 USD = 0,00185 USD.
Lưu ý: Mức giá có thể thay đổi theo Khu vực.
Xem bảng Khu vực toàn cầu để tìm hiểu thêm về độ sẵn sàng của AWS Glue.