Amazon SageMaker Canvas hiện hỗ trợ nhập luồng dữ liệu và chuẩn bị dữ liệu nhanh hơn cho ML

Ngày đăng: 20 Th08 2024

Amazon SageMaker Data Wrangler trong Amazon SageMaker Canvas hiện hỗ trợ nhập luồng dữ liệu từ Studio Amazon SageMaker Classic, cũng như chuẩn bị dữ liệu nhanh hơn và linh hoạt hơn cho máy học (ML). Phiên bản mới nhất của SageMaker Data Wrangler trong SageMaker Canvas hiện cung cấp các dấu phân tách tùy chỉnh và nhiều tùy chọn lấy mẫu hơn, cùng khả năng chuẩn bị dữ liệu với hiệu suất được tăng cường, giúp bạn nhập dữ liệu từ S3 dễ dàng hơn. Thêm vào đó, tốc độ xác thực các phép chuyển đổi cũng nhanh hơn và các công thức dữ liệu cũng dễ dàng lặp lại hơn. Bạn cũng có thể tận dụng các tính năng chuẩn bị dữ liệu mới nhất cùng các cải tiến trong SageMaker Canvas bằng cách nhập luồng dữ liệu từ Studio SageMaker Classic.

Với bản chất là một quy trình có tính lặp lại cao và đều đặn, việc tổng hợp, phân tích và chuyển đổi lượng lớn dữ liệu là bước tốn nhiều thời gian nhất trong một dự án ML. Khi tận dụng những cải tiến mới này, bạn có thể nhập dữ liệu với phương pháp lấy mẫu khác nhau như top-k, ngẫu nhiên hoặc phân tổ, cũng như điều chỉnh kích cỡ mẫu và phương pháp khi cần để có được mẫu đại diện. Bạn có thể chuyển đổi dữ liệu với độ trễ thấp hơn, xác thực nhanh tác động của phép chuyển đổi đối với kích thước dữ liệu và sắp xếp lại các bước khi cần thiết. Ngoài ra, bạn có thể sao chép công thức dữ liệu và thay thế nguồn dữ liệu để sử dụng lại các nguồn này cho tập dữ liệu và mô hình khác nhau. Cuối cùng, không thể không kể đến khả năng nhập tất cả các luồng dữ liệu hiện có từ SageMaker Data Wrangler trong Studio SageMaker Classic sang SageMaker Canvas hoặc nhập thủ công các luồng dữ liệu cụ thể thông qua S3 hoặc thao tác tải lên tệp cục bộ.

Các chức năng chuẩn bị dữ liệu được tăng cường này hiện đã có ở tất cả các khu vực AWS hỗ trợ SageMaker Canvas. Hãy tham khảo blogtài liệu kỹ thuật AWS để biết thêm thông tin.