Sử dụng trực tiếp Apache Spark trên Amazon EMR phi máy chủ từ Studio Amazon Sagemaker

Ngày đăng: 4 Th09 2024

Giờ đây, bạn có thể chạy các dịch vụ máy học và phân tích dữ liệu ở quy mô petabyte trên Amazon EMR phi máy chủ trực tiếp từ sổ tay Studio Amazon SageMaker. EMR phi máy chủ tự động cung cấp và điều chỉnh quy mô các tài nguyên cần thiết, để bạn có thể tập trung vào dữ liệu và mô hình mà không cần phải cấu hình, tối ưu hóa, điều chỉnh hay quản lý các cụm. EMR phi máy chủ tự động cài đặt và cấu hình các khung nguồn mở và cung cấp môi trường thời gian hoạt động được tối ưu hóa hiệu suất, tương thích với nguồn mở tiêu chuẩn và chạy nhanh hơn nguồn mở tiêu chuẩn.

Với bản phát hành này, bạn hiện có thể tạo trực quan và duyệt xem các ứng dụng EMR phi máy chủ trực tiếp từ SageMaker Studio, cũng như kết nối với chúng chỉ bằng vài cú nhấp chuột đơn giản. Sau khi kết nối với ứng dụng EMR phi máy chủ, bạn có thể sử dụng Spark SQL, Scala, Python để truy vấn, khám phá và trực quan hóa dữ liệu ở dạng tương tác và chạy các công việc Apache Spark để xử lý dữ liệu trực tiếp từ Sổ tay Studio. Các công việc được thực hiện nhanh chóng vì chúng sử dụng các phiên bản Spark được tối ưu hóa hiệu suất của EMR. Lấy ví dụ, Spark trên EMR 7.1 nhanh hơn 4,5 lần so với phiên bản nguồn mở tương đương. EMR phi máy chủ có tính năng tự động điều chỉnh quy mô chi tiết, có thể cung cấp và nhanh chóng điều chỉnh quy mô tài nguyên điện toán và bộ nhớ cho phù hợp với yêu cầu của ứng dụng và bạn chỉ trả tiền tương ứng với mức sử dụng.

Các tính năng này được hỗ trợ trên Phân phối SageMaker 1.10 trở lên và được cung cấp rộng rãi ở tất cả các Khu vực AWS nơi có sẵn SageMaker Studio. Để tìm hiểu thêm, hãy đọc blog Sử dụng LangChain với PySpark để xử lý tài liệu trên quy mô lớn với Studio Amazon SageMaker và EMR phi máy chủ hoặc tài liệu Studio SageMaker tại đây.