Chạy khối lượng công việc tương tác trên Amazon EMR phi máy chủ với Spark Connect

Ngày đăng: 9 Th06 2026

Amazon EMR phi máy chủ hiện hỗ trợ phiên tương tác với Spark Connect, tạo điều kiện cho bạn phát triển và chạy ứng dụng Apache Spark từ sổ tay được quản lý trong Studio hợp nhất của Amazon SageMaker, cũng như các môi trường sổ tay và IDE ưa thích của bạn như Jupyter và Visual Studio Code. Bạn cũng có thể theo dõi và gỡ lỗi các phiên đang hoạt động và phiên đã hoàn thành trong bảng điều khiển EMR, đồng thời, có được khả năng hiển thị chi tiết về chi phí và mức sử dụng đối với phiên riêng lẻ. 

 

Phiên tương tác cung cấp bối cảnh Spark được duy trì liên tục, trải dài liền mạch trên nhiều ô và tập lệnh, tạo điều kiện cho bạn kết hợp việc thực thi mã Python cục bộ với thao tác Spark từ xa trong một môi trường thống nhất. Nền tảng của khả năng này là kiến trúc máy khách-máy chủ của Spark Connect, giúp tách ứng dụng khách của bạn khỏi trình điều khiển Spark và cho phép bạn duy trì môi trường và công cụ phát triển ưu tiên của mình trong khi cơ sở hạ tầng Spark chạy độc lập trên EMR phi máy chủ. Kiến trúc này mở ra khả năng sử dụng các quy trình công việc bao gồm khám phá dữ liệu tùy biến, gỡ lỗi từng bước có thể lặp đi lặp lại và phát triển từng phần công việc PySpark trước khi triển khai vào sản xuất.  Đối với khả năng quan sát, bạn có được khả năng giám sát phiên theo thời gian thực thông qua giao diện người dùng Spark, theo dõi lịch sử thông qua Spark History Server và quản lý phiên từ bảng điều khiển EMR hoặc API/CLI/SDK.

 

Spark Connect trên Amazon EMR phi máy chủ được cung cấp kèm theo bản phát hành EMR 7.13 ở tất cả các Khu vực AWS hỗ trợ Amazon EMR phi máy chủ. Trải nghiệm Studio hợp nhất của SageMaker được cung cấp tại các khu vực được hỗ trợ. Để bắt đầu, hãy truy cập Hướng dẫn sử dụng phiên tương tác EMR phi máy chủ hoặc hướng dẫn Bắt đầu sử dụng Studio hợp nhất của Amazon SageMaker.