Nền tảng dữ liệu lớn – Amazon EMR

Amazon EMR

Dễ dàng chạy và mở rộng quy mô Apache Spark, Trino và các khối lượng công việc dữ liệu lớn khác

Tại sao Amazon EMR?

Amazon EMR là một dịch vụ xử lý dữ liệu lớn giúp tăng tốc khối lượng công việc phân tích với tính linh hoạt và quy mô chưa từng có. EMR có tính năng chạy tối ưu hóa hiệu suất cho Apache Spark, Trino, Apache Flink và Apache Hive, cắt giảm đáng kể chi phí và thời gian xử lý. Dịch vụ tích hợp liền mạch với AWS, đơn giản hóa quy trình công việc hồ dữ liệu và kiến trúc quy mô doanh nghiệp. Với khả năng tự động mở rộng quy mô, giám sát thông minh và cơ sở hạ tầng được quản lý tích hợp, EMR cho phép bạn tập trung vào việc trích xuất thông tin chi tiết — chứ không phải quản lý cụm — cung cấp phân tích quy mô petabyte hiệu quả mà không cần chi phí hoạt động của các giải pháp truyền thống.

Tùy chọn triển khai linh hoạt

Tại sao nên chọn EMR phi máy chủ?

Amazon EMR Serverless giúp các nhà phân tích dữ liệu và kỹ sư dễ dàng chạy các khung phân tích dữ liệu lớn nguồn mở như Apache Spark mà không cần cấu hình, quản lý và mở rộng các cụm hoặc máy chủ. EMR Serverless là cách nhanh nhất để bắt đầu với tất cả các tính năng và lợi ích của Amazon EMR mà không cần các chuyên gia lập kế hoạch và quản lý các cụm.

EMR Serverless

Tại sao Amazon EMR trên Amazon EC2?

Amazon EMR trên Amazon EC2 cung cấp quyền kiểm soát cấu hình cụm và hỗ trợ các cụm chạy lâu dài, làm cho nó trở nên hoàn hảo cho các tác vụ xử lý dữ liệu liên tục yêu cầu thiết lập phần cứng cụ thể. Bạn có thể cài đặt các ứng dụng tùy chỉnh cùng với các framework phổ biến như Apache Spark và Trino, đồng thời cung cấp một loạt các loại phiên bản EC2 để tối ưu hóa cả chi phí và hiệu suất. Tích hợp với các dịch vụ AWS khác và khả năng sử dụng Phiên bản Spot làm cho nó trở thành một giải pháp hiệu quả về chi phí cho các tổ chức yêu cầu kiểm soát chi tiết đối với các hoạt động dữ liệu lớn của họ.

Tại sao Amazon EMR trên Amazon EKS?

Amazon EMR trên Amazon Elastic Kubernetes Service (EKS) cho phép bạn gửi công việc Apache Spark theo yêu cầu trên EKS mà không cần cung cấp các cụm EMR. Với EMR trên EKS, bạn có thể chạy khối lượng công việc phân tích của mình trên cùng một cụm Amazon EKS như các ứng dụng dựa trên Kubernetes khác để cải thiện việc sử dụng tài nguyên và đơn giản hóa việc quản lý cơ sở hạ tầng.

Amazon EMR trên Amazon EKS

Xử lý dữ liệu của bạn với Amazon EMR trong thế hệ tiếp theo của Amazon SageMaker

Amazon EMR có sẵn trong thế hệ tiếp theo của Amazon SageMaker, cho phép bạn dễ dàng chạy Apache Spark, Trino và các khung phân tích nguồn mở khác trong môi trường phát triển dữ liệu và AI thống nhất.

Tìm hiểu thêm.

Tính năng

Amazon EMR chạy các công việc đọc Apache Spark và Iceberg nhanh hơn 4,5 lần so với mã nguồn mở Spark và Iceberg

Tìm hiểu thêm

Amazon EMR chạy các công việc viết Apache Spark và Apache Iceberg nhanh hơn gấp 2 lần so với mã nguồn mở Spark và Iceberg

Tìm hiểu thêm

Lợi ích

Amazon EMR kết hợp Apache Spark được tối ưu hóa hiệu suất để xử lý nhanh hơn, tiết kiệm chi phí với sự linh hoạt trong việc lựa chọn các loại phiên bản, bao gồm Phiên bản Spot, và mở rộng tự động được quản lý hoàn toàn giúp kích thước phù hợp với cụm — loại bỏ việc cung cấp quá mức và giảm chi phí tổng thể.

Amazon EMR nhanh hơn 5,4 lần so với Apache Spark mã nguồn mở trong khi vẫn duy trì khả năng tương thích API. Nó cho phép khách hàng triển khai các framework mã nguồn mở mà họ lựa chọn — Apache Spark, Trino, Apache Flink hoặc Apache Hive. EMR hỗ trợ các định dạng bảng mở phổ biến như Iceberg, Hudi và Delta để tăng tốc thời gian thấu hiểu.

EMR cung cấp sự lựa chọn trong triển khai, bao gồm EMR Serverless để xử lý được quản lý hoàn toàn, không có cơ sở hạ tầng, EMR trên EC2 để kiểm soát cụm chi tiết và EMR trên EKS cho khối lượng công việc dữ liệu lớn gốc của Kubernetes. Cho dù chạy các cụm ngắn hạn cho các công việc theo yêu cầu hay cụm chạy dài hạn cho các tác vụ liên tục, EMR thích ứng với nhu cầu hoạt động của bạn đồng thời tối ưu hóa chi phí thông qua phân bổ tài nguyên linh hoạt và mở rộng hiệu quả.

Amazon EMR trong thế hệ tiếp theo của Amazon SageMaker cho phép bạn chạy các framework mã nguồn mở như Apache Spark, Trino và Apache Flink, cho phép bạn mở rộng khối lượng công việc phân tích một cách dễ dàng — tất cả mà không cần cung cấp hoặc quản lý cơ sở hạ tầng. Với khả năng của EMR trong Amazon SageMaker, bạn có thể thống nhất việc xử lý dữ liệu và phát triển mô hình, cho phép quy trình làm việc đầu cuối từ chuyển đổi dữ liệu thô đến triển khai AI trong một môi trường hợp tác duy nhất.

Chuyển đổi các bản nâng cấp Apache Spark kéo dài hàng tháng thành các dự án hiệu quả kéo dài một tuần thông qua tự động hóa thông minh. Tác nhân nâng cấp Spark hợp lý hóa việc di chuyển quy mô doanh nghiệp bằng cách tự động phân tích và xác thực các thay đổi API trên toàn bộ cơ sở mã của bạn, giảm đáng kể cả chi phí và độ phức tạp.

Trường hợp sử dụng

Xử lý dữ liệu quy mô lớn và phân tích tình huống giả định bằng cách sử dụng thuật toán thống kê và mô hình dự đoán để khám phá những khuôn mẫu ẩn, tính tương quan, xu hướng thị trường và sở thích của khách hàng.

Trích xuất dữ liệu từ nhiều nguồn khác nhau, xử lý theo quy mô và cung cấp dữ liệu cho ứng dụng và người dùng.

Phân tích sự kiện từ các nguồn dữ liệu truyền phát theo thời gian thực để tạo ra đường ống dữ liệu truyền phát lâu bền, có độ sẵn sàng cao cùng khả năng chịu lỗi.

Phân tích dữ liệu bằng cách sử dụng các khung ML mã nguồn mở, chẳng hạn như Apache Spark MLlib, TensorFlow và Apache MXNet. Kết nối với Amazon SageMaker Studio để đào tạo, phân tích và báo cáo mô hình quy mô lớn.

Bắt đầu sử dụng Amazon EMR

Trang tính năng

Tìm hiểu cách thức hoạt động của Amazon EMR

Khám phá các tính năng của Amazon EMR

Giá cả

Khám phá mức định giá của Amazon EMR

Tìm hiểu thêm về giá của Amazon EMR

Amazon EMR

Tại sao Amazon EMR?

Tùy chọn triển khai linh hoạt

Tại sao nên chọn EMR phi máy chủ?

Tại sao Amazon EMR trên Amazon EC2?

Tại sao Amazon EMR trên Amazon EKS?

Xử lý dữ liệu của bạn với Amazon EMR trong thế hệ tiếp theo của Amazon SageMaker

Tính năng

Amazon EMR chạy các công việc đọc Apache Spark và Iceberg nhanh hơn 4,5 lần so với mã nguồn mở Spark và Iceberg

Amazon EMR chạy các công việc viết Apache Spark và Apache Iceberg nhanh hơn gấp 2 lần so với mã nguồn mở Spark và Iceberg

Lợi ích

Trường hợp sử dụng

Bắt đầu sử dụng Amazon EMR

Tìm hiểu cách thức hoạt động của Amazon EMR

Khám phá mức định giá của Amazon EMR

Tìm hiểu

Tài nguyên

Nhà phát triển

Trợ giúp

Amazon EMR

Tại sao Amazon EMR?

Tùy chọn triển khai linh hoạt

Tại sao nên chọn EMR phi máy chủ?

Tại sao Amazon EMR trên Amazon EC2?

Tại sao Amazon EMR trên Amazon EKS?

Xử lý dữ liệu của bạn với Amazon EMR trong thế hệ tiếp theo của Amazon SageMaker

Tính năng

Amazon EMR chạy các công việc đọc Apache Spark và Iceberg nhanh hơn 4,5 lần so với mã nguồn mở Spark và Iceberg

Amazon EMR chạy các công việc viết Apache Spark và Apache Iceberg nhanh hơn gấp 2 lần so với mã nguồn mở Spark và Iceberg

Lợi ích

Xử lý dữ liệu lớn tiết kiệm chi phí

Tăng tốc thời gian thấu hiểu và tối ưu hóa hiệu suất

Linh hoạt triển khai vô song

Tối ưu hóa xử lý dữ liệu trong Amazon SageMaker

Tăng tốc nâng cấp Spark với hỗ trợ AI

Trường hợp sử dụng

Thực hiện phân tích dữ liệu lớn

Xây dựng quy trình dữ liệu có thể điều chỉnh quy mô

Xử lý các luồng dữ liệu theo thời gian thực

Tăng tốc áp dụng khoa học dữ liệu và ứng dụng ML

Bắt đầu sử dụng Amazon EMR

Tìm hiểu cách thức hoạt động của Amazon EMR

Khám phá mức định giá của Amazon EMR

Tìm hiểu

Tài nguyên

Nhà phát triển

Trợ giúp