Amazon EMR

Dễ dàng chạy và thay đổi quy mô Apache Spark, Hive, Presto và các framework dữ liệu lớn khác

Amazon EMR là nền tảng dữ liệu lớn trên nền tảng đám mây hàng đầu ngành để xử lý lượng lớn dữ liệu bằng các công cụ nguồn mở như Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache HudiPresto. Amazon EMR giúp bạn dễ dàng thiết lập, vận hành và mở rộng môi trường dữ liệu lớn bằng cách tự động hóa các tác vụ tốn thời gian như cung cấp dung lượng và tinh chỉnh các cụm. Với EMR, bạn có thể chạy phân tích ở cấp độ petabyte với chi phí ít hơn một nửa so với các giải pháp tại chỗ truyền thống và nhanh hơn gấp 3 lần so với Apache Spark tiêu chuẩn. Bạn có thể chạy khối lượng công việc trên các phiên bản Amazon EC2, trên các cụm Amazon Elastic Kubernetes Service (EKS) hoặc tại chỗ bằng cách sử dụng EMR trên AWS Outposts.

Khám phá cách Apache Hudi đơn giản hóa các quy trình để thu thập dữ liệu thay đổi (CDC) và các quy định về quyền riêng tư

Giới thiệu về Amazon EMR (3:00)

Lợi ích

Dễ sử dụng

Các nhà phân tích, kỹ sư dữ liệu và nhà khoa học dữ liệu có thể sử dụng EMR Notebooks để cộng tác và khám phá tương tác, xử lý và trực quan hóa dữ liệu. Chỉ cần chỉ định phiên bản của ứng dụng EMR và loại điện toán bạn muốn sử dụng. EMR đảm nhiệm việc cung cấp, định cấu hình và điều chỉnh các cụm sao cho bạn có thể tập trung vào việc chạy phân tích.

Chi phí thấp

Mức giá của EMR đơn giản và dự báo được: Bạn trả mức phí theo từng phiên bản cho mỗi giây sử dụng, trong đó tiền phí tối thiểu là một phút. Bạn có thể khởi chạy cụm EMR gồm 10 nút với mức phí thấp chỉ bằng 0,15 USD mỗi giờ. Bạn có thể tiết kiệm 50-80% chi phí cho các phiên bản bằng cách chọn Amazon EC2 Spot cho khối lượng công việc tạm thời và Phiên bản đặt trước cho khối lượng công việc dài hạn. Bạn cũng có thể sử dụng Savings Plans.

Linh hoạt

Không giống như cơ sở hạ tầng khuôn mẫu của các cụm tại chỗ, EMR khử liên kết điện toán và lưu trữ, cho bạn khả năng thay đổi quy mô một cách độc lập và tận dụng lưu trữ được phân bậc của Amazon S3. Với EMR, bạn có thể cung cấp một, hàng trăm hoặc hàng nghìn phiên bản điện toán hoặc bộ chứa để xử lý dữ liệu ở bất kỳ quy mô nào. Số lượng phiên bản có thể tự động tăng hoặc giảm bằng cách sử dụng Auto Scaling (quản lý kích thước cụm dựa trên mức độ sử dụng) và bạn chỉ trả tiền cho những gì mình sử dụng.

Độ tin cậy

Thời gian cho việc tinh chỉnh và giám sát cụm máy chủ của bạn sẽ được rút ngắn. EMR được tinh chỉnh cho đám mây và liên tục giám sát cụm máy chủ của bạn — thử lại các tác vụ thất bại và tự động thay thế các phiên bản có hiệu năng thấp. Các cụm máy chủ có mức độ khả dụng cao và chuyển đổi dự phòng tự động trong trường hợp xảy ra sự cố nút. EMR cung cấp các bản phát hành phần mềm nguồn mở ổn định mới nhất, do đó, bạn không phải quản lý các bản cập nhật và sửa lỗi, nhờ đó gặp ít sự cố hơn và không phải tốn nhiều công sức để duy trì môi trường của bạn.

Bảo mật

EMR tự động định cấu hình thiết lập tường lửa EC2, kiểm soát quyền truy cập mạng đến các phiên bản và khởi chạy các cụm máy chủ trên Amazon Virtual Private Cloud (VPC). Mã hóa phía máy chủ hoặc mã hóa phía máy khách có thể được sử dụng với AWS Key Management Service hoặc các khóa do chính khách hàng quản lý. EMR giúp dễ dàng thực hiện các tùy chọn mã hóa, như mã hóa dữ liệu truyền và lưu trữ và phương thức xác thực mạnh với Kerberos. Bạn có thể sử dụng AWS Lake Formation hoặc Apache Ranger để áp dụng các kiểm soát truy cập dữ liệu chi tiết cho cơ sở dữ liệu, bảng và cột.

Linh động

Bạn có toàn quyền kiểm soát các cụm EMR và các tác vụ EMR cá nhân của mình. Bạn có thể khởi chạy các cụm EMR với Amazon Linux AMI tùy chỉnh và dễ dàng định cấu hình các cụm bằng cách sử dụng tập lệnh để cài đặt các gói phần mềm bổ sung của bên thứ ba. EMR cho phép bạn định cấu hình lại các ứng dụng trên các cụm đang chạy một cách nhanh chóng mà không cần phải khởi chạy lại các cụm. Ngoài ra, bạn có thể tùy chỉnh môi trường thực thi cho các tác vụ cá nhân bằng cách chỉ định các thư viện và các yếu tố phụ thuộc của thời gian chạy trong bộ chứa Docker và gửi chúng cùng với tác vụ của bạn.

Tùy chọn triển khai

Amazon EMR trên Amazon EC2

Bạn có thể triển khai EMR trên Amazon EC2 và tận dụng các Phiên bản dùng ngay, đặt trước và theo nhu cầu. EMR quản lý việc cung cấp, quản lý và mở rộng quy mô các phiên bản EC2. AWS cung cấp nhiều tùy chọn phiên bản hơn bất kỳ nhà cung cấp đám mây nào khác, cho phép bạn chọn phiên bản mang lại cho bạn hiệu năng hoặc chi phí tốt nhất cho khối lượng công việc của bạn.

Tìm hiểu thêm »

Amazon EMR trên Amazon EKS

Bạn có thể dùng EMR để chạy các tác vụ Apache Spark theo nhu cầu trên Amazon Elastic Kubernetes Service (EKS) mà không cần cung cấp các cụm EMR, để cải thiện việc sử dụng tài nguyên và đơn giản hóa việc quản lý cơ sở hạ tầng. Amazon EKS mang đến cho bạn sự linh hoạt để khởi động, chạy và thay đổi quy mô các ứng dụng Kubernetes trong đám mây AWS hoặc tại chỗ. Với Amazon EMR trên EKS, bạn có thể chia sẻ tài nguyên điện toán và bộ nhớ trên tất cả các ứng dụng của mình và sử dụng một bộ công cụ Kubernetes duy nhất để theo dõi và quản lý cơ sở hạ tầng của bạn một cách tập trung.

Tìm hiểu thêm »

Amazon EMR trên AWS Outposts

Amazon EMR có sẵn trên AWS Outposts, cho phép bạn thiết lập, triển khai, quản lý và mở rộng quy mô EMR trong môi trường tại chỗ của bạn, giống như bạn làm trong đám mây. AWS Outposts cung cấp các dịch vụ AWS, cơ sở hạ tầng và các mô hình hoạt động cho hầu hết các trung tâm dữ liệu, không gian chung hoặc cơ sở tại chỗ.

Tìm hiểu thêm »

Trường hợp sử dụng

Machine learning

Sử dụng các công cụ máy học tích hợp sẵn của EMR, bao gồm Apache Spark MLlib, TensorFlow và Apache MXNet cho các thuật toán máy học có thể thay đổi quy mô và sử dụng các thao tác của các AMI tùy chỉnh và bootstrap để dễ dàng thêm các thư viện và công cụ ưu tiên để tạo bộ công cụ phân tích dự đoán của riêng bạn.

Trích xuất, chuyển đổi, tải (ETL)

Có thể sử dụng EMR để thực hiện khối lượng công việc chuyển đổi dữ liệu (ETL) một cách nhanh chóng và tiết kiệm chi phí chẳng hạn như việc phân loại, tổng hợp và nối trên các tập dữ liệu lớn.

Tìm hiểu cách Redfin sử dụng các cụm máy chủ EMR chuyển đổi cho ETL »

Phân tích luồng dữ liệu nhấp chuột

Phân tích dữ liệu nhấp chuột từ Amazon S3 bằng Apache Spark và Apache Hive cho người dùng theo phân khúc, hiểu sở thích của người dùng và phân phối quảng cáo hiệu quả hơn.

Truyền dòng dữ liệu thời gian thực

Phân tích các sự kiện từ Apache Kafka, Amazon Kinesis hoặc các nguồn dữ liệu phát trực tuyến khác trong thời gian thực với Apache Spark Streaming và Apache Flink để tạo ra các đường truyền dữ liệu thời gian dài, khả năng sử dụng cao và dung sai cao trên EMR. Chuyển đổi liên tục bộ dữ liệu sang S3 hoặc HDFS và hiểu hơn về Amazon Elasticsearch Service.

Tìm hiểu cách Hearst sử dụng Spark Streaming »

Phân tích tương tác

EMR Notebooks cung cấp một môi trường phân tích được quản lý dựa trên Jupyter mã nguồn mở cho phép các nhà khoa học, nhà phân tích và nhà phát triển dữ liệu chuẩn bị và trực quan hóa dữ liệu, cộng tác với các đồng nghiệp, xây dựng ứng dụng và thực hiện phân tích tương tác.

Nghiên cứu cấu trúc gen

Có thể sử dụng EMR để xử lý khối lượng dữ liệu gen cực lớn và các bộ dữ liệu khoa học lớn khác một cách nhanh chóng và hiệu quả. Các nhà nghiên cứu có thể truy cập dữ liệu gien được lưu trữ miễn phí trên AWS.

Tìm hiểu về Apache Spark và Precision Medicine »

Nghiên cứu điển hình

Nghiên cứu của chuyên gia phân tích

Thêm…

Có gì mới

ngày
  • ngày
1

Bắt đầu với AWS

Đọc Hướng dẫn di chuyển EMR
Đọc Hướng dẫn di chuyển

Tìm hiểu cách di chuyển dữ liệu lớn từ máy chủ tại chỗ sang AWS.

Tìm hiểu thêm 
Đăng ký một tài khoản AWS miễn phí
Đăng ký một tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS. 

Đăng ký 
Bắt đầu xây dựng với EMR trong bảng điều khiển
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng với Amazon EMR trên Bảng điều khiển AWS.

Đăng nhập 

Di chuyển dữ liệu lớn từ máy chủ tại chỗ sang AWS

Tài nguyên để giúp bạn lập kế hoạch di chuyển của bạn

Tìm hiểu thêm về dữ liệu lớn và phân tích trên AWS

Đọc Blog dữ liệu lớn AWS