Amazon EMR

Dễ dàng chạy và thay đổi quy mô Apache Spark, Hive, Presto và các framework dữ liệu lớn khác

Amazon EMR là nền tảng dữ liệu lớn trên nền tảng đám mây hàng đầu ngành để xử lý lượng lớn dữ liệu bằng các công cụ nguồn mở như Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache HudiPresto. Với EMR bạn có thể chạy phân tích ở cấp độ Petabyte với chi phí ít hơn một nửa so với các giải pháp tại chỗ truyền thống và nhanh gấp hơn 3 lần so với Apache Spark tiêu chuẩn. Đối với các tác vụ ngắn hạn, bạn có thể tăng tốc và giảm tốc các cụm và thanh toán mỗi giây cho các phiên bản được sử dụng. Đối với khối lượng công việc dài hạn, bạn có thể tạo các cụm có độ sẵn sàng cao tự động điều chỉnh quy mô để đáp ứng nhu cầu. Nếu bạn đã triển khai tại chỗ các công cụ nguồn mở như Apache Spark và Apache Hive, bạn cũng có thể chạy các cụm EMR trên AWS Outposts.

Tìm hiểu cách bạn có thể giảm chi phí và đơn giản hóa các hoạt động bằng cách di chuyển khối lượng công việc tại chỗ sang EMR

Khám phá cách Apache Hudi đơn giản hóa các quy trình để thu thập dữ liệu thay đổi (CDC) và các quy định về quyền riêng tư

Giới thiệu về Amazon EMR (3:00)

Lợi ích

Dễ sử dụng

Các nhà phân tích, kỹ sư dữ liệu và nhà khoa học dữ liệu có thể sử dụng EMR Notebook, cho phép các cá nhân và nhóm dễ dàng cộng tác và khám phá tương tác, xử lý và trực quan hóa dữ liệu. Bạn chỉ có thể chỉ định phiên bản của ứng dụng EMR và loại điện toán bạn muốn sử dụng. EMR đảm nhiệm việc cung cấp, cấu hình và điều chỉnh các cụm sao cho bạn có thể tập trung vào việc chạy phân tích.

Chi phí thấp

Mức giá của EMR đơn giản và dự báo được: Bạn trả mức phí theo từng phiên bản cho mỗi giây sử dụng, trong đó tiền phí tối thiểu là một phút. Bạn có thể chạy cụm máy chủ EMR gồm 10 nút mạng với mức phí thấp chỉ bằng 0.15 USD mỗi giờ. Bạn cũng có thể tiết kiệm 50-80% chi phí cho các phiên bản bằng cách chọn Amazon EC2 Spot cho khối lượng công việc nhất thời và Phiên bản đặt trước cho khối lượng công việc dài hạn. Bạn cũng có thể sử dụng Savings Plans.

Linh hoạt

Không giống như cơ sở hạ tầng khuôn mẫu của các cụm tại chỗ, EMR phân tách điện toán và lưu trữ, cho bạn khả năng thay đổi quy mô một cách độc lập và tận dụng lưu trữ được phân bậc của Amazon S3. Với EMR, bạn có thể cung cấp một, hàng trăm hoặc hàng nghìn phiên bản điện toán để xử lý dữ liệu ở bất kỳ quy mô nào. Số lượng phiên bản có thể tự động tăng hoặc giảm bằng cách sử dụng Auto Scaling (quản lý kích thước cụm dựa trên mức độ sử dụng) và bạn chỉ trả tiền cho những gì mình sử dụng.

Độ tin cậy

Thời gian cho việc tinh chỉnh và giám sát cụm máy chủ của bạn sẽ được rút ngắn. EMR được tinh chỉnh cho đám mây và lập tức giám sát cụm máy chủ của bạn – thử lại các tác vụ thất bại và tự động thay thế các phiên bản có hiệu năng thấp. Với nhiều nút chính, các cụm máy chủ có mức độ khả dụng cao và chuyển đổi dự phòng tự động trong trường hợp xảy ra sự cố nút. EMR cung cấp các bản phát hành phần mềm nguồn mở ổn định mới nhất, do đó, bạn không phải quản lý các bản cập nhật và sửa lỗi, nhờ đó gặp ít sự cố hơn và không phải tốn nhiều công sức để duy trì môi trường.

Bảo mật

EMR tự động cấu hình thiết lập tường lửa EC2 kiểm soát quyền truy cập mạng đến các phiên bản và khởi chạy các cụm máy chủ trên Amazon Virtual Private Cloud (VPC). Mã hóa phía máy chủ hoặc mã hóa phía máy khách có thể được sử dụng với AWS Key Management Service hoặc các khóa do chính khách hàng quản lý. EMR giúp dễ dàng thực hiện các tùy chọn mã hóa, như mã hóa dữ liệu truyền và lưu trữ và phương thức xác thực mạnh với Kerberos. Bạn có thể sử dụng AWS Lake Formation hoặc Apache Ranger để áp dụng các kiểm soát truy cập dữ liệu chi tiết cho cơ sở dữ liệu, bảng và cột.

Linh hoạt

Bạn có toàn quyền kiểm soát cụm của mình với quyền truy cập gốc vào mọi phiên bản. Bạn có thể khởi chạy các cụm EMR với Amazon Linux AMI tùy chỉnh và dễ dàng cài đặt các ứng dụng bổ sung với các thao tác bootstrap. EMR cho phép bạn cấu hình lại các ứng dụng trên các cụm đang chạy một cách nhanh chóng mà không cần phải khởi chạy lại các cụm. Ngoài ra, sử dụng Hadoop 3.0, bạn có thể gói các tác nhân phụ thuộc của thư viện trong các bộ chứa Docker và gửi cùng các tác vụ của bạn để đơn giản hóa các tác nhân phụ thuộc của môi trường.

Trường hợp sử dụng

Machine learning

Sử dụng các công cụ machine learning tích hợp của EMR, bao gồm Apache Spark MLlib, TensorFlow và Apache MXNet cho các thuật toán machine learning có thể thay đổi quy mô và sử dụng các thao tác của các AMI tùy chỉnh và bootstrap để dễ dàng thêm các thư viện và công cụ phân tích dự đoán của riêng bạn.

Extract Transform Load (ETL)

Có thể sử dụng EMR để thực hiện các công việc chuyển đổi dữ liệu (ETL) một cách nhanh chóng và tiết kiệm chi phí chẳng hạn như việc phân loại, tổng hợp và nối trên các tập dữ liệu lớn.

Tìm hiểu cách Redfin sử dụng các cụm máy chủ EMR chuyển đổi cho ETL »

Phân tích luồng dữ liệu nhấp chuột

Phân tích dữ liệu nhấp chuột từ Amazon S3 bằng Apache Spark và Apache Hive cho người dùng theo phân khúc, hiểu sở thích của người dùng và phân phối quảng cáo hiệu quả hơn.

Truyền dòng dữ liệu thời gian thực

Phân tích các sự kiện từ Apache Kafka, Amazon Kinesis hoặc các nguồn dữ liệu phát trực tuyến khác trong thời gian thực với Apache Spark Streaming và Apache Flink để tạo ra các đường truyền dữ liệu thời gian dài, khả năng sử dụng cao và dung sai cao trên EMR. Chuyển đổi liên tục bộ dữ liệu sang S3 hoặc HDFS và hiểu hơn về Amazon Elasticsearch Service.

Tìm hiểu cách Hearst sử dụng Spark Streaming »

Phân tích tương tác

EMR Notebooks cung cấp một môi trường phân tích được quản lý dựa trên Jupyter mã nguồn mở cho phép các nhà khoa học, nhà phân tích và nhà phát triển dữ liệu chuẩn bị và trực quan hóa dữ liệu, cộng tác với các đồng nghiệp, xây dựng ứng dụng và thực hiện phân tích tương tác.

Nghiên cứu cấu trúc gen

Có thể sử dụng EMR để xử lý khối lượng dữ liệu gen cực lớn và các bộ dữ liệu khoa học lớn khác một cách nhanh chóng và hiệu quả. Các nhà nghiên cứu có thể truy cập dữ liệu gien được lưu trữ miễn phí trên AWS.

Tìm hiểu về Apache Spark và Precision Medicine »

Nghiên cứu điển hình

Nghiên cứu của chuyên gia phân tích

Thêm…

Có gì mới

ngày
  • ngày
1

Bắt đầu với AWS

Đọc Hướng dẫn di chuyển EMR
Đọc Hướng dẫn di chuyển

Tìm hiểu cách di chuyển dữ liệu lớn từ máy chủ tại chỗ sang AWS.

Tìm hiểu thêm 
Đăng ký một tài khoản AWS miễn phí
Đăng ký một tài khoản miễn phí

Nhận quyền sử dụng ngay lập tức Bậc miễn phí của AWS. 

Đăng ký 
Bắt đầu xây dựng với EMR trong bảng điều khiển
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng với Amazon EMR trên Bảng điều khiển AWS.

Đăng nhập 

Di chuyển dữ liệu lớn từ máy chủ tại chỗ sang AWS

Tài nguyên để giúp bạn lập kế hoạch di chuyển của bạn

Tìm hiểu thêm về dữ liệu lớn và phân tích trên AWS

Đọc Blog dữ liệu lớn AWS