Amazon EMR

Dễ dàng chạy và mở rộng Apache Spark, Hadoop, HBase, Presto, Hive và các framework Dữ liệu lớn khác

Amazon EMR cung cấp một framework Hadoop được quản lý giúp xử lý khối lượng dữ liệu cực lớn một cách dễ dàng, nhanh chóng và tiết kiệm chi phí trên nhiều máy ảo có thể mở rộng động của Amazon EC2. Bạn cũng có thể chạy một framework phân phối phổ biến khác như Apache Spark, HBase, PrestoFlink trên Amazon EMR và tương tác với dữ liệu trên các kho dữ liệu AWS khác chẳng hạn như Amazon S3 và Amazon DynamoDB.

Amazon EMR xử lý một cách bảo mật và tin cậy nhiều trường hợp sử dụng dữ liệu quy mô lớn khác nhau, bao gồm phân tích nhật ký, đánh chỉ mục web, chuyển đổi dữ liệu (ETL), machine learning, phân tích tài chính, mô phỏng khoa học và tin sinh học.

Giới thiệu về Amazon EMR (3:06)

Lợi ích

Dễ sử dụng

Bạn có thể chạy cụm máy chủ Amazon EMR trong vài phút. Bạn không cần phải lo lắng về trang bị nút mạng, thiết lập cụm máy chủ, cấu hình Hadoop hoặc tinh chỉnh cụm máy chủ. Amazon EMR đảm nhận các công việc này nên bạn có thể tập trung vào phân tích.

Chi phí thấp

Mức giá của Amazon EMR đơn giản và dự báo được: Bạn trả mức phí trên mỗi giây cho mỗi giây sử dụng, trong đó tiền phí tối thiểu là một phút. Bạn có thể chạy cụm máy chủ Hadoop gồm 10 nút mạng với mức phí thấp chỉ bằng 0.15 USD mỗi giờ. Do Amazon EMR có tính năng hỗ trợ gốc cho Amazon EC2 Spot và Phiên bản Dự trữ, bạn cũng có thể tiết kiệm 50-80% chi phí cho các máy ảo cơ bản.

Linh hoạt

Với Amazon EMR, bạn có thể cung cấp một, hàng trăm hoặc hàng nghìn máy ảo điện toán để xử lý dữ liệu ở bất kỳ quy mô nào. Bạn có thể dễ dàng tăng hoặc giảm số lượng máy ảo thủ công hoặc sử dụng Auto Scaling, đồng thời bạn chỉ phải trả tiền cho những gì bạn sử dụng.

Tin cậy

Bạn có thể tốn ít thời gian hơn cho việc tinh chỉnh và giám sát cụm máy chủ của bạn. Amazon EMR đã tinh chỉnh Hadoop cho đám mây; đồng thời cũng giám sát cụm máy chủ của bạn – thử lại các tác vụ thất bại và tự động thay thế các phiên bản có hiệu năng thấp.

Bảo mật

Amazon EMR tự động cấu hình thiết lập tường lửa Amazon EC2 kiểm soát quyền truy cập mạng đến các phiên bản và bạn có thể chạy các cụm máy chủ trên Amazon Virtual Private Cloud (VPC), một mạng cách ly lôgíc do bạn xác định. Đối với đối tượng lưu trữ trên Amazon S3, bạn có thể sử dụng tính năng mã hóa phía máy chủ của Amazon S3 hoặc mã hóa phía máy khách của Amazon S3 với EMRFS, với AWS Key Management Service hoặc các khóa do khách hàng quản lý. Bạn cũng có thể dễ dàng kích hoạt các tùy chọn mã hóa khác và xác thực bằng Kerberos.

Linh hoạt

Bạn có quyền kiểm soát hoàn toàn đối với cụm máy chủ của bạn. Bạn có quyền truy cập gốc đến mọi máy ảo, bạn có thể dễ dàng cài thêm các ứng dụng khác và bạn có thể tùy chỉnh mọi cụm máy chủ bằng các biện pháp bootstrap. Bạn cũng có thể chạy các cụm máy chủ Amazon EMR bằng các Amazon Linux AMI tùy chỉnh.

Trường hợp sử dụng

Phân tích vùng nhấp chuột

Có thể sử dụng Amazon EMR để phân tích dữ liệu về vùng nhấp chuột trên màn hình của người dùng để phân loại người dùng, tìm hiểu sở thích người dùng và phát quảng cáo hiệu quả hơn.

Tìm hiểu thêm về cách Razorfish sử dụng EMR để phân tích vùng nhấp chuột trên màn hình của người dùng »

Phân tích theo thời gian thực

Sử dụng và xử lý dữ liệu theo thời gian thực từ Amazon Kinesis, Apache Kafka hoặc các luồng dữ liệu khác bằng Spark Streaming trên Amazon EMR. Thực hiện các phân tích luồng dữ liệu theo dung sai cao và ghi kết quả lên Amazon S3 hoặc HDFS.

Tìm hiểu cách Hearst sử dụng Spark Streaming »

Phân tích nhật ký

Có thể sử dụng Amazon EMR để xử lý nhật ký do các ứng dụng web và di động tạo ra. Amazon EMR giúp khách hàng biến hàng petabyte dữ liệu không được cấu trúc hoặc bán cấu trúc thành thông tin hữu ích về ứng dụng của họ hoặc người dùng.

Extract Transform Load (ETL)

Có thể sử dụng Amazon EMR để thực hiện các công việc chuyển đổi dữ liệu (ETL) một cách nhanh chóng và tiết kiệm chi phí chẳng hạn như việc phân loại, tổng hợp và nối trên các tập dữ liệu lớn.

Tìm hiểu cách Redfin sử dụng các cụm EMR chuyển đổi cho ETL »

Phân tích dự đoán

Apache Spark trên Amazon EMR cung cấp MLlib cho các thuật toán machine learning có thể mở rộng hoặc bạn có thể sử dụng các thư viện của chính bạn. Bằng cách lưu trữ các tập dữ liệu trong bộ nhớ, Spark có thể cung cấp hiệu năng tuyệt vời cho các công việc học máy phổ thông.

Tìm hiểu cách Intent Media sử dụng Spark MLib »

Nghiên cứu cấu trúc gien

Có thể sử dụng Amazon EMR để xử lý khối lượng dữ liệu gien cực lớn và các tập dữ liệu khoa học lớn khác một cách nhanh chóng và hiệu quả. Các nhà nghiên cứu có thể truy cập dữ liệu gien được lưu trữ miễn phí trên AWS.

Tìm hiểu về Apache Spark và Precision Medicine »

Nghiên cứu điển hình

Bắt đầu với AWS

icon1

Đăng ký tài khoản AWS

Nhận quyền sử dụng ngay lập tức Bậc miễn phí của AWS.
icon2

Tìm hiểu bằng hướng dẫn 10 phút

Khám phá và tìm hiểu bằng những hướng dẫn đơn giản.
icon3

Bắt đầu xây dựng với AWS

Bắt đầu dựng với các hướng dẫn từng bước để giúp bạn khởi tạo dự án AWS của mình.

Tìm hiểu thêm về Amazon EMR

Truy cập trang tính năng
Bạn đã sẵn sàng xây dựng chưa?
Bắt đầu với Amazon EMR
Bạn có thêm câu hỏi?
Hãy liên hệ chúng tôi