Amazon EMR

Dễ dàng chạy và mở rộng Apache Spark, Hadoop, HBase, Presto, Hive và các framework Dữ liệu lớn khác

Amazon EMR cung cấp một framework Hadoop được quản lý giúp xử lý khối lượng dữ liệu cực lớn một cách dễ dàng, nhanh chóng và tiết kiệm chi phí trên nhiều máy ảo có thể mở rộng động của Amazon EC2. Bạn cũng có thể chạy một framework phân phối phổ biến khác như Apache Spark, HBase, PrestoFlink trên EMR cũng như tương tác với dữ liệu trên các kho dữ liệu AWS khác chẳng hạn như Amazon S3 và Amazon DynamoDB. EMR Notebooks, dựa trên Jupyter Notebook nổi tiếng, cung cấp môi trường phát triển và cộng tác để phân tích truy vấn và thăm dò đột xuất.

EMR xử lý một cách bảo mật và tin cậy nhiều trường hợp sử dụng dữ liệu quy mô lớn khác nhau, bao gồm phân tích nhật ký, đánh chỉ mục web, chuyển đổi dữ liệu (ETL), machine learning, phân tích tài chính, mô phỏng khoa học và tin sinh học.

Giới thiệu về Amazon EMR (3:00)

Lợi ích

Dễ sử dụng

Bạn có thể khởi chạy cụm máy chủ EMR chỉ trong vài phút. Bạn không cần phải lo lắng về trang bị nút mạng, thiết lập cụm máy chủ, cấu hình Hadoop hoặc tinh chỉnh cụm máy chủ. EMR đảm nhận các công việc này nên bạn có thể tập trung vào phân tích. Các nhà khoa học dữ liệu, nhà phát triển và nhà phân tích cũng có thể sử dụng EMR Notebooks, một môi trường được quản lý dựa trên Jupyter Notebook, để xây dựng các ứng dụng và cộng tác với đồng nghiệp.

Chi phí thấp

Mức giá của EMR đơn giản và dự báo được: Bạn trả mức phí theo từng phiên bản cho mỗi giây sử dụng, trong đó tiền phí tối thiểu là một phút. Bạn có thể khởi chạy cụm máy chủ EMR 10 nút với các ứng dụng như Hadoop, Spark và Hive, chỉ với 0,15 USD mỗi giờ. Do EMR có tính năng hỗ trợ gốc cho Amazon EC2 Spot và Phiên bản Dự trữ, bạn cũng có thể tiết kiệm 50-80% chi phí cho các phiên bản cơ bản.

Linh hoạt

Với EMR, bạn có thể cung cấp một, hàng trăm hoặc hàng nghìn phiên bản điện toán để xử lý dữ liệu ở bất kỳ quy mô nào. Bạn có thể dễ dàng tăng hoặc giảm số lượng phiên bản thủ công hoặc sử dụng Auto Scaling, đồng thời bạn chỉ phải trả tiền cho những gì bạn sử dụng. EMR cũng tách riêng các phiên bản điện toán và lưu trữ lâu dài, do đó các phiên bản này có thể được thay đổi quy mô một cách độc lập.

Tin cậy

Bạn sẽ tốn ít thời gian hơn cho việc tinh chỉnh và giám sát cụm máy chủ của mình. EMR đã tinh chỉnh Hadoop cho đám mây; đồng thời cũng giám sát cụm máy chủ của bạn – thử lại các tác vụ thất bại và tự động thay thế các phiên bản có hiệu năng thấp. EMR cung cấp các bản phát hành phần mềm nguồn mở ổn định mới nhất, do đó bạn không phải quản lý các bản cập nhật và sửa lỗi, nhờ đó gặp ít sự cố hơn và không phải tốn nhiều công sức để duy trì môi trường.

Bảo mật

EMR tự động cấu hình thiết lập tường lửa EC2 kiểm soát quyền truy cập mạng đến các phiên bản và bạn có thể chạy các cụm máy chủ trên Amazon Virtual Private Cloud (VPC), một mạng cách ly lôgíc do bạn xác định. Đối với đối tượng lưu trữ trên S3, bạn có thể sử dụng tính năng mã hóa phía máy chủ của S3 hoặc mã hóa phía máy khách của Amazon S3 với EMRFS, với AWS Key Management Service hoặc các khóa do khách hàng quản lý. Bạn cũng có thể dễ dàng kích hoạt các tùy chọn mã hóa khác và xác thực bằng Kerberos.

Linh hoạt

Bạn có quyền kiểm soát hoàn toàn đối với cụm máy chủ của bạn. Bạn có quyền truy cập gốc đến mọi phiên bản, bạn có thể dễ dàng cài thêm các ứng dụng khác và bạn có thể tùy chỉnh mọi cụm máy chủ bằng các biện pháp bootstrap. Bạn cũng có thể chạy cụm máy chủ EMR bằng Amazon Linux AMI tùy chỉnh.

Trường hợp sử dụng

Phân tích luồng dữ liệu nhấp chuột

Có thể sử dụng EMR để phân tích dữ liệu về vùng nhấp chuột trên màn hình của người dùng để phân loại người dùng, tìm hiểu sở thích người dùng và phát quảng cáo hiệu quả hơn.

Tìm hiểu thêm về cách Razorfish sử dụng EMR để phân tích vùng nhấp chuột trên màn hình của người dùng »

Phân tích theo thời gian thực

Sử dụng và xử lý dữ liệu theo thời gian thực từ Amazon Kinesis, Apache Kafka hoặc các luồng dữ liệu khác bằng Spark Streaming trên EMR. Thực hiện các phân tích luồng dữ liệu theo dung sai cao và ghi kết quả lên S3 hoặc HDFS.

Tìm hiểu cách Hearst sử dụng Spark Streaming »

Phân tích nhật ký

Có thể sử dụng EMR để xử lý nhật ký do các ứng dụng web và di động tạo ra. EMR giúp khách hàng biến hàng petabyte dữ liệu không có cấu trúc hoặc bán cấu trúc thành thông tin hữu ích về ứng dụng của họ hoặc người dùng.

Extract Transform Load (ETL)

Có thể sử dụng EMR để thực hiện các công việc chuyển đổi dữ liệu (ETL) một cách nhanh chóng và tiết kiệm chi phí chẳng hạn như việc phân loại, tổng hợp và nối trên các tập dữ liệu lớn.

Tìm hiểu cách Redfin sử dụng các cụm máy chủ EMR chuyển đổi cho ETL »

Phân tích dự đoán

Apache Spark trên EMR cung cấp MLlib cho các thuật toán machine learning có thể mở rộng hoặc bạn có thể sử dụng các thư viện của chính bạn. Bằng cách lưu trữ các tập dữ liệu trong bộ nhớ, Spark có thể cung cấp hiệu năng tuyệt vời cho các khối lượng công việc machine learning phổ thông.

Tìm hiểu cách Intent Media sử dụng Spark MLib »

Nghiên cứu cấu trúc gen

Có thể sử dụng EMR để xử lý khối lượng dữ liệu gen cực lớn và các bộ dữ liệu khoa học lớn khác một cách nhanh chóng và hiệu quả. Các nhà nghiên cứu có thể truy cập dữ liệu gien được lưu trữ miễn phí trên AWS.

Tìm hiểu về Apache Spark và Precision Medicine »

Nghiên cứu điển hình

Bắt đầu với AWS

icon1

Đăng ký tài khoản AWS

Nhận quyền sử dụng ngay lập tức Bậc miễn phí của AWS.
icon2

Tìm hiểu bằng hướng dẫn 10 phút

Khám phá và tìm hiểu bằng những hướng dẫn đơn giản.
icon3

Bắt đầu xây dựng với AWS

Bắt đầu dựng với các hướng dẫn từng bước để giúp bạn khởi tạo dự án AWS của mình.

Tìm hiểu thêm về Amazon EMR

Truy cập trang tính năng
Bạn đã sẵn sàng xây dựng chưa?
Bắt đầu với Amazon EMR
Bạn có thêm câu hỏi?
Hãy liên hệ chúng tôi