Amazon EMR

Dễ dàng chạy và mở rộng Apache Spark, Hadoop, HBase, Presto, Hive và các framework Dữ liệu lớn khác

Amazon EMR là nền tảng dữ liệu lớn dành cho đám mây đầu ngành dành cho hoạt động xử lý lượng lớn dữ liệu nhanh chóng và tiết kiệm chi phí ở quy mô phù hợp. Sử dụng các công cụ nguồn mở như Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi (Đang nuôi dưỡng)Presto, cùng với khả năng thay đổi quy mô linh động của Amazon EC2 và dung lượng lưu trữ có khả năng thay đổi quy mô của Amazon S3, EMR cung cấp cho các nhóm phân tích những công cụ và độ co giãn để chạy phân tích ở quy mô Petabyte mà chỉ mất một phần chi phí so với các cụm tại chỗ truyền thống. EMR mang đến cho các nhóm sự linh hoạt trong việc chạy các trường hợp sử dụng trên những cụm ngắn hạn với mục đích đơn lẻ, có khả năng tự động thay đổi quy mô để đáp ứng nhu cầu hoặc trên các cụm có độ sẵn sàng cao, chạy lâu dài với chế độ triển khai multi-master mới. Nếu bạn đã triển khai tại chỗ các công cụ nguồn mở như Apache Spark và Apache Hive, bạn cũng có thể chạy các cụm EMR trên AWS Outposts để có được cả khả năng mở rộng quy mô tại chỗ thông qua Outposts lẫn trên đám mây.

Giới thiệu về Amazon EMR (3:00)

Lợi ích

Dễ sử dụng

EMR triển khai các cụm chỉ trong vài phút. Bạn không cần phải lo lắng về trang bị nút mạng, thiết lập cơ sở hạ tầng, cấu hình Hadoop hoặc tinh chỉnh cụm máy chủ. EMR đảm nhận các công việc này nên bạn có thể tập trung vào phân tích. Các nhà phân tích, kỹ sư dữ liệu và nhà khoa học dữ liệu có thể khởi chạy một máy tính xách tay Jupyter serverless trong vài giây bằng EMR Notebooks, cho phép các cá nhân và nhóm cộng tác và khám phá tương tác, xử lý và trực quan hóa dữ liệu theo định dạng máy tính xách tay dễ sử dụng.

Chi phí thấp

Mức giá của EMR đơn giản và dự báo được: Bạn trả mức phí theo từng phiên bản cho mỗi giây sử dụng, trong đó tiền phí tối thiểu là một phút. Bạn có thể chạy cụm EMR 10 nút với các ứng dụng như Apache Spark và Apache Hive với mức giá chỉ từ 0.15 USD/giờ. Do EMR có tính năng hỗ trợ gốc cho Phiên bản Amazon EC2 Spot và Phiên bản Dự trữ, nên bạn cũng có thể tiết kiệm 50–80% chi phí cho các phiên bản cơ bản.

Linh hoạt

Với EMR, bạn có thể cung cấp một, hàng trăm hoặc hàng nghìn phiên bản điện toán để xử lý dữ liệu ở bất kỳ quy mô nào. Số lượng phiên bản có thể được tăng hoặc giảm theo cách thủ công hoặc tự động bằng cách sử dụng Auto Scaling (quản lý kích thước cụm dựa trên mức độ sử dụng) và bạn chỉ trả tiền cho những gì bạn sử dụng. Không giống như cơ sở hạ tầng khuôn mẫu của các cụm tại chỗ, EMR phân tách điện toán và lưu trữ lâu dài, cho bạn khả năng thay đổi quy mô một cách độc lập.

Tin cậy

Thời gian cho việc tinh chỉnh và giám sát cụm máy chủ của bạn sẽ được rút ngắn. EMR được tinh chỉnh cho đám mây và lập tức giám sát cụm máy chủ của bạn – thử lại các tác vụ thất bại và tự động thay thế các phiên bản có hiệu năng thấp. EMR cung cấp các bản phát hành phần mềm nguồn mở ổn định mới nhất, do đó, bạn không phải quản lý các bản cập nhật và sửa lỗi, nhờ đó gặp ít sự cố hơn và không phải tốn nhiều công sức để duy trì môi trường. Với nhiều nút chính, các cụm máy chủ có khả năng sử dụng cao và chuyển đổi dự phòng tự động trong trường hợp xảy ra sự cố nút.

Bảo mật

EMR tự động cấu hình thiết lập tường lửa EC2 kiểm soát quyền truy cập mạng đến các phiên bản và khởi chạy các cụm máy chủ trên Amazon Virtual Private Cloud (VPC), một mạng cách ly lôgíc do bạn xác định. Đối với các đối tượng được lưu trữ trong S3, mã hóa phía máy chủ hoặc mã hóa phía máy khách có thể được sử dụng với EMRFS (kho đối tượng cho Hadoop trên S3) bằng cách sử dụng AWS Key Management Service hoặc các khóa do chính khách hàng quản lý. EMR giúp dễ dàng thực hiện các tùy chọn mã hóa, như mã hóa dữ liệu truyền và lưu trữ và phương thức xác thực mạnh với Kerberos.

Linh hoạt

Bạn có quyền kiểm soát hoàn toàn đối với cụm máy chủ của bạn. Bạn có quyền truy cập gốc đến mọi phiên bản, bạn có thể dễ dàng cài thêm các ứng dụng khác và tùy chỉnh mọi cụm máy chủ bằng các thao tác bootstrap. Bạn cũng có thể khởi chạy các cụm EMR với các AMI Amazon Linux tùy chỉnh và cấu hình lại các cụm máy chủ đang chạy mà không cần khởi chạy lại cụm.

Trường hợp sử dụng

Machine learning

Sử dụng các công cụ machine learning tích hợp của EMR, bao gồm Apache Spark MLlib, TensorFlow và Apache MXNet cho các thuật toán machine learning có thể thay đổi quy mô và sử dụng các thao tác của AMI tùy chỉnh và Bootstrap để dễ dàng thêm các thư viện và công cụ phân tích dự đoán của riêng bạn.

Tìm hiểu cách Intent Media sử dụng Spark MLib »

Extract Transform Load (ETL)

Có thể sử dụng EMR để thực hiện các công việc chuyển đổi dữ liệu (ETL) một cách nhanh chóng và tiết kiệm chi phí chẳng hạn như việc phân loại, tổng hợp và nối trên các tập dữ liệu lớn.

Tìm hiểu cách Redfin sử dụng các cụm máy chủ EMR chuyển đổi cho ETL »

Phân tích luồng dữ liệu nhấp chuột

Phân tích dữ liệu nhấp chuột từ Amazon S3 bằng Apache Spark và Apache Hive cho người dùng theo phân khúc, hiểu sở thích của người dùng và phân phối quảng cáo hiệu quả hơn.

Tìm hiểu thêm về cách Razorfish sử dụng EMR để phân tích vùng nhấp chuột trên màn hình của người dùng »

Truyền dòng dữ liệu thời gian thực

Phân tích các sự kiện từ Apache Kafka, Amazon Kinesis hoặc các nguồn dữ liệu phát trực tuyến khác trong thời gian thực với Apache Spark Streaming và EMR để tạo ra các đường truyền dữ liệu thời gian dài, khả năng sử dụng cao và dung sai cao. Chuyển đổi liên tục bộ dữ liệu sang Amazon S3 hoặc HDFS và hiểu hơn về Amazon Elaticsearch.

Tìm hiểu cách Hearst sử dụng Spark Streaming »

Phân tích tương tác

EMR Notebooks cung cấp một môi trường phân tích được quản lý dựa trên Jupyter mã nguồn mở cho phép các nhà khoa học, nhà phân tích và nhà phát triển dữ liệu chuẩn bị và trực quan hóa dữ liệu, cộng tác với các đồng nghiệp, xây dựng ứng dụng và thực hiện phân tích tương tác.

Nghiên cứu cấu trúc gen

Có thể sử dụng EMR để xử lý khối lượng dữ liệu gen cực lớn và các bộ dữ liệu khoa học lớn khác một cách nhanh chóng và hiệu quả. Các nhà nghiên cứu có thể truy cập dữ liệu gien được lưu trữ miễn phí trên AWS.

Tìm hiểu về Apache Spark và Precision Medicine »

Nghiên cứu điển hình

Nghiên cứu của chuyên gia phân tích

1

Bắt đầu với AWS

Step 1 - Sign up for an AWS account

Đăng ký tài khoản AWS

Nhận quyền sử dụng ngay lập tức Bậc miễn phí của AWS.
icon2

Tìm hiểu bằng hướng dẫn 10 phút

Khám phá và tìm hiểu bằng những hướng dẫn đơn giản.
icon3

Bắt đầu xây dựng với AWS

Bắt đầu dựng với các hướng dẫn từng bước để giúp bạn khởi tạo dự án AWS của mình.