Amazon EMR

Dễ dàng chạy và mở rộng Apache Spark, Hadoop, HBase, Presto, Hive và các framework Dữ liệu lớn khác

Amazon EMR là nền tảng dữ liệu lớn dành cho đám mây dẫn đầu ngành, cho phép các nhóm nhanh chóng xử lý lượng lớn dữ liệu và tiết kiệm chi phí ở quy mô lớn. Sử dụng các công cụ nguồn mở như Apache Spark, Apache Hive, Apache HBase, Apache FlinkPresto, cùng với khả năng thay đổi quy mô linh động của Amazon EC2 và bộ lưu trữ Amazon S3 có thể mở rộng, EMR mang đến cho các nhóm phân tích những công cụ và sự linh hoạt để chạy phân tích ở cấp độ petabyte mà chỉ mất một phần nhỏ chi phí so với các cụm chạy tại chỗ truyền thống. Các nhà phát triển và nhà phân tích có thể sử dụng EMR Notebook dựa trên Jupyter để phát triển lặp lại, cộng tác và truy cập dữ liệu lưu trữ trên các sản phẩm dữ liệu AWS như Amazon S3, Amazon DynamoDBAmazon Redshift để giảm thời gian tìm hiểu, đồng thời nhanh chóng tiến hành phân tích.

Các khách hàng trong nhiều ngành đặc thù sử dụng EMR để xử lý một cách bảo mật và ổn định một loạt các trường hợp sử dụng dữ liệu lớn, bao gồm machine learning, chuyển đổi dữ liệu (ETL), mô phỏng tài chính và khoa học, tin sinh học, phân tích nhật ký và deep learning. EMR mang đến cho các nhóm sự linh hoạt trong việc chạy các trường hợp sử dụng trên các cụm thời gian ngắn đơn mục tiêu có khả năng tự động thay đổi quy mô để đáp ứng nhu cầu hoặc trên các cụm có khả năng sử dụng cao trong thời gian dài ở chế độ triển khai đa máy chủ mới. 

Giới thiệu về Amazon EMR (3:00)

Lợi ích

Dễ sử dụng

EMR triển khai các cụm chỉ trong vài phút. Bạn không cần phải lo lắng về trang bị nút mạng, thiết lập cơ sở hạ tầng, cấu hình Hadoop hoặc tinh chỉnh cụm. EMR đảm nhận các công việc này nên bạn có thể tập trung vào phân tích. Các nhà phân tích, kỹ sư dữ liệu và nhà khoa học dữ liệu có thể khởi chạy một sổ ghi chép Jupyter serverless trong vài giây bằng EMR Notebooks, cho phép các cá nhân và nhóm cộng tác cũng như cùng nhau khám phá, xử lý và trực quan hóa dữ liệu theo định dạng sổ ghi chép dễ sử dụng.

Chi phí thấp

Mức giá của EMR đơn giản và dự báo được: Bạn trả mức phí theo từng phiên bản cho mỗi giây sử dụng, với phí tối thiểu là một phút. Bạn có thể chạy cụm EMR 10 nút với các ứng dụng như Apache Spark và Apache Hive với mức giá chỉ từ 0.15 USD/giờ. Do EMR có tính năng hỗ trợ gốc cho Phiên bản Amazon EC2 Spot và Phiên bản Dự trữ, nên bạn cũng có thể tiết kiệm 50–80% chi phí cho các phiên bản cơ bản.

Linh hoạt

Với EMR, bạn có thể cung cấp một, hàng trăm hoặc hàng nghìn phiên bản điện toán để xử lý dữ liệu ở bất kỳ quy mô nào. Số lượng phiên bản có thể được tăng hoặc giảm thủ công hoặc tự động bằng cách sử dụng Auto Scaling (quản lý kích thước cụm dựa trên mức sử dụng) và bạn chỉ trả tiền cho những gì mình sử dụng. Không giống như cơ sở hạ tầng khuôn mẫu của các cụm tại chỗ, EMR phân tách điện toán và lưu trữ lâu dài, cho bạn khả năng thay đổi quy mô một cách độc lập.

Đáng tin cậy

Bạn sẽ tốn ít thời gian hơn cho việc tinh chỉnh và giám sát cụm của mình. EMR được tinh chỉnh cho đám mây và lập tức giám sát cụm của bạn – thử lại các tác vụ thất bại và tự động thay thế các phiên bản có hiệu năng thấp. EMR cung cấp các bản phát hành phần mềm nguồn mở ổn định mới nhất, do đó bạn không phải quản lý các bản cập nhật và sửa lỗi, nhờ đó gặp ít sự cố hơn và không phải tốn nhiều công sức để duy trì môi trường. Với nhiều nút chủ, các cụm có khả năng sử dụng cao và chuyển đổi dự phòng tự động trong trường hợp xảy ra sự cố nút.

Bảo mật

EMR tự động thiết lập cấu hình tường lửa EC2 nhằm kiểm soát quyền truy cập mạng đến các phiên bản và chạy các cụm trong Amazon Virtual Private Cloud (VPC), một mạng cách ly logic do bạn xác định. Đối với các đối tượng lưu trữ trong S3, khách hàng có thể sử dụng mã hóa phía máy chủ hoặc mã hóa phía máy khách với EMRFS (kho đối tượng cho Hadoop trên S3) thông qua AWS Key Management Service hoặc các khóa do chính khách hàng quản lý. EMR giúp dễ dàng thực hiện các tùy chọn mã hóa khác, như mã hóa dữ liệu truyền và lưu trữ, và triển khai phương thức xác thực mạnh mẽ với Kerberos.

Linh động

Bạn có quyền kiểm soát hoàn toàn đối với cụm của mình. Bạn có quyền truy cập gốc đến mọi phiên bản, bạn có thể dễ dàng cài thêm các ứng dụng khác và tùy chỉnh mọi cụm bằng các biện pháp bootstrap. Bạn cũng có thể khởi chạy các cụm EMR với các Amazon Linux AMI tùy chỉnh và cấu hình lại các cụm đang chạy mà không cần khởi chạy lại cụm đó.

Trường hợp sử dụng

Machine learning

Sử dụng các công cụ machine learning tích hợp của EMR, bao gồm Apache Spark MLlib, TensorFlow và Apache MXNet cho các thuật toán machine learning có thể thay đổi quy mô và sử dụng các thao tác của AMI tùy chỉnh và Bootstrap để dễ dàng thêm các thư viện và công cụ phân tích dự đoán của riêng bạn.

Tìm hiểu cách Intent Media sử dụng Spark MLib »

Extract Transform Load (ETL)

Có thể sử dụng EMR để thực hiện các công việc chuyển đổi dữ liệu (ETL) một cách nhanh chóng và tiết kiệm chi phí chẳng hạn như việc phân loại, tổng hợp và nối trên các tập dữ liệu lớn.

Tìm hiểu cách Redfin sử dụng các cụm EMR chuyển đổi cho ETL »

Phân tích luồng dữ liệu nhấp chuột

Phân tích dữ liệu nhấp chuột từ Amazon S3 bằng Apache Spark và Apache Hive cho người dùng theo phân khúc, hiểu sở thích của người dùng và phân phối quảng cáo hiệu quả hơn.

Tìm hiểu thêm về cách Razorfish sử dụng EMR để phân tích vùng nhấp chuột trên màn hình của người dùng »

Truyền dòng dữ liệu thời gian thực

Phân tích các sự kiện từ Apache Kafka, Amazon Kinesis hoặc các nguồn dữ liệu phát trực tuyến khác trong thời gian thực với Apache Spark Streaming và EMR để tạo ra các đường truyền dữ liệu thời gian dài, khả năng sử dụng và chịu lỗi cao. Chuyển đổi liên tục bộ dữ liệu sang Amazon S3 hoặc HDFS và thông tin chi tiết về Amazon Elaticsearch.

Tìm hiểu cách Hearst sử dụng Spark Streaming »

Phân tích tương tác

EMR Notebooks cung cấp một môi trường phân tích được quản lý dựa trên Jupyter mã nguồn mở cho phép các nhà khoa học, nhà phân tích và nhà phát triển dữ liệu chuẩn bị và trực quan hóa dữ liệu, cộng tác với các đồng nghiệp, xây dựng ứng dụng và thực hiện phân tích tương tác.

Nghiên cứu cấu trúc gen

Có thể sử dụng EMR để xử lý khối lượng dữ liệu gen cực lớn và các bộ dữ liệu khoa học lớn khác một cách nhanh chóng và hiệu quả. Các nhà nghiên cứu có thể truy cập dữ liệu gien được lưu trữ miễn phí trên AWS.

Tìm hiểu về Apache Spark và Precision Medicine »

Nghiên cứu điển hình

Nghiên cứu của chuyên gia phân tích

1

Bắt đầu với AWS

Step 1 - Sign up for an AWS account

Đăng ký tài khoản AWS

Nhận quyền sử dụng ngay lập tức Bậc miễn phí của AWS.
icon2

Tìm hiểu bằng hướng dẫn 10 phút

Khám phá và tìm hiểu bằng những hướng dẫn đơn giản.
icon3

Bắt đầu xây dựng với AWS

Bắt đầu dựng với các hướng dẫn từng bước để giúp bạn khởi tạo dự án AWS của mình.

Di chuyển dữ liệu lớn từ máy chủ tại chỗ sang AWS

Đọc Hướng dẫn di chuyển Amazon EMR

Tìm hiểu thêm về dữ liệu lớn trên AWS

Truy cập Blog dữ liệu lớn