Apache Spark là một hệ thống xử lý phân tán mã nguồn mở thường được sử dụng cho các khối lượng công việc dữ liệu lớn. Apache Spark sử dụng bộ nhớ đệm trong bộ nhớ và việc thực thi được tối ưu hóa để có hiệu năng nhanh và hỗ trợ xử lý hàng loạt, phân tích luồng dữ liệu, machine learning, cơ sở dữ liệu đồ thị và các truy vấn đặc biệt. Tìm hiểu thêm về Apache Spark tại đây

Apache Spark được mặc định hỗ trợ trong Amazon EMR và bạn có thể nhanh chóng và dễ dàng tạo các cụm Apache Spark từ bảng điều khiển quản lý AWS, AWS CLI hoặc API Amazon EMR. Ngoài ra, bạn có thể tận dụng các tính năng bổ sung của Amazon EMR, bao gồm kết nối Amazon S3 nhanh chóng bằng cách sử dụng Amazon EMR File System (EMRFS), tích hợp với thị trường Amazon EC2 Spot và Danh mục dữ liệu AWS GlueAuto Scaling để thêm hoặc xóa các phiên bản khỏi cụm của bạn . Ngoài ra, bạn có thể sử dụng Apache Zeppelin để tạo các máy tính xách tay tương tác và kết hợp để khám phá dữ liệu bằng việc sử dụng Apache Spark và sử dụng các framework về deep learning như Apache MXNet với các ứng dụng Spark của bạn.

Tính năng và lợi ích

Hiệu năng nhanh

Bằng cách sử dụng công cụ thực thi đồ thị không theo chu trình (DAG), Apache Spark có thể tạo ra các kế hoạch truy vấn hiệu quả cho các hoạt động chuyển đổi dữ liệu. Apache Spark cũng lưu trữ dữ liệu đầu vào, đầu ra và trung gian trong bộ nhớ dưới dạng các bộ dữ liệu phân tán (RDD), cho phép xử lý nhanh mà không có chi phí I/O, tăng hiệu năng của các khối lượng công việc lặp lại hoặc tương tác.

Phát triển các ứng dụng một cách nhanh chóng

Apache Spark mặc định hỗ trợ Java, Scala và Python, cung cấp cho bạn nhiều ngôn ngữ để xây dựng các ứng dụng của mình. Ngoài ra, bạn có thể gửi các truy vấn SQL hoặc HiveQL cho Apache Spark bằng việc sử dụng mô-đun Spark SQL. Ngoài các ứng dụng đang chạy, bạn có thể sử dụng API Apache Spark tương tác trực tiếp với Python hoặc Scala trong lệnh shell Apache Spark trên cụm của bạn. Bạn cũng có thể tận dụng Zeppelin để tạo các máy tính xách tay tương tác và kết hợp để khám phá và trực quan hóa dữ liệu. Ngoài ra, bạn có thể tinh chỉnh và sửa lỗi khối lượng công việc của mình bằng lịch sử ứng dụng Spark trong bảng điều khiển Amazon EMR hoặc giao diện người dùng Spark mặc định và máy chủ lưu trữ gốc trên cụm của bạn.

Tạo luồng công việc đa dạng

Apache Spark chứa một số thư viện để giúp xây dựng các ứng dụng cho machine learning (MLlib), xử lý luồng dữ liệu (Spark Streaming) và xử lý biểu đồ (GraphX). Các thư viện này được tích hợp chặt chẽ trong hệ sinh thái Apache Spark và chúng có thể được tận dụng ngay để giải quyết nhiều trường hợp sử dụng khác nhau. Ngoài ra, bạn có thể sử dụng các framework về deep learning như Apache MXNet với các ứng dụng Spark của bạn.

Tích hợp với bộ tính năng Amazon EMR

Gửi các công việc của Apache Spark với Amazon EMR Step API, sử dụng Apache Spark với EMRFS để truy cập trực tiếp dữ liệu trong Amazon S3, tiết kiệm chi phí bằng cách sử dụng công suất Amazon EC2 Spot, sử dụng Auto Scaling để tự động thêm và loại bỏ công suất và khởi chạy các cụm hoạt động tạm thời hoặc trong thời gian dài để phù hợp với khối lượng công việc của bạn. Bạn cũng có thể dễ dàng cấu hình mã hóa Spark và xác thực bằng Kerberos bằng việc sử dụng cấu hình bảo mật của Amazon EMR. Ngoài ra, bạn có thể sử dụng Danh mục dữ liệu AWS Glue để lưu trữ siêu dữ liệu bảng SQL Spark hoặc sử dụng Amazon SageMaker với các đường dẫn dữ liệu machine learning Spark của bạn. Amazon EMR cài đặt và quản lý Apache Spark trên Hadoop YARN và bạn cũng có thể thêm các ứng dụng hệ sinh thái Hadoop khác trên cụm của mình. Bấm vào đây để biết thêm chi tiết về các tính năng của Amazon EMR.

Trường hợp sử dụng

Xử lý luồng dữ liệu

Sử dụng và xử lý dữ liệu theo thời gian thực từ Amazon Kinesis, Apache Kafka hoặc các luồng dữ liệu khác bằng Spark Streaming trên Amazon EMR. Thực hiện các phân tích luồng dữ liệu theo cách chịu được lỗi và ghi kết quả lên Amazon S3 hoặc trên cụm HDFS.

Machine learning

Apache Spark trên Amazon EMR cung cấp MLlib cho các thuật toán machine learning có khả năng thay đổi quy mô hoặc bạn có thể tự sử dụng các thư viện của mình. Bằng cách lưu trữ các bộ dữ liệu trong bộ nhớ khi thực hiện một công việc, Spark mang đến hiệu năng tuyệt vời cho các truy vấn lặp lại thường gặp trong khối lượng công việc machine learning.

SQL tương tác

Sử dụng Spark SQL cho các truy vấn tương tác, có độ trễ thấp với SQL hoặc HiveQL. Apache Spark trên Amazon EMR có thể tận dụng EMRFS, vì vậy bạn có quyền truy cập khi cần vào bộ dữ liệu của bạn trong Amazon S3. Ngoài ra, bạn có thể sử dụng máy tính xách tay Zeppelin hoặc công cụ BI thông qua kết nối ODBC và JDBC.

Thành công của khách hàng

Yelp

Nhóm nhắm mục tiêu quảng cáo của Yelp tạo ra các mô hình dự đoán để xác định khả năng người dùng tương tác với một quảng cáo. Bằng cách sử dụng Apache Spark trên Amazon EMR để xử lý lượng dữ liệu lớn để huấn luyện các mô hình machine learning, Yelp đã tăng doanh thu và tỷ lệ nhấp chuột vào quảng cáo.

The Washington Post

The Washington Post sử dụng Apache Spark trên Amazon EMR để xây dựng các mô hình hỗ trợ công cụ đề xuất của trang web nhằm tăng sự gắn kết và hài lòng của người đọc. Chúng tận dụng khả năng kết nối hiệu năng của Amazon EMR với Amazon S3 để cập nhật các mô hình gần theo thời gian thực.

Intent Media

Intent Media vận hành một nền tảng để quảng cáo trên các trang web thương mại du lịch. Nhóm dữ liệu sử dụng Apache Spark và MLlib trên Amazon EMR để thu nạp hàng terabyte dữ liệu thương mại điện tử hàng ngày và sử dụng thông tin này để sử dụng cho các dịch vụ quyết định nhằm tối ưu hóa doanh thu của khách hàng. Nhấp vào đây để tìm hiểu thêm

200x100_Krux-Digital_Logo

Krux

Là một phần của Nền tảng quản lý dữ liệu cho thông tin chi tiết của khách hàng, Krux chạy machine learning và xử lý chung khối lượng công việc bằng cách sử dụng Apache Spark. Krux sử dụng các cụm Amazon EMR tạm thời với công suất Amazon EC2 Spot để tiết kiệm chi phí và sử dụng Amazon S3 với EMRFS như một lớp dữ liệu cho Apache Spark.

Đọc thêm »

200x100_GumGum_Logo

GumGum

GumGum, nền tảng quảng cáo theo hình ảnh và trên màn hình, sử dụng Spark trên Amazon EMR để dự báo tài nguyên quảng cáo, xử lý nhật ký nhấp chuột và phân tích đặc biệt dữ liệu phi cấu trúc trong Amazon S3. Những cải tiến về hiệu năng của Spark đã giúp GumGum tiết kiệm thời gian và tiền bạc cho những luồng công việc này.

Đọc thêm »

200x100-hearst

Hearst Corporation

Hearst Corporation là một công ty truyền thông và thông tin đa dạng lớn, có các khách hàng xem nội dung trên hơn 200 thuộc tính web. Sử dụng Apache Spark Streaming trên Amazon EMR, nhân viên biên tập của Hearst có thể giữ nhịp thời gian thực về các bài viết đang hoạt động tốt và chủ đề nào đang thịnh hành.

Đọc thêm »

200x100_CrowdStrike_Logo

CrowdStrike

CrowdStrike cung cấp bảo vệ điểm cuối để ngăn chặn vi phạm. Họ sử dụng Amazon EMR với Spark để xử lý hàng trăm terabyte dữ liệu sự kiện và tổng hợp dữ liệu thành các mô tả hành vi cấp cao hơn trên máy chủ. Từ dữ liệu đó, CrowdStrike có thể kéo dữ liệu sự kiện lại với nhau và xác định sự hiện diện của hoạt động độc hại.

Đọc thêm »

Tìm hiểu thêm về giá của Amazon EMR

Truy cập trang giá
Bạn đã sẵn sàng xây dựng chưa?
Bắt đầu với Amazon EMR
Bạn có thêm câu hỏi?
Hãy liên hệ chúng tôi