Apache Spark trên Amazon EMR
Tại sao nên chọn Apache Spark trên EMR?
Amazon EMR là nơi tốt nhất để chạy Apache Spark. Bạn có thể nhanh chóng và dễ dàng tạo các cụm Spark được quản lý từ Bảng điều khiển quản lý AWS, AWS CLI hoặc Amazon EMR API. Ngoài ra, bạn có thể tận dụng các tính năng bổ sung của Amazon EMR, bao gồm kết nối Amazon S3 nhanh bằng cách sử dụng Hệ thống tệp Amazon EMR (EMRFS), khả năng tích hợp với thị trường Amazon EC2 Dùng ngay và Danh mục dữ liệu AWS Glue, cũng như Điều chỉnh quy mô được quản lý EMR để thêm hoặc loại bỏ các phiên bản khỏi cụm của bạn. AWS Lake Formation mang lại khả năng kiểm soát truy cập chi tiết, trong khi đó việc tích hợp với AWS Step Functions sẽ giúp điều phối các quy trình dữ liệu của bạn. Studio EMR (bản xem trước) là môi trường phát triển tích hợp (IDE) giúp các nhà khoa học dữ liệu và kỹ sư dữ liệu dễ dàng phát triển, trực quan hóa và gỡ lỗi các ứng dụng kỹ thuật dữ liệu và khoa học dữ liệu được viết bằng R, Python, Scala và PySpark. EMR Studio cung cấp sổ ghi chép Jupyter được quản lý đầy đủ và các công cụ như Spark UI và YARN Timeline Service để đơn giản hóa việc gỡ lỗi. Sổ tay EMR giúp bạn dễ dàng thử nghiệm và xây dựng các ứng dụng với Spark. Nếu thích, bạn có thể sử dụng Apache Zeppelin để tạo các sổ tay tương tác và cộng tác để khám phá dữ liệu bằng Spark.
Tính năng và lợi ích
Trường hợp sử dụng
Thành công của khách hàng
-
Yelp
Nhóm nhắm mục tiêu quảng cáo của Yelp tạo ra các mô hình dự đoán để xác định khả năng người dùng tương tác với một quảng cáo. Bằng cách sử dụng Apache Spark trên Amazon EMR để xử lý lượng dữ liệu lớn nhằm giúp huấn luyện các mô hình machine learning, Yelp đã tăng doanh thu và tỷ lệ nhấp chuột vào quảng cáo.
-
The Washington Post
The Washington Post sử dụng Apache Spark trên Amazon EMR để xây dựng các mô hình hỗ trợ công cụ đề xuất của trang web nhằm tăng sự gắn kết và hài lòng của người đọc. Các mô hình này tận dụng khả năng kết nối hiệu năng của Amazon EMR với Amazon S3 để cập nhật các mô hình gần theo thời gian thực.
-
Krux
Là một phần của Nền tảng quản lý dữ liệu cho thông tin chi tiết của khách hàng, Krux chạy machine learning và xử lý chung khối lượng công việc bằng cách sử dụng Apache Spark. Krux sử dụng các cụm Amazon EMR tạm thời với công suất Amazon EC2 Spot để tiết kiệm chi phí và sử dụng Amazon S3 với EMRFS như một lớp dữ liệu cho Apache Spark.
-
GumGum
GumGum, nền tảng quảng cáo theo hình ảnh và trên màn hình, sử dụng Spark trên Amazon EMR để dự báo tài nguyên quảng cáo, xử lý nhật ký nhấp chuột và phân tích đặc biệt dữ liệu phi cấu trúc trong Amazon S3. Những cải tiến về hiệu năng của Spark đã giúp GumGum tiết kiệm thời gian và tiền bạc cho những luồng công việc này.
-
Hearst Corporation
Hearst Corporation là một công ty truyền thông và thông tin đa dạng lớn, có các khách hàng xem nội dung trên hơn 200 thuộc tính web. Sử dụng Apache Spark Streaming trên Amazon EMR, nhân viên biên tập của Hearst có thể giữ nhịp thời gian thực về các bài viết đang hoạt động tốt và chủ đề nào đang thịnh hành.
-
CrowdStrike
CrowdStrike cung cấp bảo vệ điểm cuối để ngăn chặn vi phạm. Họ sử dụng Amazon EMR với Spark để xử lý hàng trăm terabyte dữ liệu sự kiện và tổng hợp dữ liệu thành các mô tả hành vi cấp cao hơn trên máy chủ. Từ dữ liệu đó, CrowdStrike có thể kéo dữ liệu sự kiện lại với nhau và xác định sự hiện diện của hoạt động độc hại.