Xử lý dữ liệu Amazon SageMaker

Phân tích, chuẩn bị và tích hợp dữ liệu cho phân tích và AI ở mọi quy mô

Tại sao nên chọn Xử lý dữ liệu SageMaker?

Chuẩn bị, tích hợp và sắp xếp dữ liệu của bạn nhờ các khả năng xử lý dữ liệu từ Amazon Athena, Amazon EMR, AWS Glue và Quy trình làm việc được quản lý của Amazon dành cho Apache Airflow (Amazon MWAA)\. Xử lý và tích hợp dữ liệu của bạn từ mọi vị trí nhờ khả năng kết nối nhanh chóng và dễ dàng với hàng trăm nguồn dữ liệu.

Sử dụng các khung xử lý dữ liệu nguồn mở như Apache Spark, Trino và Apache Flink. Phân tích dữ liệu trên quy mô lớn với Trino, không cần quản lý cơ sở hạ tầng và xây dựng hệ thống phân tích theo thời gian thực liền mạch với Apache Flink và Apache Spark.

An tâm về độ chính xác và bảo mật của dữ liệu khi tự động hóa chất lượng dữ liệu, nhận dạng dữ liệu nhạy cảm, theo dõi nguồn gốc và áp dụng quyền kiểm soát truy cập chi tiết thông qua tích hợp chuyên biệt với Hồ dữ liệu Amazon SageMaker.

Lợi ích

Dịch vụ AWS

Tích hợp dữ liệu đơn giản

AWS Glue cung cấp khả năng tích hợp dữ liệu phi máy chủ, đơn giản hóa việc khám phá, chuẩn bị và tích hợp dữ liệu từ nhiều nguồn. Kết nối với các nguồn dữ liệu đa dạng, quản lý dữ liệu trong một danh mục dữ liệu tập trung, đồng thời tạo, chạy và theo dõi quy trình ETL một cách trực quan để tải dữ liệu của bạn vào hồ dữ liệu tích hợp. AWS Glue tự động điều chỉnh quy mô theo nhu cầu, giúp bạn có thể tập trung vào việc thu thập thông tin chuyên sâu từ dữ liệu của bạn mà không cần quản lý cơ sở hạ tầng.

Chạy và điều chỉnh quy mô của Apache Spark, Apache Hive, Trino và các khối lượng công việc khác

Amazon EMR giúp việc chạy các khối lượng công việc xử lý dữ liệu như Apache Spark, Apache Airflow, Apache Flink, Trino và nhiều hơn nữa trở nên dễ dàng với chi phí tiết kiệm hơn. Xây dựng và chạy các đường dẫn xử lý dữ liệu và tự động mở rộng quy mô nhanh hơn các giải pháp tại chỗ.

Theo dõi chi phí

Amazon Athena cung cấp một cách thức đơn giản và linh hoạt để bạn phân tích dữ liệu ở mọi quy mô. Athena là một dịch vụ truy vấn tương tác giúp đơn giản hóa quá trình phân tích dữ liệu trong Amazon S3 bằng cách sử dụng SQL tiêu chuẩn. Athena là dịch vụ phi máy chủ, do đó, bạn không cần thiết lập hoặc quản lý cơ sở hạ tầng và có thể chọn thanh toán dựa trên số truy vấn bạn chạy hoặc tài nguyên tính toán cần thiết cho các truy vấn của bạn. Sử dụng Athena để xử lý bản ghi, thực hiện phân tích dữ liệu và chạy các truy vấn tương tác. Athena tự động điều chỉnh quy mô –– thực hiện các truy vấn song song – vì vậy, bạn nhận được kết quả rất nhanh, ngay cả với các tập dữ liệu lớn và các truy vấn phức tạp.

Dịch vụ điều phối quy trình công việc được quản lý một cách an toàn và có tính khả dụng cao cho Apache Airflow

Amazon MWAA là một dịch vụ được quản lý dành cho Apache Airflow sswwe cho phép bạn sử dụng nền tảng Apache Airflow hiện tại, quen thuộc của bạn để sắp xếp quy trình làm việc của mình. Bạn có được khả năng điều chỉnh quy mô, độ sẵn sàng và khả năng bảo mật được cải thiện mà không phải chịu gánh nặng vận hành của việc quản lý cơ sở hạ tầng cơ sở. Amazon MWAA sắp xếp quy trình làm việc của bạn bằng cách sử dụng Đồ thị có hướng phi chu trình (DAG) được viết bằng Python. Bạn cung cấp cho Amazon MWAA một vùng lưu trữ S3 nơi chứa các yêu cầu về DAG, plugin và Python của bạn. Triển khai Apache Airflow ở quy mô lớn mà không phải chịu gánh nặng vận hành đến từ việc quản lý cơ sở hạ tầng cơ bản.

Trường hợp sử dụng