Sản phẩm›
Phân tích›
AWS Glue

1 triệu đối tượng được lưu trữ miễn phí với Bậc miễn phí của AWS

AWS Glue

Khám phá, chuẩn bị và tích hợp tất cả dữ liệu của bạn ở mọi quy mô

Bắt đầu với AWS Glue

Tìm hiểu thêm về Tích hợp dữ liệu trên AWS

Tại sao nên sử dụng AWS Glue?

Chuẩn bị dữ liệu để thu được kết quả chất lượng là bước đầu tiên của một dự án phân tích hoặc ML. AWS Glue là một dịch vụ tích hợp dữ liệu phi máy chủ, giúp hoạt động chuẩn bị dữ liệu trở nên đơn giản, nhanh chóng và tiết kiệm hơn. Bạn có thể khám phá và kết nối với hơn 70 nguồn dữ liệu đa dạng, quản lý dữ liệu của mình trong một danh mục dữ liệu tập trung, đồng thời tạo, chạy và theo dõi quy trình ETL một cách trực quan để tải dữ liệu của bạn vào các hồ dữ liệu.

Giới thiệu về AWS Glue (01:54)

Lợi ích của AWS Glue

Tất cả ở một nơi

Khả năng tích hợp dữ liệu đầy đủ qua dịch vụ phi máy chủ

Hỗ trợ tất cả khối lượng công việc

Hỗ trợ linh hoạt cho ETL, ELT, lô, hoạt động phát trực tuyến và nhiều hoạt động khác mà không bị ràng buộc

Công cụ riêng

Hỗ trợ tất cả người dùng dữ liệu từ nhà phát triển đến người dùng doanh nghiệp

Điều chỉnh quy mô theo nhu cầu

Quy mô petabyte, thanh toán theo mức sử dụng, mọi kích thước dữ liệu

Cách thức hoạt động

AWS Glue là một dịch vụ tích hợp dữ liệu phi máy chủ, giúp người dùng dễ dàng khám phá, chuẩn bị, di chuyển và tích hợp dữ liệu từ nhiều nguồn cho hoạt động phân tích, máy học (ML) và phát triển ứng dụng.

Các tùy chọn về công cụ tích hợp dữ liệu
ETL định hướng theo sự kiện
Danh mục dữ liệu AWS Glue
Tác vụ ETL không cần mã
Quản lý và giám sát chất lượng dữ liệu
Chuẩn bị dữ liệu

Các tùy chọn về công cụ tích hợp dữ liệu
Chọn công cụ tích hợp dữ liệu bạn muốn trong AWS Glue để hỗ trợ người dùng và khối lượng công việc.

Sơ đồ thể hiện cách người dùng AWS Glue có thể chọn từ các tùy chọn giao diện để tạo ra khối lượng công việc tác vụ bằng cách sử dụng nhiều công cụ tích hợp dữ liệu. Bốn phần hiển thị: một phần ở bên trái, hai phần ở giữa và một phần ở bên phải.

Phần đầu tiên ở bên trái được gọi là “Nguồn dữ liệu”. Phần này bao gồm những nguồn dữ liệu sau: “Amazon S3”, “Amazon DynamoDB”, “Cơ sở dữ liệu chạy trên Amazon EC2”, “Cơ sở dữ liệu” và “SaaS”.

Từ phần đầu tiên, có một mũi tên chỉ đến phần giữa nằm ở đầu sơ đồ và có tên là “Tùy chọn giao diện”. Ba mục trong phần thứ hai này là: “AWS Glue Studio”, “Sổ tay Amazon SageMaker” và “Sổ tay và IDE”.

Ở dưới phần thứ hai này, có dòng chữ mang nội dung “Giao diện mở hỗ trợ khối lượng công việc tương tác và tác vụ”. Dòng chữ này bao gồm một mũi tên chỉ đến phần thứ hai vừa đề cập ở trên nó và một mũi tên chỉ đến phần thứ ba ở dưới nó.

Phần thứ ba này được gọi là “Công cụ tích hợp dữ liệu”. Dòng chữ có nội dung: “Chọn công cụ xử lý dữ liệu phi máy chủ, quy mô linh hoạt tùy ý với khả năng tự động điều chỉnh quy mô và định giá theo mức sử dụng”. Phần này bao gồm ba công cụ mang tên: “AWS Glue dành cho Ray”, “AWS Glue dành cho Python Shell” và “AWS Glue dành cho Apache Spark”.

Phần thứ tư nằm ở bên phải phần thứ hai với một mũi tên chỉ từ phần thứ hai đến phần thứ tư. Phần thứ tư có nội dung: “Tạo và tải dữ liệu vào hồ dữ liệu và kho dữ liệu”. Phần này cũng bao gồm ba mục: “Amazon Redshift”, “Hồ dữ liệu” và “Kho dữ liệu”.

Nhấp vào để phóng to
ETL định hướng theo sự kiện
AWS Glue có thể chạy các tác vụ trích xuất, chuyển đổi và tải (ETL) của bạn khi có dữ liệu mới. Ví dụ: bạn có thể cấu hình AWS Glue để khởi chạy các tác vụ ETL ngay khi dữ liệu mới xuất hiện trong Dịch vụ lưu trữ đơn giản (S3) của Amazon.
Danh mục dữ liệu AWS Glue
Bạn có thể sử dụng Danh mục dữ liệu để khám phá nhanh và tìm kiếm nhiều tập dữ liệu AWS mà không phải di chuyển dữ liệu. Một khi đã được lập danh mục, dữ liệu sẽ ngay lập tức có sẵn để tìm kiếm và truy vấn bằng Amazon Athena, Amazon EMR và Amazon Redshift Spectrum.
Tác vụ ETL không cần mã
AWS Glue Studio giúp bạn dễ dàng tạo, chạy và theo dõi các tác vụ ETL của AWS Glue một cách trực quan. Bạn có thể dùng trình biên tập dạng kéo và thả để xây dựng các tác vụ ETL nhằm di chuyển cũng như chuyển đổi dữ liệu và AWS Glue sẽ tự động tạo mã cho bạn.
Quản lý và giám sát chất lượng dữ liệu
Chất lượng dữ liệu AWS Glue tự động hóa việc thiết lập quy tắc, quản lý và giám sát chất lượng dữ liệu để giúp đảm bảo dữ liệu có chất lượng cao trên các hồ dữ liệu và quy trình của bạn.

Sơ đồ thể hiện cách bạn có thể sử dụng Chất lượng dữ liệu AWS Glue để tạo ra các đề xuất về quy tắc, giám sát chất lượng dữ liệu và gửi cảnh báo khi chất lượng dữ liệu xuống cấp. Có ba mục được hiển thị từ trái sang phải.

Phần đầu tiên có hình minh họa Danh mục dữ liệu AWS Glue và AWS Glue ETL. Dưới Danh mục dữ liệu AWS Glue có dòng chữ: “Lập danh mục tất cả các tập dữ liệu trong hồ dữ liệu của bạn”. Dưới AWS Glue ETL có dòng chữ “Tích hợp và chuyển đổi dữ liệu từ các nguồn dữ liệu riêng biệt”.

Phần thứ hai này mang tiêu đề “Chất lượng dữ liệu AWS Glue”. Có ba biểu tượng trong phần này. Biểu tượng đầu tiên là một danh sách kiểm tra. Bên dưới biểu tượng này có dòng chữ “Đề xuất về quy tắc chất lượng dữ liệu. Bắt đầu nhanh chóng với các đề xuất về quy tắc chất lượng dữ liệu”. Biểu tượng thứ hai là một cây bút chì. Bên dưới biểu tượng này có dòng chữ “Các quy tắc chất lượng dữ liệu được cấu hình sẵn. Chỉnh sửa hoặc nâng cao đề xuất với quy tắc chất lượng dữ liệu được cấu hình sẵn”. Biểu tượng thứ ba là một cái chuông. Bên dưới biểu tượng này có dòng chữ “Cảnh báo và hành động. Thêm cảnh báo và hành động được thực hiện khi chất lượng dữ liệu xuống cấp”.

Phần thứ ba có hai biểu tượng. Biểu tượng đầu tiên là một biểu đồ cột. Bên dưới biểu tượng này có dòng chữ “Chỉ số. Sử dụng các chỉ số về chất lượng dữ liệu để tự tin đưa ra các quyết định kinh doanh”. Biểu tượng thứ hai là một biển báo. Bên dưới biểu tượng này có dòng chữ “Cảnh báo. Sử dụng các cảnh báo để nhận thông báo khi chất lượng dữ liệu xuống cấp, đồng thời hành động để sửa chữa dữ liệu”.

Nhấp vào để phóng to
Chuẩn bị dữ liệu
Với AWS Glue DataBrew, bạn có thể khám phá và thí nghiệm dữ liệu ngay từ chính hồ dữ liệu, kho dữ liệu và cơ sở dữ liệu của mình, bao gồm Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora và Dịch vụ cơ sở dữ liệu quan hệ (RDS) của Amazon. Bạn có thể lựa chọn từ hơn 250 phép chuyển đổi xây dựng sẵn trong DataBrew để tự động hóa các tác vụ chuẩn bị dữ liệu, chẳng hạn như lọc điểm bất thường, tiêu chuẩn hóa định dạng và sửa đổi các giá trị không hợp lệ.

Có gì mới

Không tìm thấy kết quả

1 …

…

Khám phá thêm về AWS