Tại sao nên sử dụng AWS Glue?
Chuẩn bị dữ liệu để thu được kết quả chất lượng là bước đầu tiên của một dự án phân tích hoặc ML. AWS Glue là một dịch vụ tích hợp dữ liệu phi máy chủ, giúp hoạt động chuẩn bị dữ liệu trở nên đơn giản, nhanh chóng và tiết kiệm hơn. Bạn có thể khám phá và kết nối với hơn 70 nguồn dữ liệu đa dạng, quản lý dữ liệu của mình trong một danh mục dữ liệu tập trung, đồng thời tạo, chạy và theo dõi quy trình ETL một cách trực quan để tải dữ liệu của bạn vào các hồ dữ liệu.
Giới thiệu về AWS Glue (01:54)

Lợi ích của AWS Glue

Khả năng tích hợp dữ liệu đầy đủ qua dịch vụ phi máy chủ
Hỗ trợ linh hoạt cho ETL, ELT, lô, hoạt động phát trực tuyến và nhiều hoạt động khác mà không bị ràng buộc
Hỗ trợ tất cả người dùng dữ liệu từ nhà phát triển đến người dùng doanh nghiệp
Quy mô petabyte, thanh toán theo mức sử dụng, mọi kích thước dữ liệu

Cách thức hoạt động

AWS Glue là một dịch vụ tích hợp dữ liệu phi máy chủ, giúp người dùng dễ dàng khám phá, chuẩn bị, di chuyển và tích hợp dữ liệu từ nhiều nguồn cho hoạt động phân tích, máy học (ML) và phát triển ứng dụng.

  • Các tùy chọn về công cụ tích hợp dữ liệu
  • Chọn công cụ tích hợp dữ liệu bạn muốn trong AWS Glue để hỗ trợ người dùng và khối lượng công việc.

    Sơ đồ thể hiện các tùy chọn về công cụ xử lý dữ liệu cho AWS Glue.
  • ETL định hướng theo sự kiện
  • AWS Glue có thể chạy các tác vụ trích xuất, chuyển đổi và tải (ETL) của bạn khi có dữ liệu mới. Ví dụ: bạn có thể cấu hình AWS Glue để khởi chạy các tác vụ ETL ngay khi dữ liệu mới xuất hiện trong Dịch vụ lưu trữ đơn giản (S3) của Amazon.

    Sơ đồ minh họa cách AWS Glue có thể chạy các tác vụ ETL khi có dữ liệu mới.
  • Danh mục dữ liệu AWS Glue
  • Bạn có thể sử dụng Danh mục dữ liệu để khám phá nhanh và tìm kiếm nhiều tập dữ liệu AWS mà không phải di chuyển dữ liệu. Một khi đã được lập danh mục, dữ liệu sẽ ngay lập tức có sẵn để tìm kiếm và truy vấn bằng Amazon Athena, Amazon EMR và Amazon Redshift Spectrum.

    Sơ đồ minh họa việc khám phá và tìm kiếm các tập dữ liệu bằng Danh mục dữ liệu mà không phải di chuyển dữ liệu.
  • Tác vụ ETL không cần mã
  • AWS Glue Studio giúp bạn dễ dàng tạo, chạy và theo dõi các tác vụ ETL của AWS Glue một cách trực quan. Bạn có thể dùng trình biên tập dạng kéo và thả để xây dựng các tác vụ ETL nhằm di chuyển cũng như chuyển đổi dữ liệu và AWS Glue sẽ tự động tạo mã cho bạn.

    Sơ đồ minh họa cách người dùng có thể dùng trình biên tập dạng kéo và thả để soạn thảo các tác vụ ETL nhằm di chuyển và chuyển đổi dữ liệu.
  • Quản lý và giám sát chất lượng dữ liệu
  • Chất lượng dữ liệu AWS Glue tự động hóa việc thiết lập quy tắc, quản lý và giám sát chất lượng dữ liệu để giúp đảm bảo dữ liệu có chất lượng cao trên các hồ dữ liệu và quy trình của bạn.

    Sơ đồ thể hiện cách Chất lượng dữ liệu AWS Glue tự động đo lường, giám sát và quản lý chất lượng dữ liệu trên các hồ dữ liệu và quy trình dữ liệu.
  • Chuẩn bị dữ liệu
  • Với AWS Glue DataBrew, bạn có thể khám phá và thí nghiệm dữ liệu ngay từ chính hồ dữ liệu, kho dữ liệu và cơ sở dữ liệu của mình, bao gồm Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora và Dịch vụ cơ sở dữ liệu quan hệ (RDS) của Amazon. Bạn có thể lựa chọn từ hơn 250 phép chuyển đổi xây dựng sẵn trong DataBrew để tự động hóa các tác vụ chuẩn bị dữ liệu, chẳng hạn như lọc điểm bất thường, tiêu chuẩn hóa định dạng và sửa đổi các giá trị không hợp lệ.

    Sơ đồ minh họa cách DataBrew tự động hóa các tác vụ chuẩn bị dữ liệu cho người dùng.

Có gì mới

  • Ngày (Từ mới nhất đến cũ nhất)
Không tìm thấy kết quả
1

Khám phá thêm về AWS