AWS Glue

Dịch vụ tích hợp dữ liệu phi máy chủ, đơn giản, có thể mở rộng

AWS Glue là dịch vụ tích hợp dữ liệu phi máy chủ, giúp người dùng dễ dàng tìm kiếm, chuẩn bị và tổng hợp dữ liệu cho hoạt động phân tích, máy học và phát triển ứng dụng. AWS Glue cung cấp tất cả các chức năng cần thiết cho quá trình tích hợp dữ liệu để bạn có thể bắt đầu phân tích và đưa dữ liệu chỉ trong ít phút thay vì vài tháng như trước.

Tích hợp dữ liệu là quá trình chuẩn bị và tổng hợp dữ liệu cho hoạt động phân tích, máy học và phát triển ứng dụng. Quá trình này liên quan đến nhiều tác vụ, chẳng hạn như tìm kiếm và trích xuất dữ liệu từ nhiều nguồn, làm phong phú, trau chuốt, chuẩn hóa và tổng hợp dữ liệu, cũng như tải và sắp xếp dữ liệu trong cơ sở dữ liệu, kho dữ liệu và hồ dữ liệu. Những tác vụ này thường do nhiều kiểu người dùng khác nhau xử lý, mỗi kiểu người dùng lại sử dụng các sản phẩm khác nhau.

AWS Glue cung cấp giao diện ở cả dạng mã và dạng trực quan để bạn dễ dàng chuẩn bị dữ liệu. Người dùng có thể dễ dàng tìm kiếm và truy cập dữ liệu bằng Danh mục dữ liệu AWS Glue. Kỹ thuật viên dữ liệu và nhà phát triển ETL (trích xuất, biến đổi và tải) có thể tạo, chạy và giám sát một cách trực quan các quy trình ETL chỉ với một vài cú nhấp chuột trong AWS Glue Studio. Nhà phân tích và nhà khoa học dữ liệu có thể dùng AWS Glue DataBrew để làm phong phú, trau chuốt và chuẩn hóa dữ liệu một cách trực quan mà không cần viết mã. Với AWS Glue Elastic Views, nhà phát triển có thể sử dụng Ngôn ngữ truy vấn có cấu trúc (SQL) vốn đã quen thuộc để tổng hợp và sao chép dữ liệu trên nhiều kho dữ liệu khác nhau.

Giới thiệu về AWS Glue (1:47)

Lợi ích

Tích hợp dữ liệu nhanh hơn

Các nhóm khác nhau trên toàn tổ chức có thể dùng AWS Glue để cộng tác với nhau trong các tác vụ tích hợp dữ liệu, bao gồm, trích xuất, trau chuốt, chuẩn hóa, tổng hợp, tải và chạy quy trình ETL quy mô linh hoạt. Theo cách này, bạn có thể giảm thiểu thời gian cần thiết để phân tích dữ liệu và chỉ cần ít phút là có thể đưa dữ liệu vào sử dụng, thay vì vài tháng như trước đây.

Tự động hóa quá trình tích hợp dữ liệu trên quy mô lớn

AWS Glue tự động hóa phần lớn công sức tích hợp dữ liệu phải bỏ ra. AWS Glue thu thập các nguồn dữ liệu, xác định các định dạng dữ liệu và gợi ý các sơ đồ để lưu trữ dữ liệu của bạn. Dịch vụ này tự động tạo mã để chạy các hoạt động chuyển đổi dữ liệu và quy trình tải dữ liệu của bạn. Bạn có thể dùng AWS Glue để dễ dàng chạy và quản lý hàng ngàn tác vụ ETL hoặc tổng hợp và sao chép dữ liệu trên nhiều kho dữ liệu bằng SQL.

Không cần phải quản lý máy chủ

AWS Glue chạy trong môi trường phi máy chủ. Bạn không cần quản lý cơ sở hạ tầng, AWS Glue sẽ tự động cung cấp, đặt cấu hình và mở rộng tài nguyên cần thiết để chạy các tác vụ tích hợp dữ liệu. Bạn chỉ phải trả phí cho các tài nguyên mà tác vụ của bạn sử dụng trong lúc chạy.

Trường hợp sử dụng


Xây dựng quy trình ETL (trích xuất, biến đổi và tải) theo sự kiện

AWS Glue có thể chạy các tác vụ ETL khi có dữ liệu mới. Ví dụ: bạn có thể sử dụng một chức năng của AWS Lambda để kích hoạt các tác vụ ETL chạy ngay khi dữ liệu mới xuất hiện trong Amazon S3. Bạn cũng có thể đăng ký tập dữ liệu mới này vào Danh mục dữ liệu của AWS Glue như một phần của các tác vụ ETL.

Sơ đồ quy trình ETL theo sự kiện

Tạo danh mục hợp nhất để tìm dữ liệu trên nhiều kho dữ liệu

Bạn có thể sử dụng Danh mục dữ liệu của AWS Glue để khám phá nhanh và tìm kiếm trên nhiều tập dữ liệu AWS mà không phải di chuyển dữ liệu. Một khi đã được lập danh mục, dữ liệu sẽ ngay lập tức có sẵn để tìm kiếm và truy vấn bằng Amazon Athena, Amazon EMR và Amazon Redshift Spectrum.

Tạo và chạy tác vụ ELT trong AWS Glue

Tạo, chạy và theo dõi các tác vụ ETL mà không cần viết mã

AWS Glue Studio giúp bạn dễ dàng tạo, chạy và theo dõi các tác vụ AWS Glue ETL một cách trực quan. Bạn có thể dùng công cụ chỉnh sửa dạng kéo thả để soạn thảo các tác vụ ETL nhằm di chuyển và biến đổi dữ liệu, AWS Glue sẽ tự động tạo mã cho bạn. Sau đó, bạn có thể dùng bảng điều khiển chạy tác vụ AWS Glue Studio để theo dõi quá trình thực thi ETL và đảm bảo rằng tác vụ của bạn đang hoạt động như mong muốn. Tìm hiểu thêm về AWS Glue Studio tại đây.

Công cụ ETL trực quan cho nhà phát triển ETL

Khám phá dữ liệu với tính năng chuẩn bị dữ liệu trực quan tự phục vụ

AWS Glue DataBrew cho phép bạn khám phá và thí nghiệm dữ liệu ngay từ chính hồ dữ liệu, kho dữ liệu và cơ sở dữ liệu của mình, bao gồm Amazon S3, Amazon Redshift, AWS Lake Formation, Amazon Aurora và Amazon RDS. Bạn có thể lựa chọn từ hơn 250 cách biến đổi xây dựng sẵn trong AWS Glue DataBrew để tự động các tác vụ chuẩn bị dữ liệu, chẳng hạn như lọc điểm bất thường, tiêu chuẩn hóa định dạng và sửa đổi các giá trị không hợp lệ. Sau khi chuẩn bị xong dữ liệu, bạn có thể dùng dữ liệu ngay lập tức cho hoạt động phân tích và máy học. Tìm hiểu thêm về AWS Glue DataBrew tại đây.

Trau chuốt và bình thường hóa dữ liệu trực quan

Xây dựng chế độ xem cụ thể hóa để tổng hợp và sao chép dữ liệu (xem trước)

AWS Glue Elastic Views tạo điều kiện để bạn sử dụng SQL vốn đã quen thuộc để tạo các chế độ xem cụ thể hóa. Dừng những chế độ xem này để truy cập và tổng hợp dữ liệu từ nhiều kho dữ liệu nguồn, đồng thời đảm bảo dữ liệu tổng hợp đó luôn cập nhật và có thể truy cập được từ kho dữ liệu đích. Bản xem trước AWS Glue Elastic Views hiện chỉ hỗ trợ nguồn là Amazon DynamoDB, sắp tới sẽ hỗ trợ Amazon Aurora và Amazon RDS. Hiện chỉ hỗ trợ các đich là Amazon Redshift, Amazon S3 và Amazon Elasticsearch Service, sắp tới sẽ hỗ trợ Amazon Aurora, Amazon RDS và Amazon DynamoDB. Tìm hiểu thêm về AWS Glue Elastic Views tại đây.

Trau chuốt và chuẩn hóa dữ liệu trực quan

Có gì mới

ngày
  • ngày
1
Các tính năng của AWS Glue
Tìm hiểu về các tính năng của AWS Glue

Tìm hiểu thêm về các tính năng chính của AWS Glue.

Tìm hiểu thêm 
Đăng ký tài khoản AWS
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS. 

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển
Bắt đầu xây dựng trong AWS Glue

Bắt đầu xây dựng với AWS Glue trong giao diện ETL trực quan.

Đăng nhập