AWS Glue

ETL đơn giản, linh hoạt và hiệu quả chi phí

AWS Glue là một dịch vụ trích xuất, chuyển đổi và nạp (ETL) được quản lý đầy đủ giúp khách hàng dễ dàng chuẩn bị và nạp dữ liệu của họ để phân tích. Bạn có thể tạo và chạy một công việc ETL bằng một vài cú nhấp chuột trong Bảng điều khiển quản lý AWS. Bạn chỉ cần trỏ AWS Glue đến dữ liệu được lưu trữ trên AWS, AWS Glue sẽ phát hiện dữ liệu của bạn và lưu trữ siêu dữ liệu liên quan (ví dụ: định nghĩa và sơ đồ bảng) trong Danh mục dữ liệu của AWS Glue. Sau khi đã được lưu vào danh mục, dữ liệu của bạn ngay lập tức có thể được tìm kiếm, truy vấn và có sẵn cho ETL. AWS Glue tạo mã để thực thi các hoạt động chuyển đổi dữ liệu và quy trình tải dữ liệu của bạn.

AWS Glue tạo mã có thể tùy chỉnh, có thể tái sử dụng và di động. Một khi tác vụ ETL đã sẵn sàng, bạn có thể lập lịch để tác vụ chạy trên môi trường Apache Spark mở rộng, được quản lý hoàn toàn của AWS Glue. AWS Glue cung cấp công cụ lập lịch linh hoạt với phương pháp giải quyết quan hệ phụ thuộc, giám sát tác vụ và cảnh báo.

AWS Glue là dịch vụ serverless, nên không cần mua, thiết lập hay quản lý cơ sở hạ tầng. Dịch vụ này tự động cung cấp môi trường cần thiết để hoàn thành tác vụ và khách hàng chỉ trả phí cho tài nguyên điện toán đã sử dụng khi chạy các tác vụ ETL. Với AWS Glue, dữ liệu có thể sẵn sàng cho phân tích trong vòng vài phút.

Giới thiệu AWS Glue (1:47)

Lợi ích

Dễ dàng

AWS Glue tự động hóa phần lớn công việc xây dựng, duy trì và chạy các tác vụ ETL. AWS Glue thu thập các nguồn dữ liệu, xác định định dạng dữ liệu và gợi ý các sơ đồ và hoạt động chuyển đổi. AWS Glue tự động tạo mã để thực thi các hoạt động chuyển đổi dữ liệu và quy trình tải dữ liệu của bạn.

Tích hợp

AWS Glue được tích hợp trên nhiều dịch vụ AWS, nghĩa là bạn sẽ gặp ít rắc rối khi sử dụng. Về cơ bản AWS Glue hỗ trợ dữ liệu lưu trữ trên Amazon Aurora, và tất cả các công cụ Amazon RDS khác, Amazon DynamoDB, Amazon Redshift và Amazon S3 cũng như các cơ sở dữ liệu MySQL, Oracle, Microsoft SQL Server và PostgreSQL trong Virtual Private Cloud (Amazon VPC) đang chạy trên Amazon EC2. AWS Glue mang đến khả năng tích hợp đột phá với Amazon Athena, Amazon EMR, Amazon Redshift Spectrum và bất cứ ứng dụng nào tương thích tới Apache Hive Metastore.

Serverless

AWS Glue là dịch vụ serverless. Không cần cung cấp hay quản lý cơ sở hạ tầng. AWS Glue giải quyết việc cung cấp, cấu hình và thay đổi quy mô của các tài nguyên cần thiết để chạy các tác vụ ETL của bạn trên môi trường Apache Spark mở rộng, được quản lý hoàn toàn. Bạn chỉ phải trả phí cho các tài nguyên được sử dụng khi các tác vụ của bạn đang chạy.

Thân thiện với nhà phát triển

AWS Glue tạo mã ETL có thể tùy chỉnh, có thể tái sử dụng và di động, sử dụng công nghệ quen thuộc – Scala, Python và Apache Spark. Bạn cũng có thể nhập các trình đọc, trình ghi và các hoạt động chuyển đổi tùy chỉnh vào mã ETL của AWS Glue. Do mã của AWS Glue tạo ra dựa trên các framework mở, nên không có tình trạng bị khóa cứng vào một sản phẩm. Bạn có thể sử dụng mã này ở bất cứ đâu.

Cách thức hoạt động

Hãy chọn nguồn dữ liệu và mục tiêu dữ liệu. AWS Glue sẽ tạo mã ETL trong Scala hoặc Python để trích xuất dữ liệu từ nguồn, chuyển đổi dữ liệu để phù hợp với sơ đồ mục tiêu và tải dữ liệu vào mục tiêu. Bạn có thể chỉnh sửa, gỡ lỗi và kiểm thử mã này thông qua Bảng điều khiển, trong IDE yêu thích của bạn hoặc trình soạn thảo văn bản bất kỳ.

Bước 1: Xây dựng Danh mục dữ liệu của bạn
screenshot-glue-step1-data-catalog2b

Trước tiên, hãy sử dụng Bảng điều khiển quản lý AWS để đăng ký các nguồn dữ liệu của bạn. AWS Glue sẽ thu thập các nguồn dữ liệu và xây dựng Danh mục dữ liệu của bạn bằng các công cụ phân loại dựng sẵn cho nhiều định dạng nguồn và loại dữ liệu phổ biến, bao gồm JSON, CSV, Parquet và nhiều định dạng khác.

Bước 2: Tạo và chỉnh sửa các hoạt động chuyển đổi
screenshot-glue-step2-etl-generation4

Tiếp theo, hãy chọn nguồn dữ liệu và mục tiêu dữ liệu. AWS Glue sẽ tạo mã ETL trong Scala hoặc Python để trích xuất dữ liệu từ nguồn, chuyển đổi dữ liệu để phù hợp với sơ đồ mục tiêu và tải dữ liệu vào mục tiêu. Bạn có thể chỉnh sửa, gỡ lỗi và kiểm thử mã này thông qua Bảng điều khiển, trong IDE yêu thích của bạn hoặc trình soạn thảo văn bản bất kỳ.

Bước 3: Lập lịch và chạy các tác vụ
screenshot-glue-step3-orchestration2

AWS Glue giúp đơn giản hóa việc lập lịch các tác vụ ETL lặp lại, xâu chuỗi nhiều tác vụ lại với nhau hoặc gọi ra các tác vụ theo yêu cầu từ các dịch vụ khác như AWS Lambda. AWS Glue quản lý các quan hệ phụ thuộc giữa các tác vụ của bạn, tự động thay đổi quy mô của các tài nguyên ẩn và thử lại các tác vụ nếu chúng thất bại.

Truy cập trang Tính năng của AWS Glue hoặc tham khảo tài liệu hướng dẫn sản phẩm để tìm hiểu thêm.

Trường hợp sử dụng

Các truy vấn với kho dữ liệu Amazon S3

Kho dữ liệu là phương thức ngày một phổ biến để lưu trữ và phân tích cả dữ liệu có cấu trúc và không có cấu trúc. Nếu bạn sử dụng kho dữ liệu Amazon S3, AWS Glue có thể khiến dữ liệu của bạn ngay lập tức sẵn sàng cho phân tích mà không cần di chuyển dữ liệu.

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

Phân tích dữ liệu nhật ký trong kho dữ liệu của bạn

Chuẩn bị luồng nhấp chuột của bạn hoặc xử lý dữ liệu nhật ký cho phân tích bằng cách xóa, chuẩn hóa và làm phong phú các tập dữ liệu bằng AWS Glue. AWS Glue tạo sơ đồ cho dữ liệu bán cấu trúc của bạn, tạo mã ETL để chuyển đổi, làm phẳng và làm phong phú dữ liệu của bạn, cũng như tải vào kho dữ liệu của bạn theo chu kỳ lặp lại.

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

Dạng hiển thị dữ liệu thống nhất trên nhiều kho dữ liệu

Bạn có thể sử dụng Danh mục dữ liệu của AWS Glue để khám phá nhanh và tìm kiếm trên nhiều tập dữ liệu AWS mà không phải di chuyển dữ liệu. Một khi đã được lập danh mục, dữ liệu sẽ ngay lập tức có sẵn để tìm kiếm và truy vấn bằng Amazon Athena, Amazon EMR và Amazon Redshift Spectrum.

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

Quy trình ETL theo sự kiện

AWS Glue có thể chạy các tác vụ ETL dựa trên một sự kiện, ví dụ như khi nhận được một tập dữ liệu mới. Ví dụ: bạn có thể sử dụng một chức năng của AWS Lambda để kích hoạt các tác vụ ETL chạy ngay khi dữ liệu mới xuất hiện trong Amazon S3. Bạn cũng có thể đăng ký tập dữ liệu mới này vào Danh mục dữ liệu của AWS Glue như một phần của các tác vụ ETL.

product-page-diagram_Glue_Event-driven-ETL-Pipelines

Bắt đầu với AWS

icon1

Đăng ký tài khoản AWS

Nhận quyền sử dụng ngay lập tức Bậc miễn phí của AWS.
icon2

Tìm hiểu bằng hướng dẫn 10 phút

Khám phá và tìm hiểu bằng những hướng dẫn đơn giản.
icon3

Bắt đầu xây dựng với AWS

Bắt đầu dựng với các hướng dẫn từng bước để giúp bạn khởi tạo dự án AWS của mình.

Tìm hiểu thêm về AWS Glue

Truy cập trang tính năng
Bạn đã sẵn sàng xây dựng chưa?
Bắt đầu với AWS Glue
Bạn có thêm câu hỏi?
Hãy liên hệ chúng tôi