AWS Glue
Đám mây AWS
Bắt đầu với AWS Glue

AWS Glue là một dịch vụ trích xuất, chuyển đổi và nạp (ETL) được quản lý đầy đủ giúp khách hàng dễ dàng chuẩn bị và nạp dữ liệu của họ để phân tích. Bạn có thể tạo và chạy một công việc ETL bằng một vài cú nhấp chuột trong Bảng điều khiển quản lý AWS. Bạn chỉ cần trỏ AWS Glue đến dữ liệu được lưu trữ trên AWS, AWS Glue sẽ phát hiện dữ liệu của bạn và lưu trữ siêu dữ liệu liên quan (ví dụ: định nghĩa và sơ đồ bảng) trong Danh mục dữ liệu của AWS Glue. Sau khi đã được lưu vào danh mục, dữ liệu của bạn ngay lập tức có thể được tìm kiếm, truy vấn và có sẵn cho ETL. AWS Glue tạo mã để thực thi các hoạt động chuyển đổi dữ liệu và quy trình tải dữ liệu của bạn.

AWS Glue tạo mã có thể tùy chỉnh, có thể tái sử dụng và di động. Một khi tác vụ ETL đã sẵn sàng, bạn có thể lập lịch để tác vụ chạy trên môi trường Apache Spark mở rộng, được quản lý hoàn toàn của AWS Glue. AWS Glue cung cấp công cụ lập lịch linh hoạt với phương pháp giải quyết quan hệ phụ thuộc, giám sát tác vụ và cảnh báo.

AWS Glue là dịch vụ serverless, nên không cần mua, thiết lập hay quản lý cơ sở hạ tầng. Dịch vụ này tự động cung cấp môi trường cần thiết để hoàn thành tác vụ và khách hàng chỉ trả phí cho tài nguyên điện toán đã sử dụng khi chạy các tác vụ ETL. Với AWS Glue, dữ liệu có thể sẵn sàng cho phân tích trong vòng vài phút.

AWS Glue
1:47
Dịch vụ ETL serverless, được quản lý hoàn toàn và được tối ưu hóa nhờ đám mây

Bạn đã sẵn sàng bắt đầu ETL của mình?

Bắt đầu với AWS Glue


Dễ dàng

Dễ dàng

AWS Glue tự động hóa phần lớn công việc xây dựng, duy trì và chạy các tác vụ ETL. AWS Glue thu thập các nguồn dữ liệu, xác định định dạng dữ liệu và gợi ý các sơ đồ và hoạt động chuyển đổi. AWS Glue tự động tạo mã để thực thi các hoạt động chuyển đổi dữ liệu và quy trình tải dữ liệu của bạn.

Tích hợp

Tích hợp

AWS Glue được tích hợp trên một loạt các dịch vụ AWS. Về cơ bản AWS Glue hỗ trợ dữ liệu lưu trữ trên Amazon Aurora, Amazon RDS dành cho MySQL, Amazon RDS dành cho Oracle, Amazon RDS dành cho PostgreSQL, Amazon RDS dành cho SQL Server, Amazon Redshift và Amazon S3 cũng như các cơ sở dữ liệu MySQL, Oracle, Microsoft SQL Server và PostgreSQL trong Virtual Private Cloud (Amazon VPC) đang chạy trên Amazon EC2. AWS Glue mang đến khả năng tích hợp đột phá với Amazon Athena, Amazon EMR, Amazon Redshift Spectrum và bất cứ ứng dụng nào tương thích tới Apache Hive Metastore.

Serverless

Serverless

AWS Glue là dịch vụ serverless. Không cần cung cấp hay quản lý cơ sở hạ tầng. AWS Glue giải quyết việc cung cấp, cấu hình và thay đổi quy mô của các tài nguyên cần thiết để chạy các tác vụ ETL của bạn trên môi trường Apache Spark mở rộng, được quản lý hoàn toàn. Bạn chỉ phải trả phí cho các tài nguyên được sử dụng khi các tác vụ của bạn đang chạy.

Thân thiện với nhà phát triển

Thân thiện với nhà phát triển

AWS Glue tạo mã ETL có thể tùy chỉnh, có thể tái sử dụng và di động, sử dụng công nghệ quen thuộc – Scala, Python và Apache Spark. Bạn cũng có thể nhập các trình đọc, trình ghi và các hoạt động chuyển đổi tùy chỉnh vào mã ETL của Glue. Do mã của AWS Glue tạo ra dựa trên các framework mở, nên không có tình trạng bị khóa cứng vào một sản phẩm. Bạn có thể sử dụng mã này ở bất cứ đâu.


Bước 1: Xây dựng Danh mục dữ liệu của bạn
Bước 1: Xây dựng Danh mục dữ liệu của bạn

Nhấp vào để phóng to

Trước tiên, hãy sử dụng Bảng điều khiển quản lý AWS để đăng ký các nguồn dữ liệu của bạn. AWS Glue sẽ thu thập các nguồn dữ liệu và xây dựng Danh mục dữ liệu của bạn bằng các công cụ phân loại dựng sẵn cho nhiều định dạng nguồn và loại dữ liệu phổ biến, bao gồm JSON, CSV, Parquet và nhiều định dạng khác.

Bước 2: Tạo và chỉnh sửa các hoạt động chuyển đổi
Bước 2: Tạo và chỉnh sửa các hoạt động chuyển đổi

Nhấp vào để phóng to

Tiếp theo, hãy chọn nguồn dữ liệu và mục tiêu dữ liệu. AWS Glue sẽ tạo mã ETL trong Scala hoặc Python để trích xuất dữ liệu từ nguồn, chuyển đổi dữ liệu để phù hợp với sơ đồ mục tiêu và tải dữ liệu vào mục tiêu. Bạn có thể chỉnh sửa, gỡ lỗi và kiểm thử mã này thông qua Bảng điều khiển, trong IDE yêu thích của bạn hoặc trình soạn thảo văn bản bất kỳ.

Bước 3: Lập lịch và chạy các tác vụ
Bước 3: Lập lịch và chạy các tác vụ

Nhấp vào để phóng to

AWS Glue giúp đơn giản hóa việc lập lịch các tác vụ ETL lặp lại, xâu chuỗi nhiều tác vụ lại với nhau hoặc gọi ra các tác vụ theo yêu cầu từ các dịch vụ khác như AWS Lambda. AWS Glue quản lý các quan hệ phụ thuộc giữa các tác vụ của bạn, tự động thay đổi quy mô của các tài nguyên ẩn và thử lại các tác vụ nếu chúng thất bại.

Truy cập trang Chi tiết sản phẩm AWS Glue hoặc tham khảo tài liệu hướng dẫn sản phẩm để tìm hiểu thêm.


Chuẩn bị luồng nhấp chuột của bạn hoặc xử lý dữ liệu nhật ký cho phân tích bằng cách xóa, chuẩn hóa và làm phong phú các tập dữ liệu bằng AWS Glue. AWS Glue tạo sơ đồ cho dữ liệu bán cấu trúc của bạn, tạo mã ETL để chuyển đổi, làm phẳng và làm phong phú dữ liệu của bạn, cũng như tải vào kho dữ liệu của bạn theo chu kỳ lặp lại.

Chuẩn bị và tải dữ liệu cho phân tích

Bạn có thể sử dụng Danh mục dữ liệu của AWS Glue để khám phá nhanh và tìm kiếm trên nhiều tập dữ liệu AWS mà không phải di chuyển dữ liệu. Một khi đã được lập danh mục, dữ liệu sẽ ngay lập tức có sẵn để tìm kiếm và truy vấn bằng Amazon Athena, Amazon EMR và Amazon Redshift Spectrum.

Xây dựng dạng hiển thị dữ liệu thống nhất

Kho dữ liệu là phương thức ngày một phổ biến để lưu trữ và phân tích cả dữ liệu có cấu trúc và không có cấu trúc. Nếu bạn sử dụng kho dữ liệu Amazon S3, AWS Glue có thể khiến dữ liệu của bạn ngay lập tức sẵn sàng cho phân tích mà không cần di chuyển dữ liệu. Các công cụ thu thập của Glue có thể quét kho dữ liệu của bạn và duy trì Danh mục dữ liệu Glue đồng bộ với dữ liệu ẩn. Sau đó, bạn có thể trực tiếp truy vấn kho dữ liệu với Amazon Athena và Amazon Redshift Spectrum. Bạn cũng có thể sử dụng Danh mục dữ liệu Glue làm Apache Hive Metastore bên ngoài của bạn cho các ứng dụng đang chạy trên Amazon EMR.

Xây dựng dạng hiển thị dữ liệu thống nhất

AWS Glue có thể chạy các tác vụ ETL dựa trên một sự kiện, ví dụ như khi nhận được một tập dữ liệu mới. Ví dụ: bạn có thể sử dụng một chức năng của AWS Lambda để kích hoạt các tác vụ ETL chạy ngay khi dữ liệu mới xuất hiện trong Amazon S3. Bạn cũng có thể đăng ký tập dữ liệu mới này vào Danh mục dữ liệu của AWS Glue như một phần của các tác vụ ETL.

Tự động hóa các tác vụ ETL khi dữ liệu mới xuất hiện

Bắt đầu với AWS Glue thật dễ dàng. Chỉ cần đăng nhập Bảng điều khiển quản lý AWS và điều hướng đến “Glue” trong danh mục “Analytics” (Phân tích).

Bạn đã sẵn sàng bắt đầu ETL của mình?

Bắt đầu với AWS Glue