AWS Glue là một dịch vụ tích hợp dữ liệu phi máy chủ cung cấp nhiều công cụ tích hợp dữ liệu nhằm hỗ trợ người dùng và khối lượng công việc của bạn. Với AWS Glue, bạn có thể sử dụng công cụ thích hợp cho bất kỳ khối lượng công việc nào, dựa vào đặc điểm của khối lượng công việc và tùy chọn của nhà phát triển cũng như nhà phân tích.
Tính năng chính
AWS Glue for Apache Spark
AWS Glue cung cấp cơ sở hạ tầng phi máy chủ, được tối ưu hóa cho hiệu suất giúp chạy Apache Spark cho các công việc tích hợp dữ liệu cũng như trích xuất, chuyển đổi và tải (ETL). AWS Glue cho Apache Spark hỗ trợ xử lý lô và luồng, đồng thời tăng tốc độ tải nhập, xử lý và tích hợp dữ liệu. Sau đó, bạn có thể tạo và cập nhật hồ dữ liệu và kho dữ liệu của mình cũng như trích xuất thông tin chuyên sâu nhanh chóng hơn từ dữ liệu.
AWS Glue dành cho Ray
Với AWS Glue dành cho Ray, các nhà phát triển và kỹ sư dữ liệu có thể xử lý các tập dữ liệu lớn bằng Python và các thư viện Python phổ biến. AWS Glue sử dụng Ray (Ray.io), một khung điện toán hợp nhất nguồn mở dùng để thay đổi quy mô khối lượng công việc Python. AWS Glue cho Ray bao gồm các thư viện xử lý dữ liệu phổ biến của Python để bạn có thể mang thư viện của riêng mình nhằm tùy chỉnh công việc tích hợp dữ liệu.
AWS Glue cho Python Shell
Với AWS Glue cho Python Shell, bạn có thể dùng lệnh Python Shell để chạy các tập lệnh Python trên AWS Glue. Thông qua các lệnh này, bạn có thể ghi các lệnh phân tích và tích hợp dữ liệu phức tạp trong Python. Các lệnh AWS Glue cho Python Shell cung cấp các thư viện phân tích phổ biến ngay từ đầu, bao gồm Pandas, NumPy và Amazon SageMaker Data Wrangler. Bạn có thể sử dụng gói chức năng để kết nối nhiều cơ sở dữ liệu, kho dữ liệu và các dịch vụ AWS.