AWS công bố hỗ trợ véc-tơ xóa và dòng chảy dữ liệu theo hàng của Apache Iceberg V3
AWS hiện đã hỗ trợ véc-tơ xóa và dòng chảy dữ liệu theo hàng như được định nghĩa trong thông số kỹ thuật Apache Iceberg Phiên bản 3 (V3). Các tính năng mới này có sẵn với Apache Spark trên Amazon EMR 7.12, AWS Glue, sổ tay Amazon SageMaker, Bảng Amazon S3 và Danh mục dữ liệu AWS Glue.
Những khả năng này của Iceberg V3 giúp khách hàng xây dựng hồ dữ liệu quy mô petabyte với hiệu năng cao hơn để phục vụ sửa đổi dữ liệu và hoạt động chức năng nhằm dễ dàng theo dõi các bản ghi đã thay đổi. Các véc-tơ xóa ghi các tệp xóa được tối ưu hóa giúp tăng tốc quy trình dữ liệu và giảm chi phí nén dữ liệu. Dòng chảy dữ liệu theo hàng cung cấp các trường siêu dữ liệu trên mỗi bản ghi để theo dõi thay đổi bằng một truy vấn SQL đơn giản, loại bỏ chi phí tính toán khi tìm thay đổi nhỏ trong bảng lớn.
Bắt đầu tạo bảng V3 bằng cách đặt thuộc tính bảng thành 'format-version = 3' trong lệnh CREATE TABLE trong Spark hoặc sổ tay SageMaker. Để nâng cấp các bảng hiện có, chỉ cần cập nhật phiên bản định dạng mới cho thuộc tính bảng trong siêu dữ liệu. Khi bạn làm như vậy, các công cụ truy vấn AWS hỗ trợ V3 sẽ tự động bắt đầu sử dụng véc-tơ xóa và dòng chảy dữ liệu theo hàng.
Véc-tơ xóa và dòng chảy dữ liệu theo hàng của Iceberg V3 hiện có sẵn ở tất cả các Khu vực AWS có hỗ trợ từng dịch vụ/tính năng tương ứng, bao gồm Amazon EMR, AWS Glue, sổ tay SageMaker, Bảng S3 và Danh mục dữ liệu AWS Glue. Để tìm hiểu thêm về hỗ trợ Iceberg V3 trên AWS, hãy truy cập Apache Iceberg V3 trên AWS và đọc bài đăng trên blog.