Amazon S3 hiện hỗ trợ nén các định dạng Apache Avro và ORC cho các bảng Apache Iceberg

Ngày đăng: 15 Th07 2025

Amazon S3 đã mở rộng hỗ trợ nén để bao gồm các định dạng Apache Avro và ORC cho các bảng Apache Iceberg, bổ sung cho khả năng định dạng Parquet hiện có. Cải tiến này áp dụng trên cả Bảng S3 và cho các vùng lưu trữ S3 đa dụng bằng cách sử dụng khả năng tối ưu hóa Danh mục dữ liệu AWS Glue.

Mặc dù Parquet là định dạng mặc định cho các bảng Iceberg, bạn cũng có thể ghi dữ liệu ở định dạng Avro hoặc ORC cho khối lượng công việc cụ thể. Ví dụ: bạn có thể sử dụng Avro để cải thiện hiệu năng ghi cho các trường hợp sử dụng tải nhập dữ liệu và phát trực tuyến như giao dịch mua hằng ngày, dữ liệu cảm biến phát trực tuyến hoặc thu thập lượt hiển thị quảng cáo. Bảng S3 tự động nén các tệp nhỏ thành các tệp lớn hơn để giảm thiểu dữ liệu được quét, cải thiện hiệu năng truy vấn và giảm chi phí. Khả năng nén sẽ mặc định chuyển đổi các tệp Avro và ORC thành Parquet để đạt hiệu năng đọc tối ưu, nhưng bạn có thể chọn định dạng mục tiêu ưu tiên trong thuộc tính bảng của mình.

Hỗ trợ nén cho các định dạng Apache Avro và ORC hiện được cung cấp ở tất cả các Khu vực AWS có sẵn Bảng S3 hoặc khả năng tối ưu hóa với Danh mục dữ liệu AWS Glue. Để tìm hiểu thêm về khả năng nén Bảng S3, hãy xem tài liệu về bảo trì Bảng S3. Để biết thông tin về khả năng tối ưu hóa vùng lưu trữ đa dụng, hãy xem tài liệu về tối ưu hóa Danh mục dữ liệu AWS Glue.