Lưu trữ dữ liệu dạng bảng ở quy mô lớn trong S3
Bảng Amazon S3 cung cấp kho đối tượng đám mây đầu tiên hỗ trợ Apache Iceberg tích hợp và đơn giản hóa việc lưu trữ dữ liệu dạng bảng ở quy mô lớn. Tối ưu hóa bảng liên tục tự động quét và ghi lại dữ liệu bảng trong nền, cho hiệu năng truy vấn nhanh hơn tới 3 lần so với bảng Iceberg không được quản lý. Các hoạt động tối ưu hóa hiệu năng này sẽ tiếp tục được cải thiện theo thời gian. Ngoài ra, Bảng S3 cũng bao gồm các tối ưu hóa dành riêng cho khối lượng công việc Iceberg, mang đến số giao dịch mỗi giây cao hơn tới 10 lần so với bảng Iceberg lưu trữ trong vùng lưu trữ S3 đa dụng. Để biết thêm thông tin chi tiết về các cải tiến hiệu năng truy vấn của Bảng S3, hãy tham khảo blog.
Vì Bảng S3 hỗ trợ tiêu chuẩn Apache Iceberg, nên các công cụ truy vấn phổ biến của AWS và bên thứ ba có thể dễ dàng truy vấn dữ liệu dạng bảng của bạn bao gồm Amazon Athena, Redshift, EMR và Apache Spark. Sử dụng Bảng S3 để lưu trữ dữ liệu dạng bảng như giao dịch mua hàng hàng ngày, dữ liệu cảm biến phát trực tuyến hoặc lượt hiển thị quảng cáo dưới dạng bảng Iceberg trong S3 và tối ưu hóa hiệu suất cũng như chi phí khi dữ liệu phức tạp hơn nhờ tính năng bảo trì bảng tự động. Đọc blog để tìm hiểu thêm.
Lợi ích
Cách thức hoạt động
Bảng S3 cung cấp kho lưu trữ S3 chuyên dụng để lưu trữ dữ liệu có cấu trúc theo định dạng Apache Parquet. Trong vùng lưu trữ bảng, bạn có thể tạo bảng dưới dạng tài nguyên ưu tiên ngay trong S3. Các bảng này có thể được bảo mật bằng các quyền cấp bảng được xác định trong chính sách dựa trên danh tính hoặc tài nguyên và có thể truy cập được bằng các ứng dụng hoặc công cụ hỗ trợ tiêu chuẩn Apache Iceberg. Khi bạn tạo bảng trong vùng lưu trữ bảng của mình, dữ liệu cơ bản trong S3 sẽ được lưu trữ dưới dạng dữ liệu Parquet. Sau đó, S3 sẽ duy trì siêu dữ liệu cần thiết để cho phép ứng dụng của bạn truy vấn dữ liệu Parquet. Vùng lưu trữ bảng bao gồm thư viện máy khách được các công cụ truy vấn dùng để điều hướng và cập nhật siêu dữ liệu Iceberg của bảng trong vùng dữ liệu bảng của bạn. Sử dụng thư viện này kết hợp với các API S3 mới nhất vào hoạt động trên bảng cho phép nhiều máy khách đọc và ghi dữ liệu vào bảng của bạn một cách an toàn. Theo thời gian, S3 sẽ tự động tối ưu dữ liệu Parquet cơ bản bằng cách ghi lại hoặc "nén" các đối tượng của bạn. Tính năng nén tối ưu hóa dữ liệu của bạn trên S3 để cải thiện hiệu suất truy vấn và tiết kiệm chi phí. Hãy đọc hướng dẫn sử dụng để tìm hiểu thêm

Khách hàng
-
Genesys
Genesys là công ty hàng đầu về đám mây toàn cầu trong việc điều phối trải nghiệm dựa trên AI. Thông qua AI tiên tiến, khả năng quản lý kỹ thuật số và sự tham gia của lực lượng lao động, Genesys giúp hơn 8.000 tổ chức tại hơn 100 quốc gia cung cấp trải nghiệm khách hàng và nhân viên được cá nhân hóa, đồng thời hưởng lợi từ sự linh hoạt và kết quả kinh doanh được cải thiện.
Bảng Amazon S3 sẽ là một sự bổ sung mang tính chuyển đổi cho kiến trúc dữ liệu của chúng tôi, đặc biệt là với sự hỗ trợ có quản lý của Iceberg, giúp tạo ra một lớp chế độ xem cụ thể hóa một cách hiệu quả cho các nhu cầu phân tích dữ liệu đa dạng. Dịch vụ này có khả năng giúp Genesys đơn giản hóa các quy trình dữ liệu phức tạp bằng cách loại bỏ các lớp quản lý dạng bảng bổ sung, với S3 xử lý các tác vụ bảo trì chính như tự động nén, quản lý ảnh chụp nhanh và dọn dẹp tệp không tham chiếu. Khả năng đọc và viết Bảng Iceberg trực tiếp từ S3 sẽ giúp chúng tôi tăng hiệu suất và tạo tiềm năng mới để tích hợp dữ liệu liền mạch trong hệ sinh thái phân tích của chúng tôi. Khả năng tương tác này, kết hợp với các cải tiến về hiệu suất, định vị Bảng S3 là một phần quan trọng trong chiến lược tương lai của chúng tôi để cung cấp thông tin chi tiết dữ liệu nhanh chóng, linh hoạt và đáng tin cậy.
Glenn Nethercutt, Giám đốc Công nghệ - Genesys -
SnapLogic
SnapLogic là công ty tiên phong trong lĩnh vực tích hợp dựa trên AI. Nền tảng SnapLogic cho Tích hợp tạo sinh tăng tốc quá trình chuyển đổi kỹ thuật số trong toàn doanh nghiệp để thiết kế, triển khai và quản lý tích hợp và các tác tử AI nhằm tự động hóa các tác vụ, đưa ra quyết định thời gian thực và tích hợp dễ dàng vào quy trình công việc hiện có.
Bảng Amazon S3, với sự hỗ trợ của Apache Iceberg tích hợp và tích hợp dịch vụ Phân tích của AWS, giúp các công ty tối ưu hóa chi phí phân tích dữ liệu đồng thời chuyển đổi cách họ sử dụng dữ liệu kinh doanh cho các sáng kiến phân tích, tuân thủ và AI. Bằng cách tự động hóa các nhiệm vụ quản lý dữ liệu phức tạp và cung cấp các biên bản kiểm tra đầy đủ về các thay đổi dữ liệu, các nhóm có thể phân tích dữ liệu lịch sử ngay lập tức, duy trì tuân thủ quy định và tăng cường thông tin chuyên sâu về kinh doanh trong khi giảm đáng kể chi phí công nghệ.
Dominic Wellington, Kiến trúc sư doanh nghiệp - SnapLogic -
Zus Health
Zus là một nền tảng dữ liệu sức khỏe chia sẻ được thiết kế để tăng tốc khả năng tương tác dữ liệu chăm sóc sức khỏe bằng cách cung cấp dữ liệu bệnh nhân dễ sử dụng thông qua API, các thành phần nhúng và tích hợp EHR trực tiếp.
Là một công ty chăm sóc sức khỏe xử lý một lượng lớn dữ liệu bệnh nhân thường xuyên thay đổi, chúng tôi quyết định đầu tư vào Apache Iceberg vì nó giải quyết nhiều vấn đề với Apache Hive xung quanh việc phân vùng và tự động hóa, với lợi ích bổ sung là khả năng tương tác rộng hơn. Một trong những thách thức lớn nhất của chúng tôi với Iceberg là hiểu và quản lý tối ưu hóa bảng. Đây là lý do tại sao chúng tôi rất hào hứng với S3 Tables và khả năng tối ưu hóa được quản lý. Việc có thể giảm chi phí bảo trì bảng cho nhà phát triển sẽ cho phép chúng tôi tập trung nhiều hơn vào việc mang lại dữ liệu chất lượng cao và thông tin chi tiết có giá trị cho khách hàng.
Sonya Huang, Kỹ sư Tư vấn Phần mềm - Zus Health