Храните табличные данные в большем масштабе в S3
Таблицы Amazon S3 представляют собой первое облачное хранилище объектов со встроенной поддержкой Apache Iceberg и упрощает хранение табличных данных в необходимом масштабе. Непрерывная оптимизация таблиц автоматически сканирует и перезаписывает табличные данные в фоновом режиме, обеспечивая до 3 раз более высокую производительность запросов по сравнению с неуправляемыми таблицами Iceberg. Со временем эта оптимизация производительности будет продолжать улучшаться. Кроме того, таблицы S3 включают оптимизацию, специфичную для рабочих нагрузок Iceberg, которая обеспечивает до 10 раз больше транзакций в секунду по сравнению с таблицами Iceberg, хранящимися в корзинах S3 общего назначения. Дополнительные сведения об улучшениях производительности запросов в таблицах S3 см. в блоге.
Благодаря поддержке таблиц S3 стандарта Apache Iceberg табличные данные можно легко запрашивать с помощью популярных движков запросов AWS и сторонних производителей, включая Amazon Athena, Redshift, EMR и Apache Spark. Используйте таблицы S3 для хранения табличных данных, таких как ежедневные транзакции покупок, потоковые данные датчиков или показы рекламы, в виде таблицы Iceberg в S3, а также оптимизируйте производительность и затраты по мере развития данных с помощью автоматического обслуживания таблиц. Подробнее в блоге.
Преимущества
Как работает сервис
Таблицы S3 представляют собой специализированное хранилище S3 для хранения структурированных данных в формате Apache Parquet. В корзине таблиц можно создавать таблицы как первоклассные ресурсы непосредственно в S3. Эти таблицы можно защитить с помощью разрешений на уровне таблиц, определенных политиками, основанными на учетных данных или ресурсах, и доступны для приложений или инструментов, поддерживающих стандарт Apache Iceberg. Когда вы создаете таблицу в корзине таблиц, базовые сведения в S3 сохраняются в виде данных Parquet. Затем S3 сохраняет метаданные, необходимые для того, чтобы ваши приложения могли запрашивать данные Parquet. Корзины таблиц включают клиентскую библиотеку, которая используется движками запросов для навигации и обновления метаданных Iceberg в корзине таблиц. Эта библиотека в сочетании с обновленными API-интерфейсами S3 для операций с таблицами позволяет нескольким клиентам безопасно читать и записывать данные в таблицы. Со временем S3 автоматически оптимизирует базовые данные Parquet, перезаписывая или «сжимая» ваши объекты. Сжатие оптимизирует данные в S3, повышая производительность запросов и минимизируя затраты. Подробнее читайте в руководстве пользователя

Клиенты
-
Genesys
Genesys – мировой лидер в области облачных технологий для оркестрации опыта на основе ИИ. Благодаря передовым возможностям ИИ, цифровых технологий и управления взаимодействием с персоналом Genesys помогает более 8000 организациям в более чем 100 странах предоставлять персонализированный и чуткий подход к клиентам и сотрудникам, одновременно повышая гибкость бизнеса и его результаты.
Таблицы Amazon S3 станут революционным дополнением к нашей архитектуре данных, особенно благодаря поддержке управляемого Iceberg, который эффективно создает слой материализованного представления для различных задач анализа данных. Это решение поможет Genesys упростить сложные рабочие процессы с данными, устраняя дополнительные уровни управления таблицами, а S3 автоматически выполняет ключевые задачи обслуживания, такие как сжатие, управление снимками и очистка файлов без ссылок. Возможность читать и записывать таблицы Iceberg непосредственно из S3 повысит производительность и откроет новые возможности для беспрепятственной интеграции данных в нашу аналитическую экосистему. Эта совместимость, в сочетании с улучшением производительности, делает Таблицы S3 ключевым элементом нашей стратегии по быстрому, гибкому и надежному анализу данных.
Glenn Nethercutt, технический директор, Genesys -
SnapLogic
SnapLogic является первооткрывателем в области интеграции на основе ИИ. Платформа SnapLogic для генеративной интеграции ускоряет цифровую трансформацию предприятий, помогая разрабатывать, развертывать и управлять агентами ИИ и интеграцией, которые автоматизируют задачи, принимают решения в реальном времени и легко встраиваются в существующие рабочие процессы.
Таблицы Amazon S3 со встроенной поддержкой Apache Iceberg и интеграцией сервисов AWS Analytics помогают компаниям оптимизировать затраты на аналитику данных и одновременно трансформировать методы использования бизнес-данных для аналитики, обеспечения соответствия требованиям и инициатив в области ИИ. Автоматизируя сложные задачи управления данными и предоставляя полные журналы аудита изменений данных, команды могут мгновенно анализировать архивные данные, обеспечивать соответствие нормативным требованиям и ускорять бизнес-аналитику при одновременном значительном снижении затрат на технологии.
Dominic Wellington, корпоративный архитектор, SnapLogic -
Zus Health
Zus – это платформа для обмена медицинскими данными, предназначенная для ускорения взаимодействия между медицинскими данными с помощью удобных в использовании API, встроенных компонентов и прямой интеграции с EHR.
Как компания, работающая с огромными объемами часто меняющихся данных пациентов, мы выбрали Apache Iceberg для решения множества проблем, связанных с разделением данных и автоматизацией процессов, благодаря его интеграции с Apache Hive и широкой совместимости. Одной из главных трудностей с Iceberg была оптимизация таблиц и управление ею. Именно поэтому мы рады использовать таблицы S3 и возможности управляемой оптимизации. Возможность освободить разработчиков от обслуживания таблиц позволяет нам сосредоточиться на предоставлении высококачественных данных и ценной информации нашим клиентам.
Sonya Huang, инженер-консультант по программному обеспечению, Zus Health