Храните табличные данные в большем масштабе в S3
Таблицы Amazon S3 представляют собой первое облачное хранилище объектов со встроенной поддержкой Apache Iceberg и упрощает хранение табличных данных в необходимом масштабе. Непрерывная оптимизация таблиц автоматически сканирует и перезаписывает табличные данные в фоновом режиме, обеспечивая до 3 раз более высокую производительность запросов по сравнению с неуправляемыми таблицами Iceberg. Со временем эта оптимизация производительности будет продолжать улучшаться. Кроме того, таблицы S3 включают оптимизацию, специфичную для рабочих нагрузок Iceberg, которая обеспечивает до 10 раз больше транзакций в секунду по сравнению с таблицами Iceberg, хранящимися в корзинах S3 общего назначения. Дополнительные сведения об улучшениях производительности запросов в таблицах S3 см. в блоге.
Благодаря поддержке Таблицами S3 стандарта Apache Iceberg табличные данные можно легко запрашивать с помощью популярных поисковых систем AWS и сторонних разработчиков. Используйте таблицы S3 для хранения табличных данных, таких как ежедневные транзакции покупок, потоковые данные датчиков или показы рекламы, в виде таблицы Iceberg в S3, а также оптимизируйте производительность и затраты по мере развития данных с помощью автоматического обслуживания таблиц. Подробнее в блоге.
Преимущества
Как работает сервис
Таблицы S3 представляют собой специализированное хранилище S3 для хранения структурированных данных в формате Apache Parquet. В корзине таблиц можно создавать таблицы как первоклассные ресурсы непосредственно в S3. Эти таблицы можно защитить с помощью разрешений на уровне таблиц, определенных политиками, основанными на учетных данных или ресурсах, и доступны для приложений или инструментов, поддерживающих стандарт Apache Iceberg. Когда вы создаете таблицу в корзине таблиц, базовые сведения в S3 сохраняются в виде данных Parquet. Затем S3 сохраняет метаданные, необходимые для того, чтобы ваши приложения могли запрашивать данные Parquet. Корзины таблиц включают клиентскую библиотеку, которая используется движками запросов для навигации и обновления метаданных Iceberg в корзине таблиц. Эта библиотека в сочетании с обновленными API-интерфейсами S3 для операций с таблицами позволяет нескольким клиентам безопасно читать и записывать данные в таблицы. Со временем S3 автоматически оптимизирует базовые данные Parquet, перезаписывая или «сжимая» ваши объекты. Сжатие оптимизирует данные в S3, повышая производительность запросов и минимизируя затраты. Подробнее читайте в руководстве пользователя

Клиенты
-
Genesys
Genesys – мировой лидер в области облачных технологий для оркестрации опыта на основе ИИ. Благодаря передовым возможностям ИИ, цифровых технологий и управления взаимодействием с персоналом Genesys помогает более 8000 организациям в более чем 100 странах предоставлять персонализированный и чуткий подход к клиентам и сотрудникам, одновременно повышая гибкость бизнеса и его результаты.
Таблицы Amazon S3 станут революционным дополнением к нашей архитектуре данных, особенно благодаря поддержке управляемого Iceberg, который эффективно создает слой материализованного представления для различных задач анализа данных. Это решение поможет Genesys упростить сложные рабочие процессы с данными, устраняя дополнительные уровни управления таблицами, а S3 автоматически выполняет ключевые задачи обслуживания, такие как сжатие, управление снимками и очистка файлов без ссылок. Возможность читать и записывать таблицы Iceberg непосредственно из S3 повысит производительность и откроет новые возможности для беспрепятственной интеграции данных в нашу аналитическую экосистему. Эта совместимость, в сочетании с улучшением производительности, делает Таблицы S3 ключевым элементом нашей стратегии по быстрому, гибкому и надежному анализу данных.
Glenn Nethercutt, технический директор, Genesys -
Pendulum
Pendulum – это платформа Brand Intelligence, которая имеет самый полный в мире обзор видео-, аудио- и текстового контента для упреждающего выявления рисков и возможностей, что позволяет принимать более эффективные решения и отслеживать аналитику на предприятии.
В Pendulum Intelligence мы анализируем данные из сотен миллионов социальных каналов и источников. Таблицы Amazon S3 изменили подход к управлению озером данных, которое обрабатывает тысячи часов анализируемого видео- и аудиоконтента, а также извлекает контекст из изображений и других медиафайлов практически в режиме реального времени с помощью наших собственных инструментов машинного обучения. Устранив бремя управления таблицами, включая сжатие, создание снимков и очистку файлов, наша команда может сосредоточиться на самом важном – извлечении полезной информации из огромных наборов данных. Простая интеграция с нашим аналитическим стеком – Amazon Athena, AWS Glue и Amazon EMR – значительно расширила наши возможности по масштабной обработке сложных данных.
Abdurrahman Elbuni, архитектор больших данных в облаке, Pendulum -
SnapLogic
SnapLogic является первооткрывателем в области интеграции на основе ИИ. Платформа SnapLogic для генеративной интеграции ускоряет цифровую трансформацию предприятий, помогая разрабатывать, развертывать и управлять агентами ИИ и интеграцией, которые автоматизируют задачи, принимают решения в реальном времени и легко встраиваются в существующие рабочие процессы.
Таблицы Amazon S3 со встроенной поддержкой Apache Iceberg и интеграцией сервисов AWS Analytics помогают компаниям оптимизировать затраты на аналитику данных и одновременно трансформировать методы использования бизнес-данных для аналитики, обеспечения соответствия требованиям и инициатив в области ИИ. Автоматизируя сложные задачи управления данными и предоставляя полные журналы аудита изменений данных, команды могут мгновенно анализировать архивные данные, обеспечивать соответствие нормативным требованиям и ускорять бизнес-аналитику при одновременном значительном снижении затрат на технологии.
Dominic Wellington, корпоративный архитектор, SnapLogic -
Zus Health
Zus – это платформа для обмена медицинскими данными, предназначенная для ускорения взаимодействия между медицинскими данными с помощью удобных в использовании API, встроенных компонентов и прямой интеграции с EHR.
Как компания, работающая с огромными объемами часто меняющихся данных пациентов, мы выбрали Apache Iceberg для решения множества проблем, связанных с разделением данных и автоматизацией процессов, благодаря его интеграции с Apache Hive и широкой совместимости. Одной из главных трудностей с Iceberg была оптимизация таблиц и управление ею. Именно поэтому мы рады использовать таблицы S3 и возможности управляемой оптимизации. Возможность освободить разработчиков от обслуживания таблиц позволяет нам сосредоточиться на предоставлении высококачественных данных и ценной информации нашим клиентам.
Sonya Huang, инженер-консультант по программному обеспечению, Zus Health
Партнеры и интеграции
-
Daft
Daft – это унифицированный движок для инженерии данных, аналитики и машинного обучения, в котором интерфейсы SQL и Python DataFrame являются объектами первого класса и написаны на языке программирования Rust. Daft обеспечивает быстрый и приятный локальный интерактивный интерфейс, а также легко масштабируется до распределенных рабочих нагрузок размером в несколько петабайтов.
Таблицы Amazon S3 идеально дополняют поддержку Daft для Apache Iceberg. Благодаря интеграции с AWS Lake Formation и AWS Glue мы смогли без труда расширить существующие возможности чтения и записи Iceberg до таблиц S3, воспользовавшись при этом оптимизированной производительностью. Мы с нетерпением ожидаем развития этого нового сервиса и рады предоставить лучшую в своем классе поддержку таблиц S3 для экосистемы инженерии данных Python и МО/ИИ.
Sammy Sidh, генеральный директор и соучредитель, Daft -
Dremio
Dremio – это интеллектуальная платформа, которая ускоряет развитие искусственного интеллекта и аналитики, предлагая ведущий на рынке движок SQL, открытый, совместимый каталог данных и безопасную, масштабируемую и простую в использовании платформу. Наше лидерство в сообществах Apache Iceberg, Apache Polaris (incubating) и Apache Arrow позволяет организациям создавать полностью открытые и высокопроизводительные архитектуры для озер, сохраняя при этом гибкость и контроль, устраняя зависимость от поставщиков.
Компания Dremio рада поддержать общедоступность Таблиц Amazon S3. Поддерживая спецификацию Apache Iceberg REST Catalog (IRC), Таблицы S3 обеспечивают бесперебойную совместимость с Dremio, предоставляя пользователям преимущества высокопроизводительного движка SQL, способного запрашивать таблицы Apache Iceberg, управляемые в оптимизированных корзинах таблиц S3. Это сотрудничество усиливает важность открытых стандартов в экосистеме озера, устраняет сложности интеграции и ускоряет внедрение новых стандартов клиентами. Благодаря Таблицам Amazon S3 и поддержке IRC организации получают гибкость и возможность выбора, необходимые для создания унифицированной архитектуры Lakehouse в эпоху искусственного интеллекта.
James Rowland-Jones, вице-президент по продуктам, Dremio -
DuckDB Labs
DuckDB Labs – компания, основанная создателями популярного универсального инструмента обработки данных DuckDB. В компании работают основные разработчики системы DuckDB. DuckDB является бесплатным программным обеспечением с открытым исходным кодом с лицензией MIT и регулируется независимой некоммерческой организацией DuckDB Foundation. Проект DuckDB делает быструю аналитическую обработку доступной для широкой аудитории благодаря простоте использования и портативности.
Таблицы Amazon S3 идеально соответствуют видению DuckDB по демократизации аналитики данных с использованием открытых форматов файлов. Сотрудничество между AWS и DuckDB Labs позволяет нам еще больше расширить поддержку Iceberg в DuckDB и обеспечить беспрепятственную интеграцию с Таблицами S3. Мы считаем, что использование общих батарей в DuckDB и Таблицах S3 сочетается с мощным аналитическим стеком, способным справляться с широким спектром рабочих нагрузок, сохраняя при этом невероятно низкий входной барьер.
Hannes Mühleisen, генеральный директор, DuckDB Labs -
HighByte
HighByte – компания-разработчик промышленного программного обеспечения, занимающаяся решением проблем архитектуры и интеграции данных, с которыми сталкиваются мировые производители в процессе цифровой трансформации. HighByte Intelligence Hub, проверенное программное обеспечение компании Industrial DataOps, предоставляет смоделированные готовые к использованию данные в облачные сервисы AWS с помощью интерфейса без кода для ускорения интеграции и ускорения аналитики.
Таблицы Amazon S3 – это новая мощная функция, которая оптимизирует управление, производительность и хранение табличных данных для аналитических рабочих нагрузок. Прямая интеграция HighByte Intelligence Hub с Таблицами Amazon S3 позволяет мировым производителям легко создать открытое озеро транзакционных данных для своих промышленных данных. Таблицы S3 позволяют мгновенно запрашивать необработанные данные Parquet, что дает клиентам возможность отправлять контекстуализированную информацию с периферии в облако для немедленного использования без дополнительной обработки или преобразования. Это существенно влияет как на производительность, так и на оптимизацию затрат наших общих клиентов.
Aron Semle, технический директор, HighByte -
PuppyGraph
PuppyGraph – это первый движок запросов к графам интеграции с нулевым использованием ETL в режиме реального времени, позволяющий специалистам по обработке данных запрашивать существующее озеро в виде графа за считанные минуты без дорогостоящей миграции или обслуживания. Он масштабируется до наборов данных размером в петабайты и выполняет сложные многоуровневые запросы за несколько секунд, обеспечивая различные варианты использования: от обнаружения мошенничества до кибербезопасности и аналитики на основе искусственного интеллекта.
Amazon S3 уже давно является основой современной инфраструктуры данных. Запуск Таблиц S3 стал важной вехой, приближающей Apache Iceberg к тому, чтобы стать универсальным стандартом данных и искусственного интеллекта. Эта инновация позволяет организациям использовать высокопроизводительные форматы открытых таблиц в S3, обеспечивая многопроцессорную аналитику без дублирования данных. Теперь клиенты компании PuppyGraph могут выполнять запросы к графикам в режиме реального времени непосредственно к данным S3, сохраняя свежую и масштабируемую аналитику без дополнительных затрат на сложное извлечение, преобразование и загрузку (ETL). Мы рады стать частью этой эволюции и сделать аналитику графов такой же удобной, как и сами данные.
Weimo Liu, соучредитель и генеральный директор, PuppyGraph -
Snowflake
Snowflake делает корпоративный ИИ простым, доступным и надежным. Тысячи компаний по всему миру, включая сотни крупнейших, используют облако данных на основе ИИ от компании Snowflake для обмена данными, создания приложений и развития бизнеса с помощью искусственного интеллекта.
Мы рады привнести магию Snowflake в Таблицы Amazon S3. Это сотрудничество позволяет клиентам Snowflake беспрепятственно читать и обрабатывать данные, хранящиеся в Таблицах S3, используя существующие настройки Snowflake, что устраняет необходимость в сложной миграции или дублировании данных. Объединив возможности аналитики производительности мирового класса Snowflake с эффективным хранилищем таблиц Apache Iceberg в Таблицы Amazon S3, организации могут легко запрашивать и анализировать табличные данные, хранящиеся в Amazon S3.
Rithesh Makkena, глобальный директор по разработке партнерских решений, Snowflake -
Starburst
Starburst обеспечивает базовую архитектуру данных, необходимую аналитике, искусственному интеллекту и приложениям для обработки данных. Решение использует гибридную среду хранения данных на базе Apache Iceberg для обеспечения доступа, совместной работы и управления в любом масштабе.
Мы очень рады, что в Amazon S3 применяется встроенная поддержка Apache Iceberg с помощью таблиц S3, что способствует развитию экосистемы Iceberg Open Data Lakehouse. Создавая корзины таблиц S3, мы рассчитываем на сотрудничество с AWS, чтобы помочь нашим совместным клиентам применять возможности Open Lakehouse на базе оптимизированного Trino – ведущего движка MPP SQL с открытым исходным кодом – в различных сценариях использования аналитики и искусственного интеллекта в данных Amazon S3.
Matt Fuller, вице-президент по продуктам, Starburst -
StreamNative
StreamNative – это платформа для обмена сообщениями и потоковой передачи, которая позволяет искусственному интеллекту и аналитике экономично и высокопроизводительно получать данные. Движок StreamNative Ursa позволяет предприятиям снизить совокупную стоимость владения (TCO) на 90 % благодаря совместимости с Kafka, архитектуре без руководителей и встроенному хранилищу, что делает готовые к использованию ИИ данные доступными в любом масштабе.
Наша интеграция с Таблицами Amazon S3 делает данные в режиме реального времени, готовые к использованию искусственного интеллекта, более открытыми и доступными, чем когда-либо. Архитектура Ursa без руководителей на S3 уже снижает затраты на хранение, а прямая интеграция с Таблицами S3 еще больше повышает производительность и эффективность. В мире, которым руководит искусственный интеллект, управление данными имеет решающее значение. В StreamNative мы стремимся помочь компаниям снизить совокупную стоимость владения на 90 % и одновременно сделать создание приложений на базе искусственного интеллекта на основе управляемых данных в режиме реального времени простым и доступным.
Sijie Guo, генеральный директор и соучредитель, StreamNative