Таблицы Amazon S3
Храните табличные данные в нужном масштабе с помощью полностью управляемых таблиц Apache Iceberg в Amazon S3
Что такое Таблицы S3?
Таблицы Amazon S3 — это полностью управляемые таблицы Apache Iceberg, которые позволяют автоматизировать операционную нагрузку по управлению озерами данных и озерами. Благодаря расширенным стратегиям оптимизации и обслуживания Таблиц S3 автоматически оптимизирует производительность запросов по мере роста объемов данных. Таблицы S3 работают с любым движком, совместимым с Iceberg, включая Apache Spark, Trino, Amazon Athena, Amazon Redshift и другие сторонние инструменты, обеспечивая архитектурную гибкость и предоставляя наиболее простой способ хранения табличных данных в масштабе.
Преимущества
Таблицы S3 постоянно оптимизируют таблицы Iceberg за счет сжатия, управления снимками и удаления файлов без ссылок. Автоматическая репликация снижает задержку запросов для распределенных групп, а интеллектуальное многоуровневое хранение снижает затраты на хранение данных до 80 %. В результате команды по обработке данных могут сосредоточиться на создании инфраструктуры, а не на управлении ею.
Чем больше растут рабочие нагрузки, тем важнее становятся обслуживание и оптимизация таблиц Iceberg и тем сложнее становится поддерживать их эффективность. Таблицы S3 автоматически поддерживают высокую производительность таблиц, благодаря чему производительность запросов остается стабильной по мере роста данных, а не снижается. Данные размещаются в наиболее надежном облачном хранилище, рассчитанном на надежность хранения 99,999999999 % («11 девяток») и доступность 99,99 % по умолчанию.
Таблицы S3, созданные на основе открытого стандарта Apache Iceberg, гарантируют, что ваши данные никогда не будут привязаны к одному вычислительному движку или поставщику. Таблицы S3 предоставляют API каталога Iceberg REST, поэтому они работают с движками, совместимыми с Iceberg, включая Spark, Trino, Flink, Athena, Redshift, Snowflake и другими сторонними инструментами, экономя инвестиции в существующие инструменты и обеспечивая гибкость в долгосрочной перспективе.
Управление безопасностью и политиками доступа для таблиц Iceberg может быть сложным и разрозненным. Таблицы S3 являются полноценными ресурсами AWS со встроенными средствами управления доступом на уровне таблиц, шифрования и управления жизненным циклом, что устраняет необходимость настраивать политики бакетов S3 для каждой таблицы и упрощает управление в сложных аналитических средах.
Таблицы S3 обеспечивают хранилище, оптимизированное для аналитики, обеспечивая до 10 раз больше транзакций в секунду по сравнению с таблицами Iceberg, хранящимися в бакетах S3 общего назначения. Благодаря поддержке MCP агенты ИИ и LLM могут взаимодействовать с Таблицами S3, что делает возможной аналитику на основе ИИ. Встроенная интеграция с сервисами аналитики AWS и совместимость со сторонними инструментами через Iceberg REST API позволяют использовать Таблицы S3 для новых рабочих процессов на базе ИИ.
Как работают Таблицы S3
Примеры использования
Модернизируйте озера данных, перейдя с Parquet, Apache Hive или Hadoop на Таблицы Apache Iceberg, снижая операционную сложность и создавая масштабируемые озера данных, готовые к работе с ИИ и поддерживающие расширенную аналитику и рабочие нагрузки AI/ML-обучения.
Подробнее
Передавайте потоковые данные напрямую в Таблицы Iceberg из таких источников, как датчики Интернета вещей, системы транзакций и журналы приложений, используя сервисы потоковой передачи AWS, с автоматической фоновой оптимизацией, обеспечивающей возможность выполнения запросов к потоковым данным практически в режиме реального времени.
Таблицы S3 обеспечивают до 10 раз больше транзакций в секунду по сравнению с хранением таблиц Iceberg в бакетах общего назначения, что делает это решение хорошо подходящим для крупномасштабных аналитических рабочих нагрузок и операций, требующих высокой пропускной способности.
Запрашивайте данные, хранящиеся в таблицах Iceberg, используя естественный язык с помощью протокола контекста модели (MCP), что позволяет проводить выборочные исследования без опыта работы с SQL. Таблицы S3 поддерживают одновременный доступ со стороны нескольких пользователей и ИИ-помощников, а автоматическая оптимизация обеспечивает стабильную производительность запросов.
Подробнее
Посмотрите демонстрационный ролик
Партнеры и интеграции
Daft
Таблицы Amazon S3 идеально дополняют поддержку Daft для Apache Iceberg. Благодаря интеграции с AWS Lake Formation и AWS Glue мы смогли без труда расширить существующие возможности чтения и записи Iceberg до таблиц S3, воспользовавшись при этом оптимизированной производительностью. Мы с нетерпением ожидаем развития этого нового сервиса и рады предоставить лучшую в своем классе поддержку таблиц S3 для экосистемы инженерии данных Python и МО/ИИ.
Сэмми Сидху, генеральный директор и соучредитель Daft
Dremio
Компания Dremio рада поддержать общедоступность Таблиц Amazon S3. Поддерживая спецификацию Apache Iceberg REST Catalog (IRC), Таблицы S3 обеспечивают бесперебойную совместимость с Dremio, предоставляя пользователям преимущества высокопроизводительного движка SQL, способного запрашивать таблицы Apache Iceberg, управляемые в оптимизированных корзинах таблиц S3. Это сотрудничество усиливает важность открытых стандартов в экосистеме озера, устраняет сложности интеграции и ускоряет внедрение новых стандартов клиентами. Благодаря Таблицам Amazon S3 и поддержке IRC организации получают гибкость и возможность выбора, необходимые для создания унифицированной архитектуры Lakehouse в эпоху искусственного интеллекта.
Рахим Бходжани, технический директор Dremio
DuckDB Labs
Таблицы Amazon S3 идеально соответствуют видению DuckDB по демократизации аналитики данных с использованием открытых форматов файлов. Сотрудничество между AWS и DuckDB Labs позволяет нам еще больше расширить поддержку Iceberg в DuckDB и обеспечить беспрепятственную интеграцию с Таблицами S3. Мы считаем, что использование общих батарей в DuckDB и Таблицах S3 сочетается с мощным аналитическим стеком, способным справляться с широким спектром рабочих нагрузок, сохраняя при этом невероятно низкий входной барьер.
Ханнес Мюлайзен, генеральный директор DuckDB Labs
HighByte
Таблицы Amazon S3 – это новая мощная функция, которая оптимизирует управление, производительность и хранение табличных данных для аналитических рабочих нагрузок. Прямая интеграция HighByte Intelligence Hub с Таблицами Amazon S3 позволяет мировым производителям легко создать открытое озеро транзакционных данных для своих промышленных данных. Таблицы S3 позволяют мгновенно запрашивать необработанные данные Parquet, что дает клиентам возможность отправлять контекстуализированную информацию с периферии в облако для немедленного использования без дополнительной обработки или преобразования. Это существенно влияет как на производительность, так и на оптимизацию затрат наших общих клиентов.
Арон Семле, технический директор HighByte
PuppyGraph
Amazon S3 уже давно является основой современной инфраструктуры данных. Запуск Таблиц S3 стал важной вехой, приближающей Apache Iceberg к тому, чтобы стать универсальным стандартом данных и искусственного интеллекта. Эта инновация позволяет организациям использовать высокопроизводительные форматы открытых таблиц в S3, обеспечивая многопроцессорную аналитику без дублирования данных. Теперь клиенты компании PuppyGraph могут выполнять запросы к графикам в режиме реального времени непосредственно к данным S3, сохраняя свежую и масштабируемую аналитику без дополнительных затрат на сложное извлечение, преобразование и загрузку (ETL). Мы рады стать частью этой эволюции и сделать аналитику графов такой же удобной, как и сами данные.
Вэймо Лю, соучредитель и генеральный директор PuppyGraph
RisingWave
Интеграция RisingWave с Таблицами Amazon S3 позволяет организациям эффективно использовать Таблицы Apache Iceberg в Amazon S3, расширяя возможности своих конвейеров потоковой обработки данных. Независимо от того, загружаете ли вы необработанные данные, преобразуете их в режиме реального времени или записываете результаты обратно в S3, RisingWave упрощает работу с таблицами Iceberg как с естественным продолжением вашего рабочего процесса. Эта интеграция упрощает управление данными, снижает операционную сложность и обеспечивает удобную совместимость для команд, работающих с потоковой аналитикой.
Райиз Паша, директор по продукту RisingWave Labs
Ryft
Интеграция Ryft с Таблицами Amazon S3 позволяет командам использовать таблицы Apache Iceberg как полностью автономную платформу для хранения и аналитики данных. Клиенты получают оптимизацию и управление с учетом особенностей рабочих нагрузок, автоматическую оптимизацию структуры файлов и их уплотнение, управляемое хранение и восстановление снимков, автоматизированное обеспечение соответствия требованиям для таблиц Apache Iceberg, а также полную прозрачность своей платформы хранения и аналитики данных — и все это на базе хранилища, изначально разработанного для Iceberg. Вместе Ryft и Таблицы S3 обеспечивают стабильно высокую скорость выполнения запросов, снижение затрат на хранение и надежную работу без ручной настройки и регулярного обслуживания по расписанию.
Йосси Рейтблат, генеральный директор и соучредитель Ryft
Snowflake
Мы рады привнести магию Snowflake в Таблицы Amazon S3. Это сотрудничество позволяет клиентам Snowflake беспрепятственно читать и обрабатывать данные, хранящиеся в Таблицах S3, используя существующие настройки Snowflake, что устраняет необходимость в сложной миграции или дублировании данных. Объединив возможности аналитики производительности мирового класса Snowflake с эффективным хранилищем таблиц Apache Iceberg в Таблицы Amazon S3, организации могут легко запрашивать и анализировать табличные данные, хранящиеся в Amazon S3.
Ритеш Маккена, глобальный директор по разработке партнерских решений Snowflake
Starburst
Мы рады, что в Amazon S3 применяется встроенная поддержка Apache Iceberg с помощью таблиц S3, что способствует развитию экосистемы Iceberg Open Data Lakehouse. Создавая корзины таблиц S3, мы рассчитываем на сотрудничество с AWS, чтобы помочь нашим совместным клиентам применять возможности Open Lakehouse на базе оптимизированного Trino – ведущего движка MPP SQL с открытым исходным кодом – в различных сценариях использования аналитики и искусственного интеллекта в данных Amazon S3.
Мэтт Фуллер, вице-президент по продуктам Starburst
StreamNative
Наша интеграция с Таблицами Amazon S3 делает данные реального времени, готовые к использованию ИИ, более открытыми и доступными, чем когда-либо прежде. Архитектура Ursa без руководителей на S3 уже снижает затраты на хранение, а прямая интеграция с Таблицами S3 еще больше повышает производительность и эффективность. В мире, которым руководит искусственный интеллект, управление данными имеет решающее значение. В StreamNative мы стремимся помочь компаниям снизить совокупную стоимость владения на 90 % и одновременно сделать создание приложений на базе искусственного интеллекта на основе управляемых данных в режиме реального времени простым и доступным.
Сыцзе Го, генеральный директор и соучредитель StreamNative
Часто задаваемые вопросы
Таблицы S3 следует использовать для эффективного и экономичного способа хранения табличных данных в Amazon S3. Таблицы S3 позволяют организовать структурированные данные в таблицы, а затем запрашивать их с помощью стандартных инструкций SQL практически без настройки. Таблицы S3 обладают такими же характеристиками надежности, доступности, масштабируемости и производительности, как и сервис S3, и автоматически оптимизируют хранилище для максимальной производительности запросов и минимизации затрат. Благодаря классу хранилища Intelligent-Tiering алгоритмы Таблиц Amazon S3 автоматически оптимизирует затраты на основе шаблонов доступа без влияния на производительность и без дополнительной операционной нагрузки.
Таблицы S3 обеспечивают до 10 раз больше транзакций в секунду (TPS) по сравнению с хранением таблиц Iceberg в бакетах Amazon S3 общего назначения. Таблицы S3 автоматически сжимают базовые данные, постоянно оптимизируя таблицы для обеспечения максимальной производительности запросов. В зависимости от рабочей нагрузки и шаблонов запросов вы также можете выбрать передовые стратегии сжатия, такие как сортировка и z-упорядочивание, чтобы дополнительно повысить эффективность таблиц. Уплотнение сортировки упорядочивает данные на основе указанных столбцов для повышения производительности запросов с фильтрацией, тогда как z-упорядочивание оптимизирует организацию данных сразу по нескольким измерениям, что особенно эффективно при одновременном выполнении запросов по нескольким столбцам.
Начать работу с Таблицами S3 можно всего за несколько простых шагов без необходимости настраивать инфраструктуру за пределами Amazon S3. Сначала создайте бакет таблиц в консоли S3. При создании первого бакета таблиц с помощью консоли интеграция с сервисами аналитики AWS происходит автоматически, что позволяет S3 автоматически заполнять все бакеты и таблицы в вашем аккаунте и регионе в каталоге данных AWS Glue. После этого таблицы S3 становятся доступны движкам запросов AWS, таким как Amazon Athena, EMR и Redshift. В Athena вы можете быстро начать заполнять новые таблицы и запрашивать их. В Athena вы можете быстро начать заполнять новые таблицы и запрашивать их.
Кроме того, вы можете получить доступ к таблицам S3 с помощью адреса каталога Iceberg REST через каталог данных AWS Glue. Это позволит вам найти весь массив данных, включая все ресурсы таблиц. Можно также напрямую подключиться к адресу конкретного бакета таблиц для обнаружения всех ресурсов таблиц S3 в этом бакете. Таким образом можно использовать таблицы S3 с любым приложением или движком запросов, поддерживающим спецификацию каталога Apache Iceberg REST.