Amazon S3

Таблицы Amazon S3

Храните табличные данные в нужном масштабе с помощью полностью управляемых таблиц Apache Iceberg в Amazon S3

Что такое Таблицы S3?

Таблицы Amazon S3 — это полностью управляемые таблицы Apache Iceberg, которые позволяют автоматизировать операционную нагрузку по управлению озерами данных и озерами. Благодаря расширенным стратегиям оптимизации и обслуживания Таблиц S3 автоматически оптимизирует производительность запросов по мере роста объемов данных. Таблицы S3 работают с любым движком, совместимым с Iceberg, включая Apache Spark, Trino, Amazon Athena, Amazon Redshift и другие сторонние инструменты, обеспечивая архитектурную гибкость и предоставляя наиболее простой способ хранения табличных данных в масштабе.

Преимущества

Таблицы S3 постоянно оптимизируют таблицы Iceberg за счет сжатия, управления снимками и удаления файлов без ссылок. Автоматическая репликация снижает задержку запросов для распределенных групп, а интеллектуальное многоуровневое хранение снижает затраты на хранение данных до 80 %. В результате команды по обработке данных могут сосредоточиться на создании инфраструктуры, а не на управлении ею.

Чем больше растут рабочие нагрузки, тем важнее становятся обслуживание и оптимизация таблиц Iceberg и тем сложнее становится поддерживать их эффективность. Таблицы S3 автоматически поддерживают высокую производительность таблиц, благодаря чему производительность запросов остается стабильной по мере роста данных, а не снижается. Данные размещаются в наиболее надежном облачном хранилище, рассчитанном на надежность хранения 99,999999999 % («11 девяток») и доступность 99,99 % по умолчанию.

Таблицы S3, созданные на основе открытого стандарта Apache Iceberg, гарантируют, что ваши данные никогда не будут привязаны к одному вычислительному движку или поставщику. Таблицы S3 предоставляют API каталога Iceberg REST, поэтому они работают с движками, совместимыми с Iceberg, включая Spark, Trino, Flink, Athena, Redshift, Snowflake и другими сторонними инструментами, экономя инвестиции в существующие инструменты и обеспечивая гибкость в долгосрочной перспективе.

Управление безопасностью и политиками доступа для таблиц Iceberg может быть сложным и разрозненным. Таблицы S3 являются полноценными ресурсами AWS со встроенными средствами управления доступом на уровне таблиц, шифрования и управления жизненным циклом, что устраняет необходимость настраивать политики бакетов S3 для каждой таблицы и упрощает управление в сложных аналитических средах.

Таблицы S3 обеспечивают хранилище, оптимизированное для аналитики, обеспечивая до 10 раз больше транзакций в секунду по сравнению с таблицами Iceberg, хранящимися в бакетах S3 общего назначения. Благодаря поддержке MCP агенты ИИ и LLM могут взаимодействовать с Таблицами S3, что делает возможной аналитику на основе ИИ. Встроенная интеграция с сервисами аналитики AWS и совместимость со сторонними инструментами через Iceberg REST API позволяют использовать Таблицы S3 для новых рабочих процессов на базе ИИ.

Как работают Таблицы S3

Непрерывное обслуживание и оптимизация таблиц

Автоматически поддерживайте высокую производительность таблиц Iceberg по мере роста рабочих нагрузок

Подробнее

Оптимизация затрат на хранение с помощью Intelligent-Tiering

Снижение затрат на хранение данных до 80 %

Подробнее

Автоматическая репликация таблиц между регионами

Повышайте доступность данных и снижайте задержки при выполнении запросов для глобальных рабочих нагрузок

Подробнее

Совместимость API каталога REST из Apache Iceberg

С легкостью создавайте, обновляйте, просматривайте и удаляйте таблицы с помощью любого движка, совместимого с Iceberg

Подробнее

Интеграция аналитики AWS

Создайте интегрированный аналитический стек с использованием AWS IAM или AWS Lake Formation

Подробнее

Примеры использования

Модернизируйте озера данных, перейдя с Parquet, Apache Hive или Hadoop на Таблицы Apache Iceberg, снижая операционную сложность и создавая масштабируемые озера данных, готовые к работе с ИИ и поддерживающие расширенную аналитику и рабочие нагрузки AI/ML-обучения.

Подробнее

Передавайте потоковые данные напрямую в Таблицы Iceberg из таких источников, как датчики Интернета вещей, системы транзакций и журналы приложений, используя сервисы потоковой передачи AWS, с автоматической фоновой оптимизацией, обеспечивающей возможность выполнения запросов к потоковым данным практически в режиме реального времени.

Подробнее

Таблицы S3 обеспечивают до 10 раз больше транзакций в секунду по сравнению с хранением таблиц Iceberg в бакетах общего назначения, что делает это решение хорошо подходящим для крупномасштабных аналитических рабочих нагрузок и операций, требующих высокой пропускной способности.

Запрашивайте данные, хранящиеся в таблицах Iceberg, используя естественный язык с помощью протокола контекста модели (MCP), что позволяет проводить выборочные исследования без опыта работы с SQL. Таблицы S3 поддерживают одновременный доступ со стороны нескольких пользователей и ИИ-помощников, а автоматическая оптимизация обеспечивает стабильную производительность запросов.

Подробнее

Посмотрите демонстрационный ролик

Узнайте больше о Таблицах Amazon S3, причинах создания этого решения и принципах его работы Смотреть сейчас

Партнеры и интеграции

Daft

Таблицы Amazon S3 идеально дополняют поддержку Daft для Apache Iceberg. Благодаря интеграции с AWS Lake Formation и AWS Glue мы смогли без труда расширить существующие возможности чтения и записи Iceberg до таблиц S3, воспользовавшись при этом оптимизированной производительностью. Мы с нетерпением ожидаем развития этого нового сервиса и рады предоставить лучшую в своем классе поддержку таблиц S3 для экосистемы инженерии данных Python и МО/ИИ.

Сэмми Сидху, генеральный директор и соучредитель Daft

Dremio

Компания Dremio рада поддержать общедоступность Таблиц Amazon S3. Поддерживая спецификацию Apache Iceberg REST Catalog (IRC), Таблицы S3 обеспечивают бесперебойную совместимость с Dremio, предоставляя пользователям преимущества высокопроизводительного движка SQL, способного запрашивать таблицы Apache Iceberg, управляемые в оптимизированных корзинах таблиц S3. Это сотрудничество усиливает важность открытых стандартов в экосистеме озера, устраняет сложности интеграции и ускоряет внедрение новых стандартов клиентами. Благодаря Таблицам Amazon S3 и поддержке IRC организации получают гибкость и возможность выбора, необходимые для создания унифицированной архитектуры Lakehouse в эпоху искусственного интеллекта.

Рахим Бходжани, технический директор Dremio

DuckDB Labs

Таблицы Amazon S3 идеально соответствуют видению DuckDB по демократизации аналитики данных с использованием открытых форматов файлов. Сотрудничество между AWS и DuckDB Labs позволяет нам еще больше расширить поддержку Iceberg в DuckDB и обеспечить беспрепятственную интеграцию с Таблицами S3. Мы считаем, что использование общих батарей в DuckDB и Таблицах S3 сочетается с мощным аналитическим стеком, способным справляться с широким спектром рабочих нагрузок, сохраняя при этом невероятно низкий входной барьер.

Ханнес Мюлайзен, генеральный директор DuckDB Labs

Статья блога о хранилище AWS. Оптимизация доступа к табличным наборам данных, хранящимся в Таблицах Amazon S3, с помощью DuckDB

HighByte

Таблицы Amazon S3 – это новая мощная функция, которая оптимизирует управление, производительность и хранение табличных данных для аналитических рабочих нагрузок. Прямая интеграция HighByte Intelligence Hub с Таблицами Amazon S3 позволяет мировым производителям легко создать открытое озеро транзакционных данных для своих промышленных данных. Таблицы S3 позволяют мгновенно запрашивать необработанные данные Parquet, что дает клиентам возможность отправлять контекстуализированную информацию с периферии в облако для немедленного использования без дополнительной обработки или преобразования. Это существенно влияет как на производительность, так и на оптимизацию затрат наших общих клиентов.

Арон Семле, технический директор HighByte

PuppyGraph

Amazon S3 уже давно является основой современной инфраструктуры данных. Запуск Таблиц S3 стал важной вехой, приближающей Apache Iceberg к тому, чтобы стать универсальным стандартом данных и искусственного интеллекта. Эта инновация позволяет организациям использовать высокопроизводительные форматы открытых таблиц в S3, обеспечивая многопроцессорную аналитику без дублирования данных. Теперь клиенты компании PuppyGraph могут выполнять запросы к графикам в режиме реального времени непосредственно к данным S3, сохраняя свежую и масштабируемую аналитику без дополнительных затрат на сложное извлечение, преобразование и загрузку (ETL). Мы рады стать частью этой эволюции и сделать аналитику графов такой же удобной, как и сами данные.

Вэймо Лю, соучредитель и генеральный директор PuppyGraph

Блог AWS Storage: ускоренное обнаружение угроз в любом масштабе — аналитика графов кибербезопасности в реальном времени с использованием PuppyGraph и Таблиц Amazon S3

RisingWave

Интеграция RisingWave с Таблицами Amazon S3 позволяет организациям эффективно использовать Таблицы Apache Iceberg в Amazon S3, расширяя возможности своих конвейеров потоковой обработки данных. Независимо от того, загружаете ли вы необработанные данные, преобразуете их в режиме реального времени или записываете результаты обратно в S3, RisingWave упрощает работу с таблицами Iceberg как с естественным продолжением вашего рабочего процесса. Эта интеграция упрощает управление данными, снижает операционную сложность и обеспечивает удобную совместимость для команд, работающих с потоковой аналитикой.

Райиз Паша, директор по продукту RisingWave Labs

Ryft

Интеграция Ryft с Таблицами Amazon S3 позволяет командам использовать таблицы Apache Iceberg как полностью автономную платформу для хранения и аналитики данных. Клиенты получают оптимизацию и управление с учетом особенностей рабочих нагрузок, автоматическую оптимизацию структуры файлов и их уплотнение, управляемое хранение и восстановление снимков, автоматизированное обеспечение соответствия требованиям для таблиц Apache Iceberg, а также полную прозрачность своей платформы хранения и аналитики данных — и все это на базе хранилища, изначально разработанного для Iceberg. Вместе Ryft и Таблицы S3 обеспечивают стабильно высокую скорость выполнения запросов, снижение затрат на хранение и надежную работу без ручной настройки и регулярного обслуживания по расписанию.

Йосси Рейтблат, генеральный директор и соучредитель Ryft

Snowflake

Мы рады привнести магию Snowflake в Таблицы Amazon S3. Это сотрудничество позволяет клиентам Snowflake беспрепятственно читать и обрабатывать данные, хранящиеся в Таблицах S3, используя существующие настройки Snowflake, что устраняет необходимость в сложной миграции или дублировании данных. Объединив возможности аналитики производительности мирового класса Snowflake с эффективным хранилищем таблиц Apache Iceberg в Таблицы Amazon S3, организации могут легко запрашивать и анализировать табличные данные, хранящиеся в Amazon S3.

Ритеш Маккена, глобальный директор по разработке партнерских решений Snowflake

Статья блога о хранилище AWS: подключение Snowflake к Таблицам S3 с помощью адреса REST SageMaker Lakehouse Iceberg

Starburst

Мы рады, что в Amazon S3 применяется встроенная поддержка Apache Iceberg с помощью таблиц S3, что способствует развитию экосистемы Iceberg Open Data Lakehouse. Создавая корзины таблиц S3, мы рассчитываем на сотрудничество с AWS, чтобы помочь нашим совместным клиентам применять возможности Open Lakehouse на базе оптимизированного Trino – ведущего движка MPP SQL с открытым исходным кодом – в различных сценариях использования аналитики и искусственного интеллекта в данных Amazon S3.

Мэтт Фуллер, вице-президент по продуктам Starburst

Статья блога о хранилище AWS. создание управляемого озера данных Apache Iceberg с помощью Starburst и Таблиц Amazon S3

StreamNative

Наша интеграция с Таблицами Amazon S3 делает данные реального времени, готовые к использованию ИИ, более открытыми и доступными, чем когда-либо прежде. Архитектура Ursa без руководителей на S3 уже снижает затраты на хранение, а прямая интеграция с Таблицами S3 еще больше повышает производительность и эффективность. В мире, которым руководит искусственный интеллект, управление данными имеет решающее значение. В StreamNative мы стремимся помочь компаниям снизить совокупную стоимость владения на 90 % и одновременно сделать создание приложений на базе искусственного интеллекта на основе управляемых данных в режиме реального времени простым и доступным.

Сыцзе Го, генеральный директор и соучредитель StreamNative

Статья блога о хранилище AWS: беспрепятственная потоковая передача данных в Таблицы Amazon S3 с помощью движка StreamNative Ursa

Часто задаваемые вопросы

Таблицы S3 следует использовать для эффективного и экономичного способа хранения табличных данных в Amazon S3. Таблицы S3 позволяют организовать структурированные данные в таблицы, а затем запрашивать их с помощью стандартных инструкций SQL практически без настройки. Таблицы S3 обладают такими же характеристиками надежности, доступности, масштабируемости и производительности, как и сервис S3, и автоматически оптимизируют хранилище для максимальной производительности запросов и минимизации затрат. Благодаря классу хранилища Intelligent-Tiering алгоритмы Таблиц Amazon S3 автоматически оптимизирует затраты на основе шаблонов доступа без влияния на производительность и без дополнительной операционной нагрузки.

Таблицы S3 обеспечивают до 10 раз больше транзакций в секунду (TPS) по сравнению с хранением таблиц Iceberg в бакетах Amazon S3 общего назначения. Таблицы S3 автоматически сжимают базовые данные, постоянно оптимизируя таблицы для обеспечения максимальной производительности запросов. В зависимости от рабочей нагрузки и шаблонов запросов вы также можете выбрать передовые стратегии сжатия, такие как сортировка и z-упорядочивание, чтобы дополнительно повысить эффективность таблиц. Уплотнение сортировки упорядочивает данные на основе указанных столбцов для повышения производительности запросов с фильтрацией, тогда как z-упорядочивание оптимизирует организацию данных сразу по нескольким измерениям, что особенно эффективно при одновременном выполнении запросов по нескольким столбцам.

Начать работу с Таблицами S3 можно всего за несколько простых шагов без необходимости настраивать инфраструктуру за пределами Amazon S3. Сначала создайте бакет таблиц в консоли S3. При создании первого бакета таблиц с помощью консоли интеграция с сервисами аналитики AWS происходит автоматически, что позволяет S3 автоматически заполнять все бакеты и таблицы в вашем аккаунте и регионе в каталоге данных AWS Glue. После этого таблицы S3 становятся доступны движкам запросов AWS, таким как Amazon Athena, EMR и Redshift. В Athena вы можете быстро начать заполнять новые таблицы и запрашивать их. В Athena вы можете быстро начать заполнять новые таблицы и запрашивать их.

Кроме того, вы можете получить доступ к таблицам S3 с помощью адреса каталога Iceberg REST через каталог данных AWS Glue. Это позволит вам найти весь массив данных, включая все ресурсы таблиц. Можно также напрямую подключиться к адресу конкретного бакета таблиц для обнаружения всех ресурсов таблиц S3 в этом бакете. Таким образом можно использовать таблицы S3 с любым приложением или движком запросов, поддерживающим спецификацию каталога Apache Iceberg REST.

Дополнительные ресурсы

Документация

Руководство пользователя по Таблицам Amazon S3

Ознакомиться с руководством пользователя

Решение AWS

Руководство по переносу табличных данных из Amazon S3 в Таблицы S3

Начать работу

Блог

Доступ к данным в Таблицах S3 с помощью PyIceberg через адрес AWS Glue Iceberg REST

Читать блог

Дальнейшие шаги

Консоль

Начните разработку с использованием Amazon S3 в Консоли управления AWS

Начните разработку в консоли

Цены

Получите информацию о расходах, связанных с использованием Таблиц Amazon S3

Ознакомьтесь с ценами на Amazon S3

Вопросы и ответы

Подробнее о часто задаваемых вопросах

Перейти к часто задаваемым вопросам

Блог

Ознакомьтесь с нашими последними публикациями в блоге о Таблицах S3

Читать блог

Таблицы Amazon S3

Что такое Таблицы S3?

Преимущества

Как работают Таблицы S3

Непрерывное обслуживание и оптимизация таблиц

Оптимизация затрат на хранение с помощью Intelligent-Tiering

Автоматическая репликация таблиц между регионами

Совместимость API каталога REST из Apache Iceberg

Интеграция аналитики AWS

Примеры использования

Посмотрите демонстрационный ролик

Партнеры и интеграции

Daft

Dremio

DuckDB Labs

HighByte

PuppyGraph

RisingWave

Ryft

Snowflake

Starburst

StreamNative

Часто задаваемые вопросы

Дополнительные ресурсы

Руководство пользователя по Таблицам Amazon S3

Руководство по переносу табличных данных из Amazon S3 в Таблицы S3

Доступ к данным в Таблицах S3 с помощью PyIceberg через адрес AWS Glue Iceberg REST

Дальнейшие шаги

Начните разработку с использованием Amazon S3 в Консоли управления AWS

Получите информацию о расходах, связанных с использованием Таблиц Amazon S3

Подробнее о часто задаваемых вопросах

Ознакомьтесь с нашими последними публикациями в блоге о Таблицах S3

Подробнее

Ресурсы

Разработчики

Поддержка

Таблицы Amazon S3

Что такое Таблицы S3?

Преимущества

Полностью управляемый сервис

Производительность и надежность

Открытость и совместимость

Оптимизированное управление и безопасность

Готовность к аналитике и ИИ

Как работают Таблицы S3

Непрерывное обслуживание и оптимизация таблиц

Оптимизация затрат на хранение с помощью Intelligent-Tiering

Автоматическая репликация таблиц между регионами

Совместимость API каталога REST из Apache Iceberg

Интеграция аналитики AWS

Примеры использования

Модернизация озера данных

Потоковая передача

Аналитика больших данных

Аналитика на основе искусственного интеллекта

Посмотрите демонстрационный ролик

Партнеры и интеграции

Daft

Dremio

DuckDB Labs

HighByte

PuppyGraph

RisingWave

Ryft

Snowflake

Starburst

StreamNative

Часто задаваемые вопросы

Какие преимущества дают Таблицы S3?

Какова скорость обработки запросов в Таблицах S3?

Как начать работу с Таблицами S3?

Дополнительные ресурсы

Руководство пользователя по Таблицам Amazon S3

Руководство по переносу табличных данных из Amazon S3 в Таблицы S3

Доступ к данным в Таблицах S3 с помощью PyIceberg через адрес AWS Glue Iceberg REST

Дальнейшие шаги

Начните разработку с использованием Amazon S3 в Консоли управления AWS

Получите информацию о расходах, связанных с использованием Таблиц Amazon S3

Подробнее о часто задаваемых вопросах

Ознакомьтесь с нашими последними публикациями в блоге о Таблицах S3

Подробнее

Ресурсы

Разработчики

Поддержка