Перейти к главному контенту

Amazon S3

Таблицы Amazon S3

Оптимизируйте производительность запросов и расходы при масштабировании озера данных

Храните табличные данные в большем масштабе в S3

Таблицы Amazon S3 представляют собой первое облачное хранилище объектов со встроенной поддержкой Apache Iceberg и упрощает хранение табличных данных в необходимом масштабе. Непрерывная оптимизация таблиц автоматически сканирует и перезаписывает табличные данные в фоновом режиме, обеспечивая до 3 раз более высокую производительность запросов по сравнению с неуправляемыми таблицами Iceberg. Со временем эта оптимизация производительности будет продолжать улучшаться. Кроме того, таблицы S3 включают оптимизацию, специфичную для рабочих нагрузок Iceberg, которая обеспечивает до 10 раз больше транзакций в секунду по сравнению с таблицами Iceberg, хранящимися в корзинах S3 общего назначения. Дополнительные сведения об улучшении производительности запросов в S3 Tables см. в публикации в блоге.

Благодаря поддержке Таблицами S3 стандарта Apache Iceberg табличные данные можно легко запрашивать с помощью популярных поисковых систем AWS и сторонних разработчиков. Используйте таблицы S3 для хранения табличных данных, таких как ежедневные транзакции покупок, потоковые данные датчиков или показы рекламы, в виде таблицы Iceberg в S3, а также оптимизируйте производительность и затраты по мере развития данных с помощью автоматического обслуживания таблиц. Прочтите сообщение в блоге, чтобы узнать больше.

Преимущества

Упростите озера данных в любом масштабе, независимо от того, начинаете ли вы или управляете тысячами таблиц в среде Iceberg.

Повысьте производительность запросов до 3 раз благодаря непрерывной оптимизации таблиц (по сравнению с неуправляемыми таблицами Iceberg) и увеличьте количество транзакций в секунду до 10 раз (по сравнению с таблицами Iceberg, хранящимися в корзинах S3 общего назначения).

Выполняйте задачи постоянного обслуживания таблиц, такие как сжатие, управление снимками и удаление файлов без ссылок, чтобы автоматически оптимизировать эффективность запросов и затраты с течением времени.

Получите доступ к расширенным аналитическим возможностям Iceberg и запрашивайте данные с помощью знакомых сервисов AWS, таких как Amazon Athena, Redshift и EMR, благодаря интеграции Таблиц S3 с Хранилищем в озере данных Amazon SageMaker. Кроме того, для чтения и записи данных в Таблицы S3 можно использовать сторонние приложения, совместимые с Iceberg REST, такие как Apache Spark, Apache Flink, Trino, DuckDB и PyIceberg.

Создавайте таблицы как первоклассные ресурсы AWS и применяйте разрешения, чтобы легко управлять доступом к ним.

Как это работает

Таблицы S3 представляют собой специализированное хранилище S3 для хранения структурированных данных в форматах Apache Parquet, Avro и ORC. В корзине таблиц можно создавать таблицы как первоклассные ресурсы непосредственно в S3. Эти таблицы можно защитить с помощью разрешений на уровне таблиц, определенных политиками на основе учетных данных или ресурсов, и доступны для приложений либо инструментов, поддерживающих стандарт Apache Iceberg. Когда вы создаете таблицу в корзине таблиц, базовые данные в S3 сохраняются в виде файлов Parquet, Avro или ORC. Затем S3 сохраняет метаданные, необходимые для того, чтобы ваши приложения могли запрашивать эти данные. Корзины таблиц включают клиентскую библиотеку, которая используется движками запросов для навигации и обновления метаданных Iceberg в корзине таблиц. Эта библиотека в сочетании с обновленными API-интерфейсами S3 для операций с таблицами позволяет нескольким клиентам безопасно читать и записывать данные в таблицы. Со временем S3 автоматически оптимизирует базовые данные Parquet, Avro или ORC, переписывая или «сжимая» ваши объекты. Сжатие оптимизирует данные в S3, повышая производительность запросов и минимизируя затраты. Прочтите руководство пользователя, чтобы узнать больше.

Клиенты

Genesys

Genesys – мировой лидер в области облачных технологий для оркестрации опыта на основе ИИ. Благодаря передовым возможностям ИИ, цифровых технологий и управления взаимодействием с персоналом Genesys помогает более 8000 организациям в более чем 100 странах предоставлять персонализированный и чуткий подход к клиентам и сотрудникам, одновременно повышая гибкость бизнеса и его результаты.

«Amazon S3 Tables станет революционным дополнением к нашей архитектуре данных, особенно благодаря поддержке управляемого Iceberg, которая эффективно создает слой материализованного представления для различных задач анализа данных. Это решение поможет Genesys упростить сложные рабочие процессы с данными, устраняя дополнительные уровни управления таблицами, а S3 автоматически выполняет ключевые задачи обслуживания, такие как сжатие, управление снимками и очистка файлов без ссылок. Возможность читать и записывать таблицы Iceberg непосредственно из S3 повысит производительность и откроет новые возможности для беспрепятственной интеграции данных в нашу аналитическую экосистему. Эта совместимость в сочетании с улучшением производительности делает S3 Tables ключевой частью нашей будущей стратегии по быстрому, гибкому и надежному анализу данных. »

Glenn Nethercutt, технический директор, Genesys

Missing alt text value

Pendulum

Pendulum – это платформа Brand Intelligence, которая имеет самый полный в мире обзор видео-, аудио- и текстового контента для упреждающего выявления рисков и возможностей, что позволяет принимать более эффективные решения и отслеживать аналитику на предприятии.

Блог AWS Storage: как Pendulum ускоряет обработку данных в 6 раз и снижает затраты на 40% с помощью таблиц Amazon S3

«В Pendulum Intelligence мы анализируем данные из сотен миллионов социальных каналов и источников. Таблицы Amazon S3 изменили подход к управлению озером данных, которое обрабатывает тысячи часов анализируемого видео- и аудиоконтента, а также извлекает контекст из изображений и других медиафайлов практически в режиме реального времени с помощью наших собственных инструментов машинного обучения. Устранив бремя управления таблицами, включая сжатие, создание снимков и очистку файлов, наша команда может сосредоточиться на самом важном – извлечении полезной информации из огромных наборов данных. Простая интеграция с нашим аналитическим стеком — Amazon Athena, AWS Glue и Amazon EMR — значительно расширила наши возможности по масштабной обработке сложных данных. »

Abdurrahman Elbuni, архитектор больших данных в облаке, Pendulum

Missing alt text value

SnapLogic

SnapLogic является первооткрывателем в области интеграции на основе ИИ. Платформа SnapLogic для генеративной интеграции ускоряет цифровую трансформацию предприятий, помогая разрабатывать, развертывать и управлять агентами ИИ и интеграцией, которые автоматизируют задачи, принимают решения в реальном времени и легко встраиваются в существующие рабочие процессы.

«Таблицы Amazon S3 со встроенной поддержкой Apache Iceberg и интеграцией сервисов AWS Analytics помогают компаниям оптимизировать затраты на аналитику данных и одновременно трансформировать методы использования бизнес-данных для аналитики, обеспечения соответствия требованиям и инициатив в области искусственного интеллекта. Автоматизируя сложные задачи управления данными и предоставляя полные журналы аудита изменений данных, команды могут мгновенно анализировать исторические данные, обеспечивать соответствие нормативным требованиям и ускорять бизнес-аналитику при одновременном значительном снижении затрат на технологии. »

Dominic Wellington, корпоративный архитектор, SnapLogic

Missing alt text value

Zus Health

Zus – это платформа для обмена медицинскими данными, предназначенная для ускорения взаимодействия между медицинскими данными с помощью удобных в использовании API, встроенных компонентов и прямой интеграции с EHR.

«Как медицинская компания, обрабатывающая огромные объемы часто меняющихся данных пациентов, мы решили инвестировать в Apache Iceberg, поскольку Apache Hive решает множество проблем, связанных с разделением и автоматизацией, а также обеспечивает более широкую совместимость. Одной из главных трудностей с Iceberg была оптимизация таблиц и управление ею. Именно поэтому мы рады использовать таблицы S3 и возможности управляемой оптимизации. Возможность избавить разработчиков от необходимости обслуживания таблиц позволит нам больше сосредоточиться на предоставлении нашим клиентам высококачественных данных и ценной информации. »

Sonya Huang, инженер-консультант по программному обеспечению, Zus Health

Missing alt text value

Партнеры и интеграции

Daft

Daft – это унифицированный движок для инженерии данных, аналитики и машинного обучения, в котором интерфейсы SQL и Python DataFrame являются объектами первого класса и написаны на языке программирования Rust. Daft обеспечивает быстрый и приятный локальный интерактивный интерфейс, а также легко масштабируется до распределенных рабочих нагрузок размером в несколько петабайтов.

«Таблицы Amazon S3 идеально дополняют поддержку Daft для Apache Iceberg. Благодаря интеграции с AWS Lake Formation и AWS Glue мы смогли без труда расширить существующие возможности чтения и записи Iceberg до таблиц S3, воспользовавшись при этом оптимизированной производительностью. Мы с нетерпением ожидаем развития этого нового сервиса и рады предоставить лучшую в своем классе поддержку таблиц S3 для экосистемы Python Data Engineering & ML/AI. »

Sammy Sidh, генеральный директор и соучредитель, Daft

Missing alt text value

Dremio

Dremio – это интеллектуальная платформа, которая ускоряет развитие искусственного интеллекта и аналитики, предлагая ведущий на рынке движок SQL, открытый, совместимый каталог данных и безопасную, масштабируемую и простую в использовании платформу. Наше лидерство в сообществах Apache Iceberg, Apache Polaris (incubating) и Apache Arrow позволяет организациям создавать полностью открытые и высокопроизводительные архитектуры для озер, сохраняя при этом гибкость и контроль, устраняя зависимость от поставщиков.

«Компания Dremio рада поддержать общедоступность таблиц Amazon S3. Поддерживая спецификацию Apache Iceberg REST Catalog (IRC), Таблицы S3 обеспечивают бесперебойную совместимость с Dremio, предоставляя пользователям преимущества высокопроизводительного движка SQL, способного запрашивать таблицы Apache Iceberg, управляемые в оптимизированных корзинах таблиц S3. Это сотрудничество усиливает важность открытых стандартов в экосистеме озера, устраняет сложности интеграции и ускоряет внедрение новых стандартов клиентами. Благодаря таблицам Amazon S3 и поддержке IRC организации получают гибкость и возможность выбора, необходимые для создания унифицированной архитектуры Lakehouse в эпоху искусственного интеллекта. »

James Rowland-Jones, вице-президент по продуктам, Dremio

Missing alt text value

DuckDB Labs

DuckDB Labs – компания, основанная создателями популярного универсального инструмента обработки данных DuckDB. В компании работают основные разработчики системы DuckDB. DuckDB является бесплатным программным обеспечением с открытым исходным кодом с лицензией MIT и регулируется независимой некоммерческой организацией DuckDB Foundation. Проект DuckDB делает быструю аналитическую обработку доступной для широкой аудитории благодаря простоте использования и портативности.

Блог AWS Storage: оптимизация доступа к табличным наборам данных, хранящимся в таблицах Amazon S3, с помощью DuckDB

«Amazon S3 Tables идеально соответствует видению DuckDB по демократизации аналитики данных с использованием открытых форматов файлов. Сотрудничество между AWS и DuckDB Labs позволяет нам еще больше расширить поддержку Iceberg в DuckDB и обеспечить беспрепятственную интеграцию с Таблицами S3. Мы считаем, что использование общих батарей в DuckDB и S3 Tables сочетается с мощным аналитическим стеком, способным справляться с широким спектром рабочих нагрузок, сохраняя при этом невероятно низкий входной барьер. »

Hannes Mühleisen, генеральный директор, DuckDB Labs

Missing alt text value

HighByte

HighByte – компания-разработчик промышленного программного обеспечения, занимающаяся решением проблем архитектуры и интеграции данных, с которыми сталкиваются мировые производители в процессе цифровой трансформации. HighByte Intelligence Hub, проверенное программное обеспечение компании Industrial DataOps, предоставляет смоделированные готовые к использованию данные в облачные сервисы AWS с помощью интерфейса без кода для ускорения интеграции и ускорения аналитики.

«Amazon S3 Tables — это новая мощная функция, которая оптимизирует управление, производительность и хранение табличных данных для аналитических рабочих нагрузок. Прямая интеграция HighByte Intelligence Hub с Таблицами Amazon S3 позволяет мировым производителям легко создать открытое озеро транзакционных данных для своих промышленных данных. Таблицы S3 позволяют мгновенно запрашивать необработанные данные Parquet, что дает клиентам возможность отправлять контекстуализированную информацию с периферии в облако для немедленного использования без дополнительной обработки или преобразования. Это существенно влияет как на производительность, так и на оптимизацию затрат наших общих клиентов. »

Aron Semle, технический директор, HighByte

HighByte logo. All rights reserved.

PuppyGraph

PuppyGraph – это первый движок запросов к графам интеграции с нулевым использованием ETL в режиме реального времени, позволяющий специалистам по обработке данных запрашивать существующее озеро в виде графа за считанные минуты без дорогостоящей миграции или обслуживания. Он масштабируется до наборов данных размером в петабайты и выполняет сложные многоуровневые запросы за несколько секунд, обеспечивая различные варианты использования: от обнаружения мошенничества до кибербезопасности и аналитики на основе искусственного интеллекта.

Блог AWS Storage: Ускоренное обнаружение угроз в любом масштабе: аналитика графов кибербезопасности в реальном времени с помощью таблиц PuppyGraph и Amazon S3

«Amazon S3 уже давно является основой современной инфраструктуры данных, и запуск таблиц S3 стал важной вехой на пути превращения Apache Iceberg в универсальный стандарт данных и искусственного интеллекта. Эта инновация позволяет организациям использовать высокопроизводительные форматы открытых таблиц в S3, обеспечивая многопроцессорную аналитику без дублирования данных. Теперь клиенты компании PuppyGraph могут выполнять запросы к графикам в режиме реального времени непосредственно к данным S3, сохраняя свежую и масштабируемую аналитику без дополнительных затрат на сложное извлечение, преобразование и загрузку (ETL). Мы рады стать частью этой эволюции и сделать графическую аналитику такой же удобной, как и сами данные. »

Weimo Liu, соучредитель и генеральный директор, PuppyGraph

Missing alt text value

Восходящая волна

Компания RisingWave Labs, основанная в 2021 году в Сан-Франциско, разрабатывает облачную потоковую базу данных SQL RisingWave, которая упрощает обработку данных в реальном времени. Технология компании сочетает совместимость PostgreSQL с современной потоковой архитектурой, предлагаемой как в виде решения с открытым исходным кодом, так и в виде полностью управляемой платформы RisingWave Cloud.

«Интеграция RisingWave с таблицами Amazon S3 позволяет организациям эффективно использовать таблицы Apache Iceberg в Amazon S3, расширяя возможности конвейера потоковых данных. Независимо от того, принимаете ли вы необработанные данные, преобразуете их в реальном времени или записываете результаты обратно в S3, RisingWave упрощает работу с таблицами Iceberg, которые станут естественным продолжением рабочего процесса. Эта интеграция упрощает управление данными, снижает эксплуатационную сложность и обеспечивает бесперебойную совместимость команд, работающих с потоковой аналитикой. »

Райес Паша, технический директор RisingWave Labs

Missing alt text value

Snowflake

Snowflake делает корпоративный ИИ простым, доступным и надежным. Тысячи компаний по всему миру, включая сотни крупнейших, используют облако данных на основе ИИ от компании Snowflake для обмена данными, создания приложений и развития бизнеса с помощью искусственного интеллекта.

Блог AWS Storage: подключите Snowflake к таблицам S3 с помощью конечной точки SageMaker Lakehouse Iceberg REST

«Мы рады привнести волшебство Snowflake в столы Amazon S3. Это сотрудничество позволяет клиентам Snowflake беспрепятственно читать и обрабатывать данные, хранящиеся в Таблицах S3, используя существующие настройки Snowflake, что устраняет необходимость в сложной миграции или дублировании данных. Объединив возможности аналитики производительности мирового класса Snowflake с эффективным хранилищем таблиц Apache Iceberg в Amazon S3 Tables, организации могут легко запрашивать и анализировать табличные данные, хранящиеся в Amazon S3. »

Rithesh Makkena, глобальный директор по разработке партнерских решений, Snowflake

Missing alt text value

Starburst

Starburst обеспечивает базовую архитектуру данных, необходимую аналитике, искусственному интеллекту и приложениям для обработки данных. Решение использует гибридную среду хранения данных на базе Apache Iceberg для обеспечения доступа, совместной работы и управления в любом масштабе.

Блог AWS Storage: создайте управляемое озеро данных Apache Iceberg с помощью таблиц Starburst и Amazon S3

«Мы очень рады, что Amazon S3 внедрил встроенную поддержку Apache Iceberg с помощью таблиц S3, что способствует развитию экосистемы Iceberg Open Data Lakehouse. Создавая корзины таблиц S3, мы рассчитываем на сотрудничество с AWS, чтобы помочь нашим совместным клиентам использовать возможности Open Lakehouse на базе оптимизированного Trino — ведущего движка MPP SQL с открытым исходным кодом — в различных сценариях использования аналитики и искусственного интеллекта в данных Amazon S3. »

Matt Fuller, вице-президент по продуктам, Starburst

Missing alt text value

StreamNative

StreamNative – это платформа для обмена сообщениями и потоковой передачи, которая позволяет искусственному интеллекту и аналитике экономично и высокопроизводительно получать данные. Движок StreamNative Ursa позволяет предприятиям снизить совокупную стоимость владения (TCO) на 90% благодаря совместимости с Kafka, архитектуре без лидеров и встроенному хранилищу, что делает готовые к использованию ИИ данные доступными в любом масштабе.

Статья блога о хранилище AWS. Беспрепятственная потоковая передача данных в Таблицы Amazon S3 с помощью движка StreamNative Ursa

«Наша интеграция с Amazon S3 Tables делает данные в реальном времени, готовые к использованию искусственного интеллекта, более открытыми и доступными, чем когда-либо. Архитектура Ursa без руководителей на S3 уже снижает затраты на хранение, а прямая интеграция с Таблицами S3 еще больше повышает производительность и эффективность. В мире, которым руководит искусственный интеллект, управление данными имеет решающее значение. В StreamNative мы стремимся помочь компаниям снизить совокупную стоимость владения на 90%, а также сделать создание приложений на базе искусственного интеллекта на основе управляемых данных в реальном времени простым и доступным. »

Sijie Guo, генеральный директор и соучредитель, StreamNative

Missing alt text value

Ресурсы для таблиц S3

Демонстрация таблиц S3

Посмотрите это видео, чтобы узнать больше о том, как таблицы S3 повышают производительность озера данных, упрощают средства управления безопасностью и автоматически управляют расходами по мере масштабирования. В этом ролике подробно рассматриваются архитектура таблиц S3, которая существенно повышает производительность рабочих нагрузок озер данных, и последние версии этого сервиса.