Возможности Amazon Athena

Почему Athena?

Amazon Athena – интерактивный сервис запросов, позволяющий без труда анализировать данные непосредственно в Amazon S3 стандартными средствами SQL. Athena работает без серверов, поэтому нет необходимости настраивать инфраструктуру или управлять ею, и вы можете выбрать оплату в зависимости от выполняемых запросов или вычислительных ресурсов, необходимых для ваших запросов. Сервис можно использовать для обработки журналов, выполнения анализа данных и интерактивных запросов к ним. Athena масштабируется автоматически и выполняет запросы параллельно, поэтому результаты возвращаются очень быстро, даже при выполнении сложных запросов на больших объемах данных.  

Основные преимущества

Amazon Athena работает без сервера, поэтому управлять инфраструктурой не требуется. Не приходится беспокоиться о настройке, обновлениях ПО, сбоях или масштабировании инфраструктуры при увеличении объемов данных и количества пользователей. Об этом автоматически позаботится Athena, так что можно сконцентрироваться на анализе данных.

Чтобы начать работу, войдите в консоль Athena, задайте схему с помощью мастера консоли или выражений DDL и начните сразу же выполнять запросы с помощью встроенного редактора запросов. Можно также использовать AWS Glue для автоматического поиска в указанных источниках данных и для заполнения каталога данных информацией о новых или измененных таблицах и определениями разделов. Результаты отображаются в консоли в течение нескольких секунд и автоматически сохраняются в указанной корзине хранилища S3. Их также можно загрузить на свой компьютер. Для подготовки данных к анализу больше не нужно использовать сложные задания ETL. Таким образом, любой специалист со знанием SQL может быстро проанализировать большой объем данных.

Amazon Athena основывается на Trino и Presto – ядре обработки распределенных SQL‑запросов с открытым исходным кодом, оптимизированное для выполнения интерактивного анализа данных с низкой задержкой. Это позволяет выполнять запросы к большим наборам данных в Amazon S3, используя ANSI SQL с полной поддержкой масштабных операций объединения, оконных функций и массивов. Athena поддерживает множество форматов данных, таких как CSV, JSON, ORC, Avro или Parquet. Коннекторы федеративных источников данных Athena дают возможность отправлять запросы к дополнительным источникам данных и объединять полученные данные с данными, хранящимися в Amazon S3. Вы можете обращаться к Athena и выполнять запросы из консоли Athena, с помощью API, интерфейса командной строки, AWS SDK и поддерживаемых приложений разработки бизнес-аналитики и SQL посредством драйверов Athena для JDBC и ODBC.

Amazon Athena предлагает две гибкие модели формирования цен. По умолчанию счета за запросы выставляются на основе данных, сканированных по каждому запросу в терабайтах (ТБ). Это позволяет отправлять запросы без предварительного планирования вычислений. Если вы предпочитаете платить в зависимости от вычислительных ресурсов, затрачиваемых на запросы, или хотите контролировать параллелизм и приоритизировать рабочие нагрузки, используйте тарифы на основе емкости, доступные в разделе «Выделенные ресурсы». Для дополнительной гибкости вы можете одновременно использовать оплату за запрос и цены на основе емкости в одном аккаунте.

С Amazon Athena не нужно беспокоиться об управлении кластерами и их настройке. Athena оптимизирован для быстрой и производительной работы с Amazon S3. Запросы автоматически выполняются параллельно, поэтому даже на больших объемах данных результаты готовы за несколько секунд.  

Amazon Athena обеспечивает высокую доступность, выполняя запросы с помощью вычислительных ресурсов, распределенных между несколькими объектами, и автоматической маршрутизации запросов в случае недоступности определенных объектов. В качестве основного хранилища Athena использует Amazon S3, что гарантирует высокую доступность и надежность данных. Устойчивая инфраструктура Amazon S3 обеспечивает надежное хранение 99,999999999 % объектов. Резервные копии данных распределяются между несколькими объектами и несколькими устройствами на каждом объекте.

В Amazon Athena можно управлять доступом к данным с помощью политик AWS Identity and Access Management (IAM), списков контроля доступа или политик использования корзин Amazon S3. Благодаря политикам IAM можно предоставлять пользователям IAM средства точного управления корзинами S3. Контролируя доступ к данным в S3, можно запретить пользователям отправлять запросы к этому хранилищу через Athena. Athena также позволяет выполнять запросы к зашифрованным данным, хранящимся в Amazon S3, и записывать зашифрованные результаты обратно в корзину S3. Поддерживается как шифрование на стороне сервера, так и шифрование на стороне клиента.

В сервисе Amazon Athena предусмотрена встроенная интеграция с AWS Glue. Каталог данных AWS Glue позволяет создавать единый репозиторий метаданных для различных сервисов, сканировать источники данных для обнаружения схем, наполнять каталог новыми или измененными таблицами и определениями разделов, а также обеспечивать поддержку различных версий для схем. Кроме того, полностью управляемые инструменты ETL сервиса AWS Glue позволяют обрабатывать данные и преобразовывать их в табличный формат для оптимизации производительности запросов и снижения их стоимости. Подробнее об AWS Glue.

Athena предоставляет встроенные коннекторы для 30 популярных хранилищ данных AWS, локальных и других облачных хранилищ, включая Amazon Redshift, Amazon DynamoDB, Google BigQuery, облачное хранилище Google, Azure Synapse, хранилище озера данных Azure, Redis, Snowflake и SAP Hana. Используя коннекторы источников данных Athena, вы можете генерировать аналитику на основе нескольких источников данных с использованием синтаксиса Athena SQL без необходимости перемещать или преобразовывать данные. Коннекторы данных работают как функции AWS Lambda, и к ним можно предоставлять доступ нескольким аккаунтам для масштабирования запросов SQL до сотен конечных пользователей. Список поддерживаемых источников см. в разделе Доступные коннекторы источников данных. Чтобы узнать, как создать собственный коннектор источников данных, см. пакет SDK для коннекторов Athena.

Можно запускать модели SageMaker Machine Learning с помощью запросов SQL Athena для получения логических выводов. Благодаря возможности использовать модели ML в запросах SQL теперь достаточно написать запрос для выполнения сложных задач, таких как обнаружение отклонений, анализ категорий клиентов и прогнозирование продаж. Любой, у кого есть опыт работы с SQL, может без труда запускать с помощью Athena модели ML, развернутые в Amazon SageMaker.