Amazon Kinesis Data Analytics – это сервис, упрощающий анализ потоковых данных в режиме реального времени. Используя шаблоны и встроенные операторы, вы можете быстро и легко составлять запросы и разрабатывать сложные приложения в режиме реального времени. Amazon Kinesis Data Analytics настраивает ресурсы для работы ваших приложений и автоматически масштабируется для обработки любых объемов входных данных.
Бессерверные технологии
Вам не потребуется настраивать и контролировать сложную инфраструктуру для обеспечения высокой доступности и обработки с фиксацией состояния. Amazon Kinesis Data Analytics – это бессерверный сервис, который обеспечивает все условия, необходимые для непрерывной работы вашего приложения. В частности, он автоматически подготавливает инфраструктуру для непрерывной обработки потоковых данных.
Автоматическая эластичность с оплатой по факту использования
Amazon Kinesis Data Analytics эластично масштабирует приложения, чтобы они справлялись с любым объемом данных во входящем потоке. Оплачиваются только те ресурсы, которые используются для работы приложения потоковой передачи. Не нужно беспокоиться о предоставлении инфраструктуры или оплате простаивающих ресурсов.
Задержка обработки – не более одной секунды
Amazon Kinesis Data Analytics обеспечивает обработку с задержкой не более секунды, что позволяет генерировать предупреждения и информационные панели, а также получать полезную аналитическую информацию в режиме реального времени.
Для сложных приложений с использованием Apache Flink
Компоненты с открытым исходным кодом
Amazon Kinesis Data Analytics включает библиотеки с открытым исходным кодом, такие как Apache Flink, Apache Beam, SDK AWS и средства интеграции с сервисами AWS. Apache Flink – это платформа и ядро с открытым исходным кодом, предназначенные для создания высокодоступных и точных приложений потоковой передачи с поддержкой Java и Scala. Apache Beam – это унифицированная модель с открытым исходным кодом для определения приложений потоковой передачи и пакетной обработки данных, которые могут выполняться на многих движках. Пакеты AWS SDK помогают упростить написание кода для множества сервисов AWS, предоставляя доступ к API на любых языках программирования, а также включают библиотеки AWS, образцы кода и документацию.
Гибкие API
Предоставляются гибкие API, рассчитанные на различные примеры использования, включая обработку событий с фиксацией состояния, ETL-операции с потоковыми данными и аналитику в реальном времени. Благодаря встроенным операторам и возможностям аналитики разработка приложения потоковой передачи на базе Apache Flink занимает считаные часы, а не месяцы. Библиотеки Amazon Kinesis Data Analytics можно расширять, чтобы выполнять обработку в режиме реального времени для множества различных применений.
Интеграция с сервисами AWS
Вы можете настроить и интегрировать источник или целевое расположение данных, используя минимальное количество символов кода. Библиотеки Amazon Kinesis Data Analytics можно использовать для интеграции с Amazon S3, Amazon Managed Streaming for Apache Kafka (Amazon MSK), Amazon Elasticsearch Service, Amazon DynamoDB, Amazon Kinesis Data Streams, Amazon Kinesis Data Firehose, Amazon CloudWatch и AWS Glue Schema Registry.
Расширенные возможности интеграции
Помимо возможностей интеграции с AWS, библиотеки Amazon Kinesis Data Analytics включают более десяти соединителей от Apache Flink и возможность создания собственных средств интеграции. Добавив пару строк кода, вы можете изменить поведение каждого средства интеграции с помощью расширенных функциональных возможностей. Вы также можете создавать собственные средства интеграции с помощью набора базовых компонентов Apache Flink, позволяющих считывать и записывать данные в файлах, каталогах, сокетах и других источниках, доступных через Интернет.
Совместимость с AWS Glue Schema Registry
Amazon Kinesis Data Analytics для Apache Flink совместим с реестром схем AWS Glue Schema Registry – бессерверной функцией AWS Glue, которая позволяет без дополнительной оплаты проверять и контролировать изменение потоковых данных с помощью зарегистрированных схем Apache Avro. Реестр схем используется для управления схемами в Amazon Kinesis Data Analytics для рабочих нагрузок Apache Flink, которые подключаются к Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK) или Amazon Kinesis Data Streams в качестве источника или приемника. Если приложения потоковой передачи данных интегрированы с реестром схем, вы можете оптимизировать качество данных и предотвратить неожиданные изменения с помощью проверок совместимости, которые управляют развитием схемы.
Строго однократная обработка
С помощью Apache Flink в Amazon Kinesis Data Analytics можно создавать приложения, в которых обработанные записи влияют на результаты только один раз. Это называется строго однократной обработкой. Это означает, что даже в случае нарушения в работе приложения (например, внутреннего технического обслуживания или инициированного пользователем обновления приложения) сервис обеспечит обработку всех данных и отсутствие дубликатов.
Обработка с фиксацией состояния
Сервис сохраняет предыдущие и текущие вычисления, или состояние, в хранилище запущенного приложения. Это позволяет в режиме реального времени сравнивать текущие и прошлые результаты за любой период времени, а также обеспечивает быстрое восстановление после нарушений в работе приложения. Состояние всегда шифруется и поэтапно сохраняется в хранилище запущенного приложения.
Надежные резервные копии приложений
Вы можете создавать и удалять надежные резервные копии приложений с помощью простого вызова API. Вы можете мгновенно восстановить приложение из последней резервной копии после нарушения или вернуться к его более ранней версии.
Для интерактивных приложений SQL
Поддержка стандартного синтаксиса SQL
Amazon Kinesis Data Analytics поддерживает язык SQL стандарта ANSI, поэтому для работы не понадобится никаких дополнительных знаний.
Интеграция с сервисами входящих и исходящих данных
Amazon Kinesis Data Analytics интегрирован с сервисами Amazon Kinesis Data Streams и Amazon Kinesis Data Firehose, что обеспечивает простой сбор потоковых данных. Укажите сервису Amazon Kinesis Data Analytics входящий поток данных, и он автоматически прочитает и проанализирует данные, а также сделает их доступными для обработки. Результаты обработки посредством сервиса Amazon Kinesis Data Firehose можно отправлять в другие сервисы AWS, например Amazon S3, Amazon Redshift или Amazon Elasticsearch Service. Можно также отправлять исходящие данные в Amazon Kinesis Data Streams для создания конвейеров обработки данных с расширенными возможностями.
Интерактивный редактор SQL
Вам доступен интерактивный редактор для составления запросов SQL, использующих операции с потоковыми данными, такие как алгоритм определения средних значений в скользящем временном окне. Можно также в режиме реального времени просматривать результаты обработки потоковых данных и возникшие ошибки для интерактивной отладки или дальнейшей настройки скриптов.
Простой редактор схем
В Amazon Kinesis Data Analytics имеется простой редактор схем для выявления и редактирования структуры входящих данных. Мастер автоматически распознает стандартные форматы данных, например JSON и CSV. Он определяет структуру входных данных для создания базовой схемы, которую можно уточнять с помощью редактора схем.
Готовые шаблоны SQL
Интерактивный редактор SQL сопровождается набором шаблонов SQL, содержащих базовый код SQL для самых распространенных операций, таких как агрегация, преобразование с учетом событий и фильтрация. Достаточно выбрать шаблон, подходящий для конкретного аналитического задания, и адаптировать полученный код к конкретному примеру использования с помощью редактора SQL.
Расширенные возможности потоковой обработки
В Amazon Kinesis Data Analytics есть функции, оптимизированные для потоковой обработки. С их помощью удобно выполнять с потоковыми данными сложные аналитические задачи, например обнаружение аномалий или анализ «top-K».
Начать работу с Amazon Kinesis Data Analytics

Из этого пошагового руководства вы узнаете, как использовать Amazon Kinesis Data Analytics для работы с SQL и Apache Flink.

Создайте свое приложение потоковой передачи в консоли Amazon Kinesis Data Analytics.