Инструменты с открытым исходным кодом

Amazon Kinesis Data Analytics включает библиотеки с открытым исходным кодом, такие как Apache Flink, Apache Beam, Apache Zeppelin, AWS SDK и средства интеграции с сервисами AWS. Apache Flink – это платформа и ядро с открытым исходным кодом, предназначенные для создания высокодоступных и точных приложений потоковой передачи. Apache Beam – это унифицированная модель с открытым исходным кодом для определения приложений потоковой передачи и пакетной обработки данных, работающих на базе различных ядер. Пакеты средств разработки ПО AWS (SDK) помогают упростить написание кода для множества сервисов AWS, предоставляя интерфейсы прикладного программирования (API) на любых языках программирования, а также включают библиотеки AWS, образцы кода и документацию.

Гибкие API

Kinesis Data Analytics предоставляет на Java, Scala, Python и SQL гибкие API рассчитаны на различные стандартные примеры использования, включая обработку событий с фиксацией состояния, ETL-операции с потоковыми данными и аналитику в реальном времени. Благодаря встроенным операторам и возможностям аналитики разработка приложения потоковой передачи на базе Apache Flink занимает считанные часы, а не месяцы. Библиотеки Kinesis Data Analytics можно расширять, чтобы выполнять обработку в режиме реального времени для множества различных стандартных примеров использования.

Возможности интеграции сервисов AWS

Вы можете настроить и интегрировать источник или целевое расположение данных, используя минимальное количество символов кода. Библиотеки Amazon Kinesis Data Analytics можно использовать для интеграции с Amazon Simple Storage Service (S3), Amazon Managed Streaming for Apache Kafka (Amazon MSK), Amazon OpenSearch ServiceAmazon DynamoDB, Amazon Kinesis Data Streams, Amazon Kinesis Data Firehose, Amazon CloudWatch и AWS Glue Schema Registry.

Расширенные возможности интеграции

Помимо возможностей интеграции с AWS, библиотеки Kinesis Data Analytics включают более десяти соединителей от Apache Flink и возможность создания собственных средств интеграции. Добавив пару строк кода, вы можете изменить поведение каждого средства интеграции с помощью расширенных функциональных возможностей. Вы также можете создавать собственные средства интеграции с помощью набора базовых компонентов Apache Flink, позволяющих считывать и записывать данные в файлах, каталогах, сокетах или других источниках, доступных через Интернет.

Совместимость с AWS Glue Schema Registry

Kinesis Data Analytics для Apache Flink обладает совместимостью с AWS Glue Schema Registry. Бессерверная функция AWS Glue позволяет без дополнительной оплаты проверять и контролировать изменение потоковых данных с помощью зарегистрированных схем Apache Avro. Реестр схем используется для управления схемами в Kinesis Data Analytics для рабочих нагрузок Apache Flink, которые подключаются к Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK) или Amazon Kinesis Data Streams в качестве источника или приемника. Если приложения потоковой передачи данных интегрированы с реестром схем, вы можете оптимизировать качество данных и предотвратить неожиданные изменения с помощью проверок совместимости, которые управляют развитием схемы.

Строго однократная обработка

С помощью Apache Flink в Kinesis Data Analytics можно создавать приложения, в которых обработанные записи влияют на результаты только один раз. Это называется строго однократной обработкой. Даже в случае нарушения в работе приложения (например, внутреннего технического обслуживания или инициированного пользователем обновления приложения) сервис обеспечит обработку всех данных и отсутствие дубликатов.

Обработка с фиксацией состояния

Сервис сохраняет предыдущие и текущие вычисления, или состояние, в хранилище запущенного приложения. Сравнивайте текущие и прошлые результаты за любой период времени, а также быстро восстанавливайте их после нарушений в работе приложения. Состояние всегда шифруется и поэтапно сохраняется в хранилище запущенного приложения.

Надежные резервные копии приложений

Вы можете создавать и удалять надежные резервные копии приложений с помощью простого вызова API. Мгновенно восстанавливайте приложения из последней резервной копии после нарушения или возвращайтесь к его более ранней версии. 

Студия Amazon Kinesis Data Analytics

Проверка и визуализация потока

Kinesis Data Analytics Studio поддерживает запросы в пределах одной секунды со встроенными визуализациями. Вы можете осуществлять спонтанные запросы для быстрой проверки потока данных и просматривать результаты за считанные секунды.

Простая среда создания и запуска

Блокноты Studio обеспечивают единый интерфейс процесса разработки для осуществления разработки, отладки кода и запуска приложений потоковой обработки.

Процесс с использованием SQL, Python или Scala

Kinesis Data Analytics Studio поддерживает SQL, Python и Scala в одной среде разработки. Выделение синтаксиса, проверка и контекстно-зависимые предложения помогут вам взаимодействовать с данными при помощи встроенной поддержки специальных возможностей Apache Flink прямо в рамках блокнота.

Быстрая бессерверная разработка приложений потоковой обработки

Распределять, управлять и масштабировать какие‑либо серверы не требуется. Просто пишите код и платите за ресурсы, которые используют ваши приложения. С легкостью развертывайте код в блокноте, чтобы приложение обработки потока было запущено непрерывно, с автоматическим масштабированием и надежным состоянием.

Инструменты с открытым исходным кодом

Kinesis Data Analytics Studio работает и создает на базе Apache Flink приложения, используемые в производстве, а блокноты Apache Zeppelin обеспечивают знакомый и простой опыт создания потоковой передачи приложений на выбранном языке.

Интеграция с каталогом данным AWS Glue

Каталог данных AWS Glue – это постоянное хранилище метаданных, которое служит центральным репозиторием определений таблиц. Каталог данных AWS Glue можно использовать для быстрого обнаружения данных и поиска по различным наборам данных AWS. Kinesis Data Analytics Studio обладает совместимостью с каталогом данных AWS Glue, в котором можно определить схему исходных и целевых таблиц.

Приложения Kinesis Data Analytics SQL

Для новых проектов рекомендуется использовать обновленную студию Kinesis Data Analytics вместо Kinesis Data Analytics для приложений SQL. Сервис Kinesis Data Analytics Studio сочетает простоту использования и широкие аналитические возможности, позволяя создавать сложные приложения для обработки потоков за считанные минуты.

Поддержка стандартного SQL

Kinesis Data Analytics поддерживает язык SQL стандарта ANSI, поэтому для работы не понадобится никаких дополнительных знаний.

Интеграция с сервисами входящих и исходящих данных

Kinesis Data Analytics интегрирован с сервисами Amazon Kinesis Data Streams и Amazon Kinesis Data Firehose, что обеспечивает простой сбор потоковых данных. Укажите сервису Kinesis Data Analytics входящий поток данных, и он автоматически прочитает и проанализирует данные, а также сделает их доступными для обработки. Результаты обработки посредством сервиса Kinesis Data Firehose можно отправлять в другие сервисы AWS, например Amazon S3, Amazon Redshift или Amazon OpenSearch Service. Можно также отправлять исходящие данные в Amazon Kinesis Data Streams для создания конвейеров обработки данных с расширенными возможностями.

Консольный редактор SQL

Используйте консольный редактор для составления запросов SQL, использующих операции с потоковыми данными, такие как алгоритм определения средних значений в скользящем временном окне. Можно также в режиме реального времени просматривать результаты обработки потоковых данных и возникшие ошибки для интерактивной отладки или дальнейшей настройки скриптов.

Простой редактор схем

В Kinesis Data Analytics имеется простой редактор схем для выявления и редактирования структуры входящих данных. Мастер автоматически распознает стандартные форматы данных, например JSON и CSV. Он определяет структуру входных данных для создания базовой схемы, которую можно уточнять с помощью редактора схем.

Готовые шаблоны SQL

Интерактивный редактор SQL сопровождается набором шаблонов SQL, содержащих базовый код SQL для самых распространенных операций, таких как агрегация, преобразование с учетом событий и фильтрация. Достаточно выбрать шаблон, подходящий для конкретного аналитического задания, и адаптировать полученный код к конкретному примеру использования с помощью редактора SQL.

Расширенные возможности потоковой обработки

В Kinesis Data Analytics есть функции, оптимизированные для потоковой обработки. С их помощью удобно выполнять с потоковыми данными сложные аналитические задачи, например обнаружение аномалий или анализ top-K.

Начать работу с Amazon Kinesis Data Analytics

Посетить страницу цен на Kinesis Data Analytics
Расчет стоимости

Посетите страницу цен на Amazon Kinesis Data Analytics.

Ознакомиться с руководством по началу работы
Ознакомиться с руководством по началу работы

Из этого пошагового руководства вы узнаете, как использовать Amazon Kinesis Data Analytics для работы с SQL и Apache Flink.

Начать разработку в консоли
Начать разработку приложений потоковой передачи в консоли

Создайте свое приложение потоковой передачи в консоли Amazon Kinesis Data Analytics.