Обработка потоков — Управляемый сервис Amazon для функций Apache Flink

Управляемый сервис Amazon для Apache Flink упрощает создание и запуск приложений потоковой обработки в реальном времени с помощью Apache Flink. Управляемый сервис Amazon для Apache Flink распределяет и настраивает кластеры Flink, а также управляет заданиями Flink. С его помощью выполняется настройка наблюдения и аварийных сигналов, обеспечивается автомасштабирование. Он спроектирован для высокой доступности (включая отказоустойчивость зоны доступности). Сервис предоставляет доступ к экспрессивным интерфейсам API для Apache Flink, а с помощью Управляемого сервиса Amazon для Студии Apache Flink можно интерактивно запрашивать потоки данных или запускать приложения с фиксацией состояния всего за несколько шагов. С помощью этого управляемого сервиса можно начать работу с Apache Flink и быстро развертывать приложения для обработки потоков данных и управлять ими.

Управляемый сервис Amazon для Apache Flink предоставляет доступ ко всему спектру ведущих в отрасли возможностей Apache Flink, включая обработку данных с низкой задержкой и высокой пропускной способностью, строго однократную обработку и надежное состояние приложения. С помощью Управляемого сервиса Amazon для Apache Flink можно развертывать безопасные, совместимые приложения с высокой доступностью. Управляемый сервис Amazon для Apache Flink легко реплицирует данные и рабочие нагрузки в нескольких зонах доступности, обеспечивая бесперебойную производительность и надежность без необходимости платить за дополнительное пространство.

Управляемый сервис Amazon для Apache Flink упрощает разработку приложений, поскольку сервис поддерживает гибкие интерфейсы API для Flink на языках Java, Scala, Python и SQL. Управляемый сервис Amazon для Apache Flink интегрируется с сотнями источников и целевых расположений данных, таких как Управляемая потоковая передача Amazon для Apache Kafka (Amazon MSK), Потоки данных Amazon Kinesis, Данные Amazon Kinesis Firehose, Простой сервис хранения данных Amazon (Amazon S3), Amazon DynamoDB, соединители JDBC и специальные соединители.

Приложения потоковой обработки с использованием Apache Flink

Инструменты с открытым исходным кодом

Управляемый сервис Amazon для Apache Flink включает библиотеки с открытым исходным кодом, такие как Apache Flink, Apache Beam, Apache Zeppelin, AWS SDK и средства интеграции с сервисами AWS. Apache Flink — это платформа и ядро, предназначенные для создания высокодоступных и точных приложений потоковой передачи. Apache Beam – это унифицированная модель для определения приложений потоковой и пакетной обработки данных, работающих на нескольких механизмах времени выполнения. Пакеты SDK AWS помогают упростить написание кода для множества сервисов AWS, предоставляя доступ к интерфейсам API на любых языках программирования, а также включают библиотеки AWS, образцы кода и документацию.

Гибкие интерфейсы API

Управляемый сервис Amazon для Apache Flink поддерживает гибкие интерфейсы API для Flink на языках Java, Scala, Python и SQL, которые рассчитаны на различные примеры использования, включая обработку событий с фиксацией состояния, ETL-операции (извлечение, преобразование и загрузку) с потоковыми данными и аналитику в реальном времени. Благодаря встроенным операторам и аналитическим возможностям можно создать потоковое приложение Apache Flink за несколько часов, а не за месяцы, а благодаря расширяемым библиотекам можно выполнять обработку в реальном времени для разных случаев использования.

Возможности интеграции сервисов AWS

Можно настроить и интегрировать источник или целевое расположение данных, используя минимальное количество символов кода. Используйте библиотеки Управляемого сервиса Amazon для Apache Flink для интеграции со следующими сервисами AWS:

Расширенные возможности интеграции

Помимо возможностей интеграции с AWS, библиотеки Управляемого сервиса Amazon для Apache Flink включают более сорока соединителей от Apache Flink и возможность создания собственных средств интеграции. Добавив несколько строк кода, вы можете изменить поведение каждого средства интеграции с помощью расширенных функциональных возможностей. Вы также можете создавать собственные средства интеграции с помощью набора базовых типов Apache Flink, чтобы считывать и записывать данные в файлах, каталогах, сокетах или других источниках, доступных через Интернет.

Строго однократная обработка

С помощью Управляемого сервиса Amazon для Apache Flink можно создавать приложения, в которых обработанные записи влияют на результаты только один раз. Это называется строго однократной обработкой. Даже в случае нарушения в работе приложения (например, внутреннего технического обслуживания или инициированного пользователем обновления приложения) сервис обеспечивает обработку всех данных и отсутствие дубликатов.

Обработка с фиксацией состояния

Сервис сохраняет предыдущие и текущие вычисления или состояние в хранилище запущенного приложения. Сравнивайте текущие и прошлые результаты за любой период времени, а также быстро восстанавливайте их после нарушений в работе приложения. Состояние всегда шифруется и поэтапно сохраняется в хранилище запущенного приложения.

Надежные резервные копии приложений

Создавайте и удаляйте надежные резервные копии приложений с помощью простого вызова API. Мгновенно восстанавливайте приложения из последней резервной копии после нарушения или возвращайтесь к его более ранней версии.

Интеграция машинного обучения

Управляемый сервис Amazon для Apache Flink поддерживает алгоритмы машинного обучения (ML). Можно создавать приложения в реальном времени для классификации, кластеризации, оценки, рекомендаций по конструированию признаков, регрессий и статистики.

Совместимость с реестром схем AWS Glue

Управляемый сервис Amazon для Apache Flink обладает совместимостью с реестром схем AWS Glue. Реестр схем помогает повысить качество данных и защититься от непредвиденных изменений с помощью проверок совместимости, которые контролируют развитие схем в Управляемом сервисе Amazon для рабочих нагрузок Apache Flink, подключенных к Apache Kafka, Управляемой потоковой передачи Amazon для Apache Kafka (Amazon MSK) или Потокам данных Amazon Kinesis в качестве источника или приемника.

Студия аналитики данных Amazon Kinesis

Проверка и визуализация потока

Kinesis Data Analytics Studio поддерживает запросы в пределах одной секунды со встроенными визуализациями. Вы можете осуществлять спонтанные запросы для быстрой проверки потока данных и просматривать результаты за считанные секунды.

Простая среда создания и запуска

Блокноты Studio обеспечивают единый интерфейс процесса разработки для осуществления разработки, отладки кода и запуска приложений потоковой обработки.

Процесс с использованием SQL, Python или Scala

Kinesis Data Analytics Studio поддерживает SQL, Python и Scala в одной среде разработки. Выделение синтаксиса, проверка и контекстно-зависимые предложения помогут вам взаимодействовать с данными при помощи встроенной поддержки специальных возможностей Apache Flink прямо в рамках блокнота.

Быстрая бессерверная разработка приложений потоковой обработки

Распределять, управлять и масштабировать какие‑либо серверы не требуется. Просто пишите код и платите за ресурсы, которые используют ваши приложения. С легкостью развертывайте код в блокноте, чтобы приложение обработки потока было запущено непрерывно, с автоматическим масштабированием и надежным состоянием.

Инструменты с открытым исходным кодом

Kinesis Data Analytics Studio работает и создает на базе Apache Flink приложения, используемые в производстве, а блокноты Apache Zeppelin обеспечивают знакомый и простой опыт создания потоковой передачи приложений на выбранном языке.

Интеграция с каталогом данным AWS Glue

Каталог данных AWS Glue – это постоянное хранилище метаданных, которое служит центральным репозиторием определений таблиц. Каталог данных AWS Glue можно использовать для быстрого обнаружения данных и поиска по различным наборам данных AWS. Kinesis Data Analytics Studio обладает совместимостью с каталогом данных AWS Glue, в котором можно определить схему исходных и целевых таблиц.

Начать работу с аналитикой данных Amazon Kinesis

Расчет стоимости

Посетите страницу цен Аналитики данных Amazon Kinesis.

Ознакомиться с руководством по началу работы

Из этого пошагового руководства вы узнаете, как использовать Amazon Kinesis Data Analytics для работы с SQL и Apache Flink.

Начать разработку приложений потоковой передачи в консоли

Создайте свое приложение потоковой передачи в консоли Аналитики данных Amazon Kinesis.

Управляемый сервис Amazon для функций Apache Flink

Приложения потоковой обработки с использованием Apache Flink

Инструменты с открытым исходным кодом

Гибкие интерфейсы API

Возможности интеграции сервисов AWS

Расширенные возможности интеграции

Строго однократная обработка

Обработка с фиксацией состояния

Надежные резервные копии приложений

Интеграция машинного обучения

Совместимость с реестром схем AWS Glue

Студия аналитики данных Amazon Kinesis

Проверка и визуализация потока

Простая среда создания и запуска

Процесс с использованием SQL, Python или Scala

Быстрая бессерверная разработка приложений потоковой обработки

Инструменты с открытым исходным кодом

Интеграция с каталогом данным AWS Glue

Начать работу с аналитикой данных Amazon Kinesis

Прекращение поддержки Internet Explorer