Данные Amazon Kinesis Firehose – это решение, которое предоставляет простейший способ загрузки потоковых данных в хранилища и инструменты аналитики. Данные Kinesis Firehose – это полностью управляемый сервис, который обеспечивает простой захват, преобразование и загрузку больших объемов потоковых данных из сотен тысяч источников в Amazon S3, Amazon Redshift, сервис Amazon OpenSearch, Управляемый сервис Amazon для Apache Flink, со стандартных адресов HTTP и из различных сервисов (например, Datadog, New Relic, MongoDB или Splunk), позволяя выполнять их анализ и получать ценные результаты в режиме, близком к реальному времени.

Потоки доставки

Поток доставки – это базовая сущность сервиса Kinesis Data Firehose. Для использования Kinesis Data Firehose необходимо создать поток доставки и начать отправлять в него данные.

Основные возможности

Простой запуск и настройка

Чтобы запустить Amazon Kinesis Data Firehose и создать поток доставки для загрузки данных в Amazon S3, Amazon Redshift, Amazon OpenSearch Service, на адрес HTTP или в сервисы Datadog, New Relic, MongoDB или Splunk, достаточно нескольких щелчков мышью в Консоли управления AWS. Отправить данные в поток доставки можно путем вызова API Firehose или запуска агента Linux, предоставляемого сервисом, в источнике данных. После этого Kinesis Data Firehose будет непрерывно загружать данные в указанные места назначения.

Загрузка новых данных в режиме, близком к реальному времени

Можно указать размер пакета или интервал отправки пакета для контроля того, как быстро данные должны передаваться в целевые объекты. Например, можно установить интервал передачи пакета 60 секунд, если вы хотите получать новые данные через 60 секунд после их отправки в поток доставки. Кроме того, можно указать, требуется ли сжимать данные. Сервис поддерживает распространенные алгоритмы сжатия: GZip, Snappy, совместимый с Hadoop, Zip и Snappy. Формирование пакетов и сжатие данных перед загрузкой позволяет контролировать скорость получения новых данных в целевых объектах.

Эластичное масштабирование для обработки поступления данных с переменной скоростью

После запуска потоки доставки будут автоматически масштабироваться в сторону увеличения и уменьшения, чтобы обрабатывать входные потоки данных со скоростью несколько гигабайтов в секунду и более, а также поддерживать задержку данных на том уровне, который настроен для потока, с учетом предельных значений. При этом не требуется какое‑либо вмешательство или обслуживание.

Интеграция с Amazon MSK и сервисом Потоки данных Kinesis

Сервис Данные Kinesis Firehose может легко считывать данные из существующего кластера Amazon MSK или потока данных Kinesis и загружать их в несколько мест назначения.

Преобразование форматов Apache Parquet и ORC

Kinesis Data Firehose поддерживает оптимизацию столбцовых форматов данных, например Apache Parquet и Apache ORC, для экономичного хранения и анализа с использованием таких сервисов, как Amazon Athena, Amazon Redshift Spectrum, Amazon EMR и другие инструменты на основе Hadoop. Перед сохранением в Amazon S3 Kinesis Data Firehose может конвертировать формат входящих данных из JSON в Parquet или ORC, чтобы снизить стоимость хранения и анализа.

Доставка разделенных данных в S3

Вы можете динамически разделять данные потоковой передачи перед их доставкой в S3 с помощью статически или динамически определенных ключей, например «customer_id» или «transaction_id». Kinesis Data Firehose группирует данные по этим ключам и доставляет их в уникальные префиксы S3, что упрощает выполнение высокопроизводительной и экономичной аналитики в S3 с использованием Athena, EMR и Redshift Spectrum. Подробнее »

Интегрированное преобразование данных

Amazon Kinesis Data Firehose можно настроить на подготовку потоковых данных перед их загрузкой в хранилища данных. Просто выберите функцию AWS Lambda на вкладке конфигурации потока доставки Amazon Kinesis Data Firehose в Консоли управления AWS. Amazon Kinesis Data Firehose будет автоматически применять эту функцию ко всем записям входных данных и загружать преобразованные данные в целевые объекты. Amazon Kinesis Data Firehose предлагает встроенные схемы Lambda для преобразования данных из стандартных источников, таких как журналы Apache или системные журналы, в форматы JSON и CSV. Эти встроенные схемы можно использовать без изменений или с дополнительными настройками; можно также создать собственные функции. В Amazon Kinesis Data Firehose можно настроить автоматический повторный запуск заданий, завершившихся ошибками, и резервное копирование необработанных потоковых данных. Подробнее »

Валидация схемы

Сервис Данные Kinesis Firehose поддерживает реестр схем AWS Glue при получении данных из Amazon MSK. При хранении схемы в реестре схем AWS Glue поток доставки сервиса Данные Kinesis Firehose получает ее и десериализует запись с помощью десериализаторов этого реестра.

Реестр схем AWS Glue – это бессерверное предложение AWS Glue, которое дает возможность проверять и эффективно совершенствовать потоковые данные с помощью схем Apache Avro или JSON.

Поддержка множества целевых объектов

Amazon Kinesis Data Firehose в настоящее время поддерживает в качестве целевых объектов Amazon S3, Amazon Redshift, Amazon OpenSearch Service, адреса HTTP, Datadog, New Relic, MongoDB и Splunk. Сервис позволяет указать определенную корзину Amazon S3, таблицу Amazon Redshift, домен Amazon OpenSearch Service, HTTP‑адрес или провайдера сервиса, в который требуется загрузить данные.

Дополнительное автоматическое шифрование

Amazon Kinesis Data Firehose предоставляет возможность автоматического шифрования данных после их загрузки в целевой объект. В качестве одной из настроек потоков доставки можно указать ключ шифрования AWS Key Management System (KMS).

Метрики для мониторинга производительности

Amazon Kinesis Data Firehose предоставляет доступ к нескольким метрикам с помощью консоли, а также в сервисе Amazon CloudWatch. Эти метрики включают информацию об объеме полученных данных, объеме данных, отправленных в целевые объекты, времени прохождения данных от источника к целевому объекту, предельных значений для потока доставки, количестве пропущенных записей, а также коэффициент успешной загрузки. Метрики можно использовать для контроля работоспособности потоков доставки, выполнения любых необходимых действий, таких как изменение получателей, настройки выдачи предупреждений о приближении к предельным значениям и проверки того, что сервис собирает данные и передает их получателям.

Плата по факту использования

При использовании Amazon Kinesis Data Firehose оплате подлежит только объем данных, передаваемых через сервис, и преобразование формата данных, если таковое используется. Кроме того, при необходимости оплачивается доставка и передача данных через Amazon VPC. Минимальные платежи и авансовые обязательства отсутствуют. Вам не нужен персонал, который бы следил за работой, осуществлял масштабирование и поддерживал инфраструктуру, или настраиваемые приложения для захвата и потоковой загрузки данных.

Подробнее о ценах на Amazon Kinesis Data Firehose

Перейти на страницу цен
Готовы начать?
Регистрация
Возникли дополнительные вопросы?
Связаться с нами