Функции сервиса Данные Amazon Firehose

Почему следует применять сервис «Данные Amazon Firehose»?

Данные Amazon Firehose – это решение, которое предоставляет простейший способ загрузки потоковых данных в хранилища и инструменты аналитики. Данные Firehose – это полностью управляемый сервис, благодаря которому обеспечивается простой сбор, преобразование и загрузка больших объемов потоковых данных из сотен тысяч источников в Amazon S3, Amazon Redshift, Сервисе Amazon OpenSearch, Snowflake, таблицах Apache Iceberg и Amazon S3 (с функцией предварительного просмотра) со стандартных адресов HTTP и из различных сервисов (например, Datadog, New Relic, MongoDB или Splunk), позволяя выполнять их анализ и получать ценные результаты в режиме реального времени.

Потоки Firehose

Поток Firehose является основной сущностью сервиса Firehose. Сервис Firehose используется для создания потока Firehose и отправки в него данных.

Основные возможности

Чтобы запустить сервис «Данные Amazon Firehose» и создать поток доставки для загрузки данных в Amazon S3, Amazon Redshift, Сервис Amazon OpenSearch, Snowflake, таблицы Apache Iceberg и Amazon S3 (с функцией предварительного просмотра) на адрес HTTP или в сервисы Datadog, New Relic, MongoDB или Splunk, достаточно нескольких щелчков мышью в Консоли управления AWS. Данные можно отправлять в поток доставки путем вызова API Firehose или через агент Linux, который мы предоставляем для источника данных. После этого Kinesis Data Firehose будет непрерывно загружать данные в указанные места назначения.

После запуска потоки Firehose будут автоматически вертикально масштабироваться, чтобы обрабатывать входные потоки данных со скоростью несколько гигабайтов в секунду и более, а также поддерживать задержку данных на том уровне, который настроен для потока, с учетом предельных значений. При этом не требуется какое-либо вмешательство или обслуживание.

Можно указать размер пакета или интервал отправки, чтобы управлять скоростью передачи данных в конечные точки. Например, можно задать интервал пакетной обработки в диапазоне от нуля секунд до 15 минут. Кроме того, можно указать, требуется ли сжимать данные. Сервис поддерживает распространенные алгоритмы сжатия: GZip, Snappy, совместимый с Hadoop, Zip и Snappy. Формирование пакетов и сжатие данных перед загрузкой позволяет контролировать скорость получения новых данных в местах их приема.

С помощью сервиса Firehose можно легко считывать данные из более чем 20 источников, включая Amazon MSK и бессерверные кластеры MSK, Потоки данных Amazon Kinesis, базы данных (ознакомительная версия), Журналы Amazon CloudWatch, Amazon SNS, AWS IoT Core и другие.

Firehose поддерживает оптимизацию столбцовых форматов данных, например Apache Parquet и Apache ORC, для экономичного хранения и анализа с использованием таких сервисов, как Amazon Athena, Amazon Redshift Spectrum, Amazon EMR и другие инструменты на основе Hadoop. Перед сохранением в Amazon S3 сервис Firehose может конвертировать формат входящих данных из JSON в Parquet или ORC, чтобы снизить стоимость хранения и анализа.

Вы можете динамически разделять данные потоковой передачи перед их доставкой в S3 с помощью статически или динамически определенных ключей, например «customer_id» или «transaction_id».  Благодаря сервису Firehose можно распределять данные на группы по этим ключам и доставлять их в уникальные префиксы S3, что упрощает выполнение высокопроизводительной и эффективной аналитики в S3 с помощью Athena, EMR и Redshift Spectrum. Подробнее

Сервис Данные Amazon Firehose можно настроить на подготовку потоковых данных перед их загрузкой в хранилища данных. Просто выберите функцию AWS Lambda на вкладке конфигурации потока сервиса Данные Amazon Firehose в Консоли управления AWS. Сервис Данные Amazon Firehose будет автоматически применять эту функцию ко всем записям входных данных и загружать преобразованные в конечные точки. Также сервис предлагает встроенные чертежи Lambda для преобразования данных из стандартных источников, таких как журналы Apache или системные журналы, в форматы JSON и CSV. Эти встроенные чертежи можно использовать без изменений или с дополнительными настройками; можно также создать собственные функции. В сервисе Данные Amazon Firehose можно настроить автоматический повторный запуск заданий, завершившихся ошибками, и резервное копирование необработанных потоковых данных. Подробнее

Благодаря Firehose можно легко считывать данные из более чем 20 источников данных, включая Amazon MSK и бессерверные кластеры MSK, Потоки данных Amazon Kinesis, Журналы Amazon CloudWatch, Amazon SNS, AWS IoT Core и другие. В настоящее время в качестве мест назначения сервис «Данные Amazon Firehose» поддерживает Amazon S3, Amazon Redshift, Сервис Amazon OpenSearch, Snowflake, таблицы Apache Iceberg и Amazon S3 (с функцией предварительного просмотра), адреса HTTP, Datadog, New Relic, MongoDB и Splunk. С помощью сервиса можно указать для отправки данных целевую корзину Amazon S3, таблицу Amazon Redshift, домен Сервиса Amazon OpenSearch, адрес HTTP или поставщика сервиса.

Сервис Данные Amazon Firehose предоставляет возможность автоматического шифрования данных после их загрузки в конечную точку. В качестве одной из настроек потоков Firehose можно указать ключ шифрования Сервиса управления ключами AWS (AWS KMS).

Сервис Данные Amazon Firehose предоставляет доступ к нескольким метрикам с помощью консоли, а также в сервисе Amazon CloudWatch. Эти метрики включают информацию об объеме полученных данных, объеме данных, отправленных в целевые объекты, времени прохождения данных от источника к конечной точки, предельных значений для потока Firehose, количестве пропущенных записей, а также коэффициент успешной загрузки.

При использовании сервиса Данные Amazon Firehose оплате подлежит только объем данных, передаваемых через сервис, и преобразование формата данных, если таковое используется. Кроме того, при необходимости оплачивается доставка и передача данных через Amazon VPC. Минимальные платежи и авансовые обязательства отсутствуют. Вам не нужен персонал, который бы следил за работой, осуществлял масштабирование и поддерживал инфраструктуру, или настраиваемые приложения для захвата и потоковой загрузки данных.