Данные Amazon Firehose – это решение, которое предоставляет простейший способ загрузки потоковых данных в хранилища и инструменты аналитики. Данные Amazon Firehose – это полностью управляемый сервис, который легко обеспечивает сбор больших объемов потоковых данных из сотен тысяч источников, их преобразование и отправку в Amazon S3, Amazon Redshift, Сервис Amazon OpenSearch, Snowflake, таблицы Apache Iceberg, традиционные адреса HTTP и сервисы других поставщиков (например, Datadog, New Relic, MongoDB или Splunk), что позволяет выполнять анализ данных и получать полезные результаты в режиме реального времени.
Потоки Firehose
Поток Firehose является основной сущностью сервиса Firehose. Сервис Firehose используется для создания потока Firehose и отправки в него данных.
Основные функции
Простой запуск и настройка
Чтобы запустить Данные Amazon Firehose и создать поток доставки для загрузки данных в Amazon S3, Amazon Redshift, сервис Amazon OpenSearch, Snowflake, таблицы Apache Iceberg на адрес HTTP или в сервисы Datadog, New Relic, MongoDB или Splunk, достаточно нескольких щелчков мышью в Консоли управления AWS. Данные можно отправлять в поток доставки путем вызова API Firehose или через агент Linux, который мы предоставляем для источника данных. После этого Kinesis Data Firehose будет непрерывно загружать данные в указанные места назначения.
Эластичное масштабирование для обработки поступления данных с переменной пропускной способностью
После запуска потоки Firehose будут автоматически вертикально масштабироваться, чтобы обрабатывать входные потоки данных со скоростью несколько гигабайтов в секунду и более, а также поддерживать задержку данных на том уровне, который настроен для потока, с учетом предельных значений. При этом не требуется какое‑либо вмешательство или обслуживание.
Загрузка новых данных за считаные секунды
Можно указать размер пакета или интервал отправки, чтобы управлять скоростью передачи данных в конечные точки. Например, можно задать интервал пакетной обработки в диапазоне от нуля секунд до 15 минут. Кроме того, можно указать, требуется ли сжимать данные. Сервис поддерживает распространенные алгоритмы сжатия: GZip, Snappy, совместимый с Hadoop, Zip и Snappy. Формирование пакетов и сжатие данных перед загрузкой позволяет контролировать скорость получения новых данных в целевых объектах.
Поддержка нескольких источников данных
Firehose легко считывает данные из более чем 20 источников данных, включая Amazon MSK и бессерверные кластеры MSK, Потоки данных Amazon Kinesis, Журналы Amazon CloudWatch, Amazon SNS, AWS IoT Core и другие.
Преобразование в форматы Apache Parquet и ORC
Firehose поддерживает оптимизацию столбцовых форматов данных, например Apache Parquet и Apache ORC, для экономичного хранения и анализа с использованием таких сервисов, как Amazon Athena, Amazon Redshift Spectrum, Amazon EMR и другие инструменты на основе Hadoop. Перед сохранением в Amazon S3 сервис Firehose может конвертировать формат входящих данных из JSON в Parquet или ORC, чтобы снизить стоимость хранения и анализа.
Доставка разделенных данных в S3
Вы можете динамически разделять данные потоковой передачи перед их доставкой в S3 с помощью статически или динамически определенных ключей, например «customer_id» или «transaction_id». Firehose группирует данные по этим ключам и доставляет их в уникальные префиксы S3, что упрощает выполнение высокопроизводительного и экономичного анализа в S3 с помощью Athena, EMR и Redshift Spectrum. Подробнее »
Интегрированное преобразование данных
Сервис Данные Amazon Firehose можно настроить на подготовку потоковых данных перед их загрузкой в хранилища данных. Просто выберите функцию AWS Lambda на вкладке конфигурации потока сервиса Данные Amazon Firehose в Консоли управления AWS. Сервис Данные Amazon Firehose будет автоматически применять эту функцию ко всем записям входных данных и загружать преобразованные в конечные точки. Также сервис предлагает встроенные чертежи Lambda для преобразования данных из стандартных источников, таких как журналы Apache или системные журналы, в форматы JSON и CSV. Эти встроенные чертежи можно использовать без изменений или с дополнительными настройками; можно также создать собственные функции. В сервисе Данные Amazon Firehose можно настроить автоматический повторный запуск заданий, завершившихся ошибками, и резервное копирование необработанных потоковых данных. Подробнее »
Поддержка нескольких целевых объектов
Firehose легко считывает данные из более чем 20 источников данных, включая Amazon MSK и бессерверные кластеры MSK, Потоки данных Amazon Kinesis, Журналы Amazon CloudWatch, Amazon SNS, AWS IoT Core и другие. В настоящее время в качестве мест назначения сервис «Данные Amazon Firehose» поддерживает Amazon S3, Amazon Redshift, Сервис Amazon OpenSearch, Snowflake, таблицы Apache Iceberg, адреса HTTP, Datadog, New Relic, MongoDB и Splunk. Сервис позволяет указать для отправки данных целевую корзину Amazon S3, таблицу Amazon Redshift, домен Сервиса Amazon OpenSearch, адрес HTTP или поставщика сервиса.
Дополнительное автоматическое шифрование
Сервис Данные Amazon Firehose предоставляет возможность автоматического шифрования данных после их загрузки в конечную точку. В качестве одной из настроек потоков Firehose можно указать ключ шифрования Сервиса управления ключами AWS (AWS KMS).
Метрики для мониторинга производительности
Сервис Данные Amazon Firehose предоставляет доступ к нескольким метрикам с помощью консоли, а также в сервисе Amazon CloudWatch. Эти метрики включают информацию об объеме полученных данных, объеме данных, отправленных в целевые объекты, времени прохождения данных от источника к конечной точки, предельных значений для потока Firehose, количестве пропущенных записей, а также коэффициент успешной загрузки.
Оплата по факту использования
При использовании сервиса Данные Amazon Firehose оплате подлежит только объем данных, передаваемых через сервис, и преобразование формата данных, если таковое используется. Кроме того, при необходимости оплачивается доставка и передача данных через Amazon VPC. Минимальные платежи и авансовые обязательства отсутствуют. Вам не нужен персонал, который бы следил за работой, осуществлял масштабирование и поддерживал инфраструктуру, или настраиваемые приложения для захвата и потоковой загрузки данных.
Подробнее о ценах на сервис Данные Amazon Firehose