Перейти к главному контенту

Функции сервиса Данные Amazon Firehose

Почему следует применять сервис «Данные Amazon Firehose»?

Данные Amazon Firehose – это решение, которое предоставляет простейший способ загрузки потоковых данных в хранилища и инструменты аналитики. Data Firehose — это полностью управляемый сервис, который позволяет легко собирать, преобразовывать и загружать огромные объемы потоковых данных из сотен тысяч источников в Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, таблицы Apache Iceberg, таблицы Amazon S3, универсальные конечные точки HTTP и таких поставщиков услуг, как Datadog, New Relic, MongoDB и Splunk, обеспечивая аналитику и аналитику в реальном времени.

Потоки Firehose

Открыть все

Поток Firehose является основной сущностью сервиса Firehose. Сервис Firehose используется для создания потока Firehose и отправки в него данных.

Основные функции

Открыть все

Вы можете запустить Amazon Data Firehose и создать поток доставки для загрузки данных в Amazon S3, Amazon Redshift, Amazon OpenSearch Service, таблицы Snowflake, Apache Iceberg, таблицы Amazon S3, конечные точки HTTP, Datadog, New Relic, MongoDB или Splunk всего несколькими щелчками мыши в Консоли управления AWS. Данные можно отправлять в поток доставки путем вызова API Firehose или через агент Linux, который мы предоставляем для источника данных. После этого Kinesis Data Firehose будет непрерывно загружать данные в указанные места назначения.

После запуска потоки Firehose будут автоматически вертикально масштабироваться, чтобы обрабатывать входные потоки данных со скоростью несколько гигабайтов в секунду и более, а также поддерживать задержку данных на том уровне, который настроен для потока, с учетом предельных значений. При этом не требуется какое‑либо вмешательство или обслуживание.

Можно указать размер пакета или интервал отправки, чтобы управлять скоростью передачи данных в конечные точки. Например, можно задать интервал пакетной обработки в диапазоне от нуля секунд до 15 минут. Кроме того, можно указать, требуется ли сжимать данные. Сервис поддерживает распространенные алгоритмы сжатия: GZip, Snappy, совместимый с Hadoop, Zip и Snappy. Формирование пакетов и сжатие данных перед загрузкой позволяет контролировать скорость получения новых данных в целевых объектах.

Firehose поддерживает оптимизацию столбцовых форматов данных, например Apache Parquet и Apache ORC, для экономичного хранения и анализа с использованием таких сервисов, как Amazon Athena, Amazon Redshift Spectrum, Amazon EMR и другие инструменты на основе Hadoop. Перед сохранением в Amazon S3 сервис Firehose может конвертировать формат входящих данных из JSON в Parquet или ORC, чтобы снизить стоимость хранения и анализа.

Вы можете динамически разделять данные потоковой передачи перед их доставкой в S3 с помощью статически или динамически определенных ключей, например «customer_id» или «transaction_id».  Firehose группирует данные по этим ключам и доставляет их в уникальные префиксы S3, что упрощает выполнение высокопроизводительного и экономичного анализа в S3 с помощью Athena, EMR и Redshift Spectrum. Узнайте больше

Сервис Данные Amazon Firehose можно настроить на подготовку потоковых данных перед их загрузкой в хранилища данных. Просто выберите функцию AWS Lambda на вкладке конфигурации потока сервиса Данные Amazon Firehose в Консоли управления AWS. Сервис Данные Amazon Firehose будет автоматически применять эту функцию ко всем записям входных данных и загружать преобразованные в конечные точки. Также сервис предлагает встроенные чертежи Lambda для преобразования данных из стандартных источников, таких как журналы Apache или системные журналы, в форматы JSON и CSV. Эти встроенные чертежи можно использовать без изменений или с дополнительными настройками; можно также создать собственные функции. В сервисе Данные Amazon Firehose можно настроить автоматический повторный запуск заданий, завершившихся ошибками, и резервное копирование необработанных потоковых данных.  Узнайте больше

Firehose легко считывает данные из более чем 20 источников данных, включая бессерверные кластеры Amazon MSK и MSK, потоки данных Amazon Kinesis, журналы Amazon CloudWatch, Amazon SNS, AWS IoT Core и многое другое. В настоящее время Amazon Data Firehose поддерживает Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, таблицы Apache Iceberg, таблицы Amazon S3, конечные точки HTTP, Datadog, New Relic, MongoDB и Splunk в качестве пунктов назначения. С помощью сервиса можно указать для отправки данных целевую корзину Amazon S3, таблицу Amazon Redshift, домен Сервиса Amazon OpenSearch, адрес HTTP или поставщика сервиса.

Сервис Данные Amazon Firehose предоставляет возможность автоматического шифрования данных после их загрузки в конечную точку. В качестве одной из настроек потоков Firehose можно указать ключ шифрования Сервиса управления ключами AWS (AWS KMS).

Сервис Данные Amazon Firehose предоставляет доступ к нескольким метрикам с помощью консоли, а также в сервисе Amazon CloudWatch. Эти метрики включают информацию об объеме полученных данных, объеме данных, отправленных в целевые объекты, времени прохождения данных от источника к конечной точки, предельных значений для потока Firehose, количестве пропущенных записей, а также коэффициент успешной загрузки.

При использовании сервиса Данные Amazon Firehose оплате подлежит только объем данных, передаваемых через сервис, и преобразование формата данных, если таковое используется. Кроме того, при необходимости оплачивается доставка и передача данных через Amazon VPC. Минимальные платежи и авансовые обязательства отсутствуют. Вам не нужен персонал, который бы следил за работой, осуществлял масштабирование и поддерживал инфраструктуру, или настраиваемые приложения для захвата и потоковой загрузки данных.