Amazon Elasticsearch Service является полностью управляемым сервисом, предоставляющим простые в использовании API для работы в режиме реального времени, а также доступность, масштабируемость и безопасность, требуемые для выполнения рабочих нагрузок. Amazon Elasticsearch Service идеально подходит для анализа журналов, мониторинга приложений, интерактивного поиска и других примеров использования, связанных с анализом данных. Однако сбор, преобразование, привязка и загрузка данных из источников в индекс Elasticsearch может оказаться сложной и трудоемкой задачей. Необходимо преобразовать необработанные данные в формат структурированных данных, такой как JSON или CSV, очистить эти данные и привязать к целевым полям данных. Необходимо также осуществить пакетную обработку и буферизацию данных для эффективной загрузки, что позволит обеспечить мгновенную доступность этих данных для запросов без перегрузки вычислительных и сетевых ресурсов кластера. Чтобы легко выполнить все эти задачи, в зависимости от требований конкретных вариантов использования можно воспользоваться встроенной интеграцией Amazon Elasticsearch Service с Amazon Kinesis Firehose, LogstashAmazon CloudWatch Logs или AWS IoT.


Можно настроить Amazon Kinesis Firehose на подготовку потоковых данных перед их загрузкой в Amazon Elasticsearch Service. Эта возможность позволяет легко преобразовывать необработанные потоковые данные, поступающие из источников данных, в форматы, необходимые индексу Elasticsearch, без необходимости создавать собственные конвейеры обработки данных.

Для использования этой возможности просто выберите функцию AWS Lambda на вкладке конфигурации потока доставки Amazon Kinesis Firehose в Консоли управления AWS. Amazon Kinesis Firehose будет автоматически применять эту функцию ко всем записям входных данных и загружать преобразованные данные в индекс Amazon Elasticsearch.

В Amazon Kinesis Firehose имеются готовые схемы Lambda для преобразования данных из распространенных источников данных, таких как журналы Apache и системные журналы, в форматы JSON и CSV. Эти встроенные схемы можно использовать без каких-либо изменений, можно дополнительно настроить их или создать собственные функции. Можно также настроить Amazon Kinesis Firehose на автоматический повторный запуск заданий, завершившихся ошибками, и резервное копирование необработанных потоковых данных. Подробнее »


Amazon Elasticsearch Service поддерживает интеграцию с Logstash – инструментом обработки данных с открытым исходным кодом, который собирает данные из источников, преобразует их, а затем загружает в Elasticsearch. Можно легко выполнить развертывание Logstash на Amazon EC2 и настроить свой домен Amazon Elasticsearch в качестве серверного хранилища для всех журналов, поступающих через Logstash. Logstash поддерживает библиотеку встроенных фильтров, позволяющую легко выполнять стандартные преобразования, например преобразование неструктурированных данных журнала в структурированные данные посредством сопоставления с образцом; переименование, удаление, замену и изменение полей в записях данных, а также агрегацию метрик. Подробнее »


Сервис Amazon CloudWatch Logs позволяет следить за работой систем и приложений и решать возникающие в них проблемы, используя файлы журналов соответствующих систем и приложений, а также специальные файлы журналов. Можно настроить группу журналов CloudWatch Logs для потоковой передачи данных в домен Amazon Elasticsearch Service в режиме реального времени с помощью подписки CloudWatch Logs. Такая интеграция удобна, если вы уже используете CloudWatch Logs для сбора данных журналов и хотели бы поделиться этими данными с пользователями Amazon Elasticsearch Service. Подробнее »


AWS IoT – это автоматизированная облачная платформа, которая позволяет подключенным устройствам легко и безопасно взаимодействовать с облачными приложениями и другими устройствами. С помощью AWS IoT можно собирать данные с подключенных устройств, таких как бытовые приборы, встроенные датчики или ресиверы цифрового телевидения, и настраивать AWS IoT в Консоли управления AWS для загрузки этих данных непосредственно в Amazon Elasticsearch Service. Это позволяет вам предоставлять своим клиентам доступ к данным и метрикам IoT в режиме, близком к реальному времени. Подробнее »

Выбор правильного механизма сбора данных зависит от требований конкретного примера использования, например от требований к задержке данных и типа данных. Для больших объемов данных рекомендуется использовать полностью управляемый сервис Amazon Kinesis Firehose, автоматически масштабируемый для обеспечения требуемой пропускной способности и не требующий постоянного администрирования. Он также может преобразовывать, сжимать и объединять данные в пакеты перед их загрузкой в домен Amazon Elasticsearch Service. Часто при выборе решения ориентируются на сервисы, которые уже используются. Например, если вы уже собираете журналы приложений с помощью Amazon CloudWatch Logs, можно просто загрузить эти данные в свой домен Amazon Elasticsearch Service без дополнительных усилий.

Начните работу с уровня бесплатного пользования, который включает 750 часов работы инстанса t2.micro.elasticsearch или t2.small.easticsearch в одной зоне доступности в месяц и 10 ГБ в месяц дополнительного хранилища Amazon EBS.

Бесплатный начальный доступ