亚马逊AWS官方博客
介绍 Open Distro for Elasticsearch 中的实时异常检测
金融、医疗、信息技术、零售和物联网 (IoT) 等众多行业中的实时流应用程序大量增加。组织依靠日志分析解决方案来检测数据中的异常和识别紧急情况。示例包括查找金融交易中的欺诈行为、发现访问专有资源的可疑 IP 地址或者识别在交易过程中导致延迟的系统。许多传统的分析工具依靠预先配置的统计阈值来识别异常。但是,这些工具并不是很适合于流应用程序,因为这些应用程序通常展现出的是动态模式,需要异常检测程序持续处理不断变化的数据并实时输出决策。
开放源异常检测和随机森林砍伐
今天,我们很高兴地宣布推出基于机器学习的 Open Distro for Elasticsearch 异常检测插件预览版。异常检测功能的开发是 Amazon Elasticsearch Service 与 AWS 机器学习团队携手合作的结果。除了作为 Open Distro for Elasticsearch 一部分的开放源异常检测外,我们还开放了基础随机森林砍伐 (RCF) 库的源,以获得更好的数据科学社区优势。RCF 专注于流使用案例,并且已在生产使用中得到证明。访问这些库可以了解如何做出异常决策,并且使我们的用户和数据科学社区能够利用、协作和为 RCF 做贡献。
Open Distro for Elasticsearch 异常检测旨在为所有开发人员和操作人员提供价值,不论其机器学习经验如何。在 Kibana 中,可视化可以为哪些数据点导致异常以及事件为何被视为异常提供上下文,并使用户能够深入了解异常背后的特定日志数据。该插件还与 Open Distro for Elasticsearch 警报相集成,以便以在探测器识别出异常时触发通知。
Elasticsearch 用于以分布式方式检索大量数据,因此,我们认为,将异常检测功能设计为轻量级且对集群资源中的更改具有高度反应性,同时最小化对应用程序工作负载的影响,非常重要。我们实现了这一目标,方法是通过分发 Elasticsearch 节点中的异常模型计算,使系统性能能够随集群扩展,所有这一切均无需专用机器学习节点。
Open Distro for Elasticsearch 异常检测利用随机森林砍伐 (RCF),它是一种经过多年学术研究后构建的著名算法,已被 AWS 用于多个服务产品。RCF 是一种非监督式算法,用于检测数据集中的异常数据点。尽管许多算法支持基于批处理的技术,可以在基于时间的窗口内定期分析数据,但 RCF 可检测实时数据中的异常,并且有助于识别实时问题。RCF 通过为基于新近性的数据示例构建多个决策树来发挥作用。它可以在每次添加新输入时以增量方式更新示例和数,而不必从头开始重新构建数。这使得该算法适用于不断发展的分发点。RCF 存储行为的各个部分,也称为碎片,并检查是否与先前模式背离,如背离,则将其标记为异常,无需对应用程序进行预先假设。能够检测实时流数据中的异常并且与域无关,使得 RCF 成为一种适合于各种日志分析应用程序的出色算法。
如需深入了解 Open Distro for Elasticsearch 异常检测系统的设计以及 RCF 库,请参阅 Open Distro for Elasticsearch 中的实时异常检测和随机森林砍伐。
加入社区,为项目做贡献
Open Distro for Elasticsearch 仍专注于通过增值功能驱动创新,以确保我们的社区拥有完全开发源的选项。随着我们的机器学习和工程团队在此领域的不断探索和进步,我们邀请您与我们积极互动,分享您的使用案例并在此创新中与我们协作。