Amazon OpenSearch Service 功能
为什么选择 OpenSearch Service?
Amazon OpenSearch Service 是一项完全托管式服务,可以简化搜索、可观测性和日志分析应用程序的部署和操作,以使客户能够专注于从数据中获得洞察,而不是管理底层基础设施。这项服务提供了灵活的存储选项、一个用于丰富词汇和向量搜索的向量引擎、高性能索引功能以及支持多种数据驱动型应用场景的强大安全功能。除了这些核心功能以外,Amazon OpenSearch Service 还提供了无缝升级和补丁,使客户能够在不中断的情况下及时更新。这项服务还支持在不停机的情况下更改基础设施以优化成本,并提供了具有自动扩缩功能的无服务器部署选项,可根据需要动态调整资源。此外,Amazon OpenSearch Service 还具有全天候监控、自我修复功能和高达 99.99% 的服务水平协议,可实现具有高可用性和待机功能的多可用区部署。这项服务与其他 AWS 产品集成,包括与 Amazon S3、Amazon DynamoDB 和 Amazon DocumentDB 进行零 ETL 集成,以建立一个具有凝聚力的数据分析生态系统。这项服务还包括 OpenSearch Dashboards 和 Kibana(7.10 和更早版本)的可视化功能,您可以部署和运行最新版本的 OpenSearch 和 19 个版本的 ALv2 Elasticsearch(7.10 和更早版本)。
下一代 OpenSearch Service UI,用于增强数据探索和协作
OpenSearch Service 现在提供了一种新型、易用的分析体验,使您能够分析单个端点的多个托管式集群、无服务器集合和 Amazon S3 数据来源中的运营数据。这种功能丰富的体验支持多种应用场景,包括可观测性、安全性分析和日志工作负载。各个团队无需切换端点即可分析来自不同来源的数据,因此降低了复杂性并提高了效率。此外,借助一种名为 Workspaces 的新型协作体验,您可以为运营控制面板、保存的查询和其他的团队相关内容创建专用视图。各个团队可以创建专用的环境,以协作处理控制面板、调查和其他相关内容,从而提高易用性和工作效率。
搜索
搜索
OpenSearch Service 提供超越数据库搜索的实时文档搜索功能。这一完全托管的服务使用 OpenSearch 引擎进行搜索。 OpenSearch 是一款功能完备、基于 Lucene、可移植、与平台无关的开源搜索引擎,支持关键字搜索、自然语言搜索、同义词、多语言等。 核心搜索功能包括以下内容:
- 从数据库或内容管理系统、Web 或 Intranet 爬网程序或流媒体服务获取数据
- 提供搜索 API 以基于搜索服务构建前端
- 支持跨多个属性的搜索
- 使用潜在搜索(percolation)查找与一组已保存查询匹配的新文档
- 使用 OpenSearch 服务监控功能评测使用模式并执行容量规划和成本预测
- 使用用于k 最近邻搜索(kNN)的内置机器学习(ML)算法来完成向量搜索、相似性搜索、语义搜索等
- 使用用于学习排名的内置 ML 算法来计算相关性分数
- 提供简单、可扩展且高性能的矢量存储和搜索,为 ML 增强型搜索体验和生成式人工智能应用程序提供支持
- 使用多种查询语言,包括 SQL
搜索资源
演示:使用 Amazon OpenSearch Service 改进搜索结果
研讨会:使用 Amazon OpenSearch Service 中的 ML 提高搜索相关性
博客:Novartis AG 使用 OpenSearch Service k-NN 和 SageMaker 为搜索和推荐提供支持
部署和管理
设置和配置
Amazon OpenSearch Service 很容易入手。您可以使用 AWS 管理控制台或通过 AWS 命令行界面(AWS CLI)进行的单个 API 调用来设置和配置 OpenSearch Service 集群。您可以随时指定实例数量、实例类型、存储选项,以及修改或删除现有群集。
就地升级
通过 OpenSearch Service,可以使用就地版本升级,在不造成停机的情况下轻松地将 OpenSearch 和 Elasticsearch 集群(7.10 及更低版本)升级到更高版本。就地升级无需再麻烦地手动拍摄快照、将其还原到运行更新版本的集群,以及更新所有端点引用。
事件监控和警报
OpenSearch Service 提供内置事件监控和警报功能,使您能够监控集群中存储的数据,并根据预先配置的阈值自动发送通知。使用 OpenSearch 警报插件构建时,此功能可供您使用 Kibana 或 OpenSearch Dashboards 界面和 REST API 配置和管理警报。您可以通过自定义 Webhook、Slack、Amazon Simple Notification Service(Amazon SNS)和 Amazon Chime 接收通知。您还可以免费通过 Amazon CloudWatch 查看集群运行状况指标,包括实例数、集群运行状况、可搜索文档、CPU 和内存,以及数据和主节点的磁盘利用率。
支持多种语言
使用 OpenSearch Service,无需精通 OpenSearch 查询的域特定语言(DSL)。通过 OpenSearch SQL 编写 SQL 查询或使用 OpenSearch 管道化处理语言(PPL)时,查询语言可让您使用管道(|)语法探索、发现和查询数据。OpenSearch Dashboards 还包括 SQL 和 PPL 工作台。
与开源工具集成
OpenSearch Service 提供内置的 OpenSearch Dashboards 和 Kibana(Elasticsearch 版本 7.10 和更低版本)并与 Logstash 集成,因此您可以使用自己喜好的开源工具来提取和可视化数据。您可以利用 OpenSearch Service 对开源 OpenTelemetry 标准的支持执行轨迹分析,并继续使用现有代码以直接访问 Elasticsearch API 和插件,例如 Kuromoji、Phonetic Analysis、Ingest Processor Attachment、Ingest User Agent Processor 和 Mapper Murmur3。
安全性
安全性:通过 OpenSearch Service,可以从 Amazon Virtual Private Cloud(Amazon VPC)或通过公共 Internet 将应用程序安全地连接到托管的 Elasticsearch(版本 7.10 和更低版本)或 OpenSearch 环境,从而可以使用 VPC 安全组或基于 IP 的访问策略配置网络访问。您还可以使用 Amazon Cognito、AWS Identity and Access Management(IAM)或使用用户名和密码的基本身份验证对用户和控制访问安全地进行身份验证。OpenSearch Service 使用 OpenSearch 安全插件,帮助您定义对索引、文档或字段的精细权限。您还可以为 Kibana 扩展只读查看和安全的多租户支持。OpenSearch Service 还支持内置的静态数据加密和传输中数据加密,这样可以在以下情况中保护数据:数据存储在域或自动快照中时,以及在域内的节点之间传输数据时。OpenSearch Service 既满足 HIPAA 要求,又符合 PCI DSS、SOC、ISO 和 FedRAMP 标准,能够轻松构建符合法规要求的应用程序。
无服务器:通过 Amazon OpenSearch 无服务器自动预置并持续调整,以在使用模式和需求不断变化时快速摄取数据并在数毫秒内做出响应。
存储分层
UltraWarm
热存储允许快速地检索经常访问的数据。UltraWarm 是一种暖存储层,通过为较旧和不经常访问的数据提供更低的存储成本,同时仍提供交互式查询体验,从而对 OpenSearch Service 热存储层进行补充。UltraWarm 将数据存储在 Amazon Simple Storage Service(Amazon S3)中,并使用在 AWS Nitro System 上专门构建的自定义、高度优化的节点快速地缓存、预取和查询这些数据。
通过 UltraWarm,在单个 OpenSearch Service 集群中最多保留 3 PB 的数据,同时将每 GB 的成本降低近 90%(与热存储层相比)。您还可以在 Kibana(版本 7.10 和更低版本)或 OpenSearch Dashboards 界面中轻松地查询和可视化数据。无需耗费几小时甚至几天时间来还原存档的日志,即可分析您的最近(几周)和历史(几个月或几年)日志数据。
什么是 UltraWarm?
UltraWarm 是一个适用于 OpenSearch Service 的完全托管、低成本的温存储层。它可与 OpenSearch、Elasticsearch(直到版本 7.10)、OpenSearch Dashboards 和 Kibana(直到版本 7.10)兼容,可帮助您使用 OpenSearch Service 如今提供的相同工具分析数据。UltraWarm 可与 OpenSearch Service 的现有功能无缝集成,如集成警报、SQL 查询等。
为什么使用 UltraWarm?
UltraWarm 可帮助您经济高效地扩展要在 OpenSearch Service 上分析的数据。您可以获得有关以前可能已删除或存档的数据的宝贵见解。利用 UltraWarm,您现在可以经济地保留更多的数据,以便随时以交互式方式对其进行分析。
UltraWarm 与 OpenSearch Service 有何关系/UltraWarm 如何使用 OpenSearch Service?
OpenSearch Service 支持两种集成存储层:热存储层和 UltraWarm 存储层。热存储层由用于检索、更新和提供最快速数据访问的数据节点提供支持。UltraWarm 节点与热存储层相辅相成,它可以为较旧且不常访问的数据提供低成本的只读存储层。
为何 UltraWarm 只需主数据即可实现持久性?
UltraWarm 使用 Amazon S3 进行存储,旨在实现 99.999999999% 的持久性,并且无需为温数据配置 Elasticsearch 副本。此外,如果拥有多个 UltraWarm 节点,则在出现节点故障时,其他 UltraWarm 节点会根据需要自动访问数据。
在 UltraWarm 中可以存储多少数据?
UltraWarm 支持存储最多 3PB 主数据。UltraWarm 旨在让您充分利用这些存储空间。而且,由于 UltraWarm 将数据存储在 Amazon S3 上以实现持久性,因此您无需为 Elasticsearch 副本使用额外的存储空间。
UltraWarm 有哪些性能特征?
UltraWarm 通过实施细粒度 I/O 缓存、预取和查询引擎优化来在 OpenSearch Dashboards 和 Kibana 中提供交互式体验,以提供与使用本地存储的高密度实例类似的性能。
如何开始使用 UltraWarm?
若要开始使用 UltraWarm,请通过控制台、CLI 或 API 创建启用 UltraWarm 的 OpenSearch Service 域。域创建完毕之后,您可以使用 OpenSearch/Elasticsearch API 将数据从热存储层移至 UltraWarm。有关更多信息,请参阅 OpenSearch 服务开发人员指南。
冷存储
冷存储是 OpenSearch Service 成本最低的存储选项,允许您将不经常访问的数据存储在 Amazon S3 中,并且仅为您需要的计算付费。冷存储基于 UltraWarm 构建,提供在 Amazon S3 中存储数据的专用节点,并使用复杂的缓存解决方案来提供交互式体验。通过从存储解耦计算资源,冷存储可帮助您在 OpenSearch Service 域中保留任意多的数据,同时将每 GB 费用降至接近于 Amazon S3 存储的价格。在不使用时分离历史或不经常访问的暖数据,释放出计算资源以帮助降低成本。利用您选择的 Kibana(版本 7.10 和更低版本)或 OpenSearch Dashboards 界面和易于使用的 API,发现并在几秒内选择性地将冷数据挂载到您的域的 UltraWarm 节点。利用冷存储,您可以查询附加的冷数据,交互体验和性能与您的暖数据相似。
OpenSearch 包括某些来自 Elasticsearch B.V. 和其他源代码且经 Apache 许可的 Elasticsearch 代码。Elasticsearch B.V. 不是该其他源代码的来源。ELASTICSEARCH 是 Elasticsearch B.V. 的注册商标
什么是冷存储?
冷存储是 OpenSearch Service 的一个存储层,它是完全托管的,而且成本最低,可以让您轻松地按需安全存储和分析历史日志。冷存储可帮助您在不主动执行数据分析时将存储与计算完全分离,并允许您以低成本保持数据随时可用。冷存储数据在 OpenSearch Service 域内通过 UltraWarm 节点提供。冷存储可与 OpenSearch 和 OpenSearch Dashboards 以及 Elasticsearch(版本 7.9 和 7.10)和 Kibana(版本 7.9 和 7.10)无缝地集成。它可以帮助您使用 OpenSearch Service 目前提供的相同工具来分析数据。
我为什么应使用冷存储?
冷存储可帮助您经济高效地扩展您想要的数据,以便在 OpenSearch Service 上对其进行分析,从而从以前可能已删除或存档的数据中获得有价值的见解。如果您需要对旧数据进行研究或取证分析,并且希望以经济实惠的价格使用 OpenSearch Service 的所有功能进行此操作,则冷存储非常适合。冷存储为扩展而构建,由 Amazon S3 提供支持。查找并发现您需要的数据,将数据附加到集群中的 UltraWarm 节点,并在几秒钟内使其可用于分析。附加的冷数据受制于现有的细粒度访问控制策略,这些策略会限制索引、文档和字段级别的访问。
冷存储与 Elasticsearch Service 有何关系/冷存储如何使用 OpenSearch Service?
使用冷存储,OpenSearch Service 支持三种集成存储层:热存储层、UltraWarm 存储层和冷存储层。热存储层用于建立索引、更新并提供最快的数据访问速度。UltraWarm 通过提供计算节点来为持久存储在 Amazon S3 中且需要持久可用的数据提供高性能交互性体验,从而提供热存储层的无缝扩展,目前在单个域中最高支持 3PB 的数据。借助冷存储,您现在可以将未使用的索引从 UltraWarm 中分离出来,释放计算资源以降低成本。使用冷存储 API 以及 OpenSearch Dashboards 和 Kibana 界面,您可以基于索引模式和数据时间戳发现索引,从而轻松找到分析需要的数据。然后,可以将该数据附加到域中,并在几秒钟内准备好进行分析。当您完成分析后,只需分离数据即可再次释放您的计算。
在冷存储中我可以存储多少数据?
冷存储为扩展而构建。虽然热存储数据和温存储数据的存储限制保持在 3PB,但您可以在冷存储中存储任何数量的数据。
冷存储有哪些性能特征?
冷存储基于 UltraWarm 构建,提供在 Amazon S3 中存储数据的专用节点,并使用复杂的缓存解决方案来提供交互式体验。冷存储数据必须先附加到您的 OpenSearch Service 域的 UltraWarm 节点中。附加完毕后,查询此数据将由您的 UltraWarm 节点支持,以提供与温存储数据相同的性能。如果有足够的 UltraWarm 容量可用来处理请求的数据,则将冷索引附加到您的域需要几秒钟的时间。如果您需要增加容量,则需要增加 UltraWarm 数据节点,这最多需要几分钟的时间。
安全分析
安全分析
帮助您的安全运维(SecOps)团队快速检测潜在威胁,同时拥有帮助进行安全调查的工具,所有这些都以较低的数据留存成本实现。保护您的业务数据并快速检测潜在的安全威胁。OpenSearch Service 为 2200 多条开源 Sigma 安全规则提供开箱即用的支持,通过筛选安全发现来检测潜在的安全威胁。您甚至可以自定义或使用默认 Sigma 规则来快速检测潜在的安全威胁,并将警报发送到预先选择的目的地。对多个日志源使用开箱即用的支持,包括 Windows、NetFlow、AWS CloudTrail、DNS 等。
什么是安全分析?
OpenSearch 安全分析旨在帮助调查、检测、分析和应对可能危及业务关键功能运营的安全威胁。这些威胁包括机密数据的潜在泄露、网络攻击和其他不利的安全事件。它包括定义检测参数、生成警报和有效应对潜在威胁所需的工具和功能。
安全分析支持哪种类型的安全日志?
我们目前支持 8 种日志类型,包括 NetFlow、DNS 日志、Apache 访问日志、Windows 日志、AD/LDAP 日志、Linux 系统日志、AWS CloudTrail 日志和 Amazon S3 访问日志。
如何将这些安全日志发送到 OpenSearch?
您可以使用现有的采集管道将 JSON 格式的数据发送到 OpenSearch。
安全分析是否提供开箱即用的安全规则?
是的,OpenSearch 安全分析包含超过 2200 条 Sigma 安全规则,开箱即用,可与不同类型的安全检测器一起使用。一旦您提供了有关日志源的最小配置,就会预先选择这些规则。
我能否创建自己的自定义规则?
是的,可以为上述受支持的日志类型添加自定义规则。这些规则必须采用 Sigma 规则格式,并且可以在与安全检测器一起使用之前导入 OpenSearch。
我需要将日志转换为特定格式或架构吗?
是的,日志必须采用 JSON 格式。我们建议以 ECS(Elastic Common Schema,弹性通用架构)格式发送。
我需要支付额外的许可费才能使用安全分析吗?
OpenSearch 安全分析无需支付额外费用或许可费即可使用。您支付的费用与将其他数据引入 OpenSearch 服务所支付的费用相同。
哪个版本的 OpenSearch Service 支持安全分析?
安全分析预装了运行 OpenSearch 版本 2.5 或更高版本的 OpenSearch 服务。
OpenSearch 安全分析和 Amazon Security Lake 之间有什么区别吗?
亚马逊安全数据湖自动将来自云、本地和自定义来源的安全数据集中到一个专门构建的数据湖中,存储在您的账户中。这些聚合数据被标准化为通用格式,存储在 S3 存储桶中。这些数据可以采集到 OpenSearch Service,允许您可视化、查询和创建报告。安全分析提供了一个安全规则引擎,可以帮助您检测潜在的安全事件并发出警报,以及关联这些事件以帮助进行调查。
我能否将 OpenSearch 安全分析与 Amazon Security Lake 一起使用?
是的,您可以将其他日志从安全数据湖导入 OpenSearch 并创建检测器来对采集的日志运行相关规则。
OpenSearch 优化型实例
OR1 实例系列
OR1 是 OpenSearch 优化型实例系列,与内部基准测试中的现有实例相比,其性价比提高了多达 30%,并使用 Amazon S3 提供 11 个 9 的持久性。借助 OR1,Amazon OpenSearch Service 使用 OpenSearch 创新和 AWS 技术来重新构想在云中为数据建立索引和存储数据的方式。OR1 使客户能够在不影响他们期望的交互式分析体验的情况下更加经济可靠地扩展其 OpenSearch 部署。
什么是 OR1?
OR1 是 Amazon OpenSearch Service 托管集群的 OpenSearch 优化型实例系列,与内部基准测试中的现有实例相比,其性价比提高了多达 30%,并使用 Amazon S3 提供 11 个 9 的持久性。借助 OR1,Amazon OpenSearch Service 使用 OpenSearch 创新和 AWS 技术来重新构想在云中为数据建立索引和存储数据的方式。OR1 使客户能够在不影响他们期望的交互式分析体验的情况下更加经济可靠地扩展其 OpenSearch 部署。OR1 提供按使用量付费和预留实例定价,对预置的实例和存储空间采用简单的小时费率。
为什么应该使用 OR1 实例?
客户广泛使用 Amazon OpenSearch Service 进行操作日志分析,因为它能够提取大量数据,同时还可以针对这些数据提供丰富的交互式分析。 OR1 是 OpenSearch 优化型实例系列,与内部基准测试中的现有实例相比,其性价比提高了多达 30%,并使用 Amazon S3 提供 11 个 9 的持久性。如果您正在运行索引繁重的运营分析工作负载,则可以从提升的性能和计算效率中受益。此外,如果发生故障,OpenSearch 可以自动将数据恢复到上次成功的操作,从而提高域的可靠性。
此功能或服务与 Amazon OpenSearch Service 有何关系/如何与其配合使用?
Amazon OpenSearch Service 支持两种复制策略 — 逻辑(文档)和物理(区段)复制。在逻辑复制的情况下,数据在所有副本上单独建立索引,这就会导致重复工作。在物理复制的情况下,数据仅在主副本上建立索引,并且通过从主副本复制数据来创建附加副本。 OR1 是 Amazon OpenSearch Service 托管集群的新实例,它使用物理复制将数据写入基于 Amazon S3 的远程存储。Amazon S3 存储库是一种高度持久的数据存储,是所有复制和恢复操作的事实来源。这一创新设计可提高 Amazon OpenSearch Service 域的索引性能和持久性。
此 OR1 实例系列与其他 Amazon OpenSearch Service 托管集群实例相比如何?
Amazon OpenSearch Service 支持集群管理节点(主节点)、数据节点和温节点。对于数据节点,客户可以根据角色和工作负载特征进行选择:通用实例、内存优化型实例、计算优化型实例、存储优化型实例以及现在的 OpenSearch 优化型实例。对于温节点,Amazon OpenSearch Service 提供了经过优化的超温实例,以降低存储温数据的成本。 OR1 是新 OpenSearch 有怀兴实例系列中的第一个实例选项。OR1 经过内存优化,可用作数据节点。OR1 提供比标准内存优化型实例更高的索引吞吐量。此外,OR1 无需依赖快照即可提供数据持久性,并可实现快速的自动恢复。OR1 和 Ultrawarm 实例都使用本地存储(EBS)和远程存储(托管存储 — 基于 Amazon S3)来存储数据。对于 OR1,数据的副本保存在本地存储和远程存储中,而对于 Ultrawarm,为了降低存储成本,数据主要保存在远程存储中,并根据访问模式将数据移动到本地存储。
OR1 实例的持久性如何?
OR1 实例使用 EBS 作为本地存储,使用 Amazon S3 作为远程存储。所有数据均同步写入 Amazon S3,旨在提供 99.999999999%(11 个 9)的数据持久性。
启用 OR1 实例需要满足哪些先决条件?
OR1 实例可用作在 OpenSearch 版本 2.11 或更高版本上创建的所有新 Amazon OpenSearch Service 托管集群的数据节点,并启用静态加密。启动时,OR1 实例将不可用于使用其他数据节点实例创建的托管集群。对于 OR1,您需要为集群管理器配置 Graviton 实例。
OR1 实例如何支持自动数据恢复?
如果出现红色索引,OR1 实例会自动从远程存储(Amazon S3)恢复丢失的分片。恢复时间因要恢复的数据量而异。