亚马逊AWS官方博客

向使用 SAML 和 Okta 的 Open Distro for Elasticsearch Kibana 添加单点登录 (SSO)

Open Distro for Elasticsearch Security 使用 SAML 2.0 协议的 Web 浏览器单点登录 (SSO) 配置文件。这使您能够使用任何符合 SAML 2.0 的身份提供商 (IdP) 配置联合访问。在前一篇博文中,我讨论了如何使用 Microsoft Active Directory Federation Services (ADFS) 设置基于 SAML 的 SSO。在此博文中,我将讨论特定于 Okta 的配置。

Elasticsearch 分片分配探秘

在这篇文章中,我们讨论了在 Elasticsearch 中执行分片放置和均衡决策所依据的算法。每次重新路由调用都要经历分配未指定的分片、移动必须从当前节点撤出的分片以及尽可能重新平衡分片的过程。这些操作可保持集群持久平衡。

使用 Amazon Kinesis Data Firehose 和 Amazon EMR 中的 Apache Spark 优化流式数据处理

对于大多数公司而言,处理不断增加的数据量并整合新数据源充满挑战。 通常,AWS 客户会收到来自各种连接设备和传感器的海量消息,这些消息必须先经过有效注入和处理,之后才能执行进一步分析。 通常 Amazon S3 是适合保存所有类型数据的地点。 但是,数据在 Amazon S3 中的存储方式会对后续数据处理的效率和成本产生重大影响。 具体而言,如果 Apache Spark 处理的是大量小文件而不是较少的大文件,则可能会因文件操作量大而承受巨大负担。 在这些文件中,用于打开每个文件、读取元数据信息和关闭文件都会占用几毫秒时间。大量文件操作占用的总时间较多,这会导致处理缓慢。这篇博文将介绍如何使用 Amazon Kinesis Data Firehose 将传送到 Amazon S3 的大量小消息合并为较大消息。 这样可以加快运行 EMR 服务 中运行的 Spark 的的处理速度

通过 Amazon EMR 重新配置动态修改集群

如果您是使用长期运行的 Amazon EMR 集群的开发人员或数据科学家,您将面临快速变化的工作负载。这些变化通常需要不同的应用程序配置才能在集群上以最佳方式运行。
通过重新配置功能,现在可以更改正在运行的 EMR 集群上的配置。从 EMR 版本 emr-5.21.0 开始,该功能允许您在不创建新集群或通过 SSH 手动连接到每个节点的情况下修改配置。