亚马逊AWS官方博客

Amazon S3 Storage Lens 存储统计管理工具增加了性能指标,支持数十亿个前缀,并可导出到 S3 表

今天,我们隆重宣布推出 Amazon S3 Storage Lens 存储统计管理工具的三项新功能,让您可以更深入地了解存储性能和使用模式。通过添加性能指标、支持分析数十亿个前缀以及直接导出至 Amazon S3 表类数据存储服务,您拥有了所需工具来优化应用程序性能、降低成本,并就 Amazon S3 存储策略作出数据驱动型决策。

新的性能指标类别
S3 Storage Lens 存储统计管理工具现在包括八个新的性能指标类别,可帮助识别和解决整个组织的性能限制。这些性能指标类别在组织、账户、存储桶和前缀级别提供。例如,该服务可帮助您识别存储桶或前缀中可能降低应用程序性能的小型对象。通过批处理小型对象以使用 Amazon S3 Express One Zone 存储类别来处理更高性能的小型对象工作负载,可以缓解这种情况。

要访问新的性能指标,您需要在新建 Storage Lens 存储统计管理工具控制面板或编辑现有配置时,启用 S3 Storage Lens 存储统计管理工具高级层级中的性能指标。

指标类别 详细信息 使用案例 缓解措施
读取请求大小 按天划分的读取请求大小(GET)分布 识别包含会降低性能的小型读取请求模式的数据集 小型请求:批量处理小型对象或使用 Amazon S3 Express One Zone 存储类来处理高性能小型对象工作负载
写入请求大小 按天划分的写入请求大小(PUT、POST、COPY 和 UploadPart)分布 识别包含会降低性能的小型写入请求模式的数据集 大型请求:并行处理请求、使用 MPU 或使用 AWS CRT
存储空间大小 对象大小分布 识别包含会降低性能的小型对象的数据集 小型对象大小:考虑捆绑小型对象
并发 PUT 503 错误 由于对同一对象进行并发 PUT 操作而导致的 503 错误数量 识别采用会降低性能的并发 PUT 节流的前缀 对于单一写入器,可修改重试行为或使用 Amazon S3 Express One Zone 存储类。对于多个写入器,可使用共识机制或 Amazon S3 Express One Zone 存储类
跨区域数据传输 在区域内跨区域传输的字节数和发送的请求数量 发现因跨区域数据访问而导致的潜在性能下降和成本增加风险 将计算与数据放在同一 AWS 区域内
访问的唯一对象 每天访问的唯一对象的数量或百分比 识别经常访问一小部分对象的数据集。可以将这些数据集移至更高性能的存储层级以获得更佳性能 请考虑将有效数据移至 Amazon S3 Express One Zone 存储类或其他缓存解决方案
FirstByteLatency(现有 Amazon CloudWatch 指标) 第一个字节延迟指标的每日平均值 从收到完整请求到开始返回响应的每日每个请求的平均时间
TotalRequestLatency(现有 Amazon CloudWatch 指标) 总请求延迟的每日平均值 从收到第一个字节到发送最后一个字节的每个请求所经过的每日平均时间

工作原理
Amazon S3 控制台上,我选择创建 Storage Lens 存储统计管理工具控制面板来新建控制面板。您也可以编辑现有的控制面板配置。然后,我配置一般设置,例如提供控制面板名称状态和可选标签。 然后,选择下一步


然后,我选择包括所有区域和包含所有存储桶,并指定要包含的区域和存储桶来定义控制面板的范围。


我在 Storage Lens 存储统计管理工具控制面板配置中选择加入高级层级,选择性能指标,然后选择下一步


然后,我选择前缀聚合作为额外的指标聚合,接着将其余信息保留为默认值,然后再选择下一步


我选择默认指标报告,然后选择通用存储桶作为存储桶类型,然后选择我的 AWS 账户中的 Amazon S3 存储桶作为目标存储桶。我将其余信息保留为默认值,然后选择下一步


在选择提交以完成流程之前,我会查看所有信息。


启用后,我将直接在 Storage Lens 存储统计管理工具控制台控制面板中收到每日性能指标。还可以选择将 CSV 或 Parquet 格式的报告导出至账户中的任何存储桶或发布到 Amazon CloudWatch。性能指标每日汇总和发布,并将在以下多个级别提供:组织、账户、存储桶和前缀。在此下拉菜单中,我为指标选择了“并发百分比 PUT 503 错误”,为日期范围选择了“过去 30 天”,为前 N 个存储桶选择了“10”。


并发 PUT 503 错误计数指标跟踪对同一对象同时执行 PUT 操作所生成的 503 错误的数量。节流错误可降低应用程序性能。对于单个写入器,修改重试行为或使用更高性能的存储层级,例如 Amazon S3 Express One Zone 存储类来缓解并发 PUT 503 错误。对于多个写入器的情境,使用共识机制来避免并发 PUT 503 错误,或使用性能更高的存储层级,例如 Amazon S3 Express One Zone 存储类。

对 S3 存储桶中的所有前缀进行全面分析
S3 Storage Lens 存储统计管理工具现在支持通过新的扩展前缀指标报告分析 S3 存储桶中的所有前缀。此功能消除了先前限制分析的限制,即仅限于满足 1% 大小阈值和最大深度为 10 个级别的前缀。现在,无论大小或深度如何,您都可以跟踪每个存储桶多达数十亿个前缀,从而以最精细的前缀级别进行分析。

扩展前缀指标报告包括所有现有的 S3 Storage Lens 存储统计管理工具指标类别:存储使用情况、活动指标(请求和传输的字节数)、数据保护指标和详细的状态代码指标。

如何开始使用?
我按照工作原理部分中概述的相同步骤来创建或更新 Storage Lens 存储统计管理工具控制面板。在控制台的步骤 4 中,选择导出选项时,可以选择新的扩展前缀指标报告。此后,我可以将扩展前缀指标报告以 CSV 或 Parquet 格式导出至我账户中的任何通用存储桶,以便高效查询我的 Storage Lens 存储统计管理工具数据。


注意事项
此增强功能解决了组织需要对整个前缀结构进行精细了解的情境问题。例如,您可以识别分段上传不完整的前缀以降低成本,跟踪整个前缀结构在加密和复制要求方面的合规性,并在最精细级别检测性能问题。

将 S3 Storage Lens 存储统计管理工具指标导出至 S3 表类数据存储服务
S3 Storage Lens 存储统计管理工具指标现在可以自动导出至 S3 表类数据存储服务,这是 AWS 上的一项完全托管式功能,内置 Apache Iceberg 支持。利用这种集成,每天可自动向 AWS 托管的 S3 表类数据存储服务交付指标,便于立即查询,无需额外的处理基础设施。

如何开始使用?
首先在控制台上按照步骤 5 中概述的流程进行操作,在控制台上选择导出目标。这次,我选择扩展前缀指标报告。除了通用存储桶外,我还选择表存储桶

新的 Storage Lens 存储统计管理工具指标将导出至 AWS 托管式存储桶 aws-s3 中的新表中。


我选择 expanded_prefixes_activity_metrics 表来查看扩展前缀报告的 API 使用量指标。


我可以在 Amazon S3 控制台上预览该表,也可以使用 Amazon Athena 来查询该表。


注意事项
S3 表类数据存储服务与 S3 Storage Lens 存储统计管理工具的集成,简化了使用熟悉的 SQL 工具和 AWS 分析服务(例如 Amazon Athena、Amazon QuickSightAmazon EMRAmazon Redshift)的指标分析流程,且无需数据管道。这些指标会自动整理以实现最佳查询,并提供满足您需求的自定义保留和加密选项。

这种集成支持跨账户和跨区域分析、自定义控制面板创建以及与其他 AWS 服务的数据关联。例如,您可以将 Storage Lens 存储统计管理工具指标与 S3 Metadata 相结合,以分析前缀级别的活动模式,并识别前缀中包含冷数据的对象,这些对象符合转换到低成本存储层级的条件。

对于代理式人工智能工作流程,您可以使用自然语言,通过 S3 表类数据存储服务 MCP 服务器查询 S3 表类数据存储服务中的 S3 Storage Lens 存储统计管理工具指标。代理可以提出诸如“上个月哪个存储桶增长最快?”之类的问题或者“按存储类别向我显示存储成本”,并从您的可观测性数据中获得即时洞察。

现已推出
所有三项增强功能均已在目前提供 S3 Storage Lens 存储统计管理工具的所有 AWS 区域(中国区域和 AWS GovCloud(美国)除外)推出。

这些功能包含在 Amazon S3 Storage Lens 存储统计管理工具高级层级中,除标准高级层级定价外,不收取额外费用。对于 S3 表类数据存储服务导出,您只需为 S3 表类数据存储服务的存储、维护和查询付费。导出功能本身不收取额外费用。

要了解有关 Amazon S3 Storage Lens 存储统计管理工具性能指标、对数十亿个前缀的支持以及导出至 S3 表类数据存储服务的更多信息,请参阅《Amazon S3 User Guide》。有关定价的详细信息,请访问 Amazon S3 定价页面

Veliswa Boya