跳至主要内容

Amazon S3

Amazon S3 元数据

利用近实时的对象元数据加速数据发现

在 Amazon S3 中查找和整理所需的数据

Amazon S3 Metadata 通过使对象元数据可以随时访问并且更便于查询,充分发挥 Amazon S3 数据的全部潜力。显示、存储和查询存储在 Amazon S3 中的所有对象的丰富元数据,以便快速查找业务分析、实时推理应用程序等所需的数据。S3 Metadata 支持对象元数据,其中包括系统定义的详细信息(例如对象的大小和来源)和自定义元数据,它允许您使用标签为对象添加商品 SKU、事务 ID、内容评级等信息作为注释。S3 元数据自动填充新对象和现有对象的元数据,为您提供全面的可查询数据视图。阅读 博客以了解详情。

优势

旨在为您的 S3 存储桶中的所有对象(包括现有对象和新上传的对象)创建并管理元数据,提供数据的全面视图。

从 Amazon S3 中的数万亿个对象中快速查找和检索所需的数据。我们每小时更新一次元数据,因此您可以轻松了解最新的存储格局。

使用对象标签,用业务特定的元数据对您的对象进行注释,从而改善数据逻辑性和可搜索性。

通过托管 S3 表中的实时清单表和日记表访问您的元数据,并内置对 Apache Iceberg 的支持。

通过 S3 表类数据存储服务与 Amazon SageMaker 智能湖仓的集成,使用常用的 AWS 服务(如 Amazon Athena、Redshift 和 EMR)分析元数据。S3 Metadata 与常用的开源工具兼容。

使用案例

使用丰富的元数据对所有数据进行编目,以便于发现和利用。获取 S3 存储桶中所有对象的完整视图,以跟踪和了解您的数据存储。

跟踪和管理人工智能生成的视频,包括其来源、创建时间以及 Amazon Bedrock 使用的人工智能模型。

分析整个存储空间中的对象元数据,确定节省成本和提高性能的机会。

快速识别和分析用于商业智能和决策的相关数据集。

使用自定义元数据注释,以改进数据组织性和合规性。

客户

剑桥移动远程信息处理

Cambridge Mobile Telematics(CMT)是全球最大的远程信息处理服务提供商。它的使命是确保全世界的道路和驾驶员更为安全。该公司的人工智能驱动平台 DriveWell Fusion® 从数百万台物联网设备(包括智能手机、专有标签、联网汽车、行车记录仪和第三方设备)收集传感器数据,并将这些数据与上下文数据融合在一起,以创建车辆和驾驶员行为的统一视图。

“在CMT,我们存储和分析来自全球移动物联网设备的数千兆字节的数据,以增强驾驶员和道路安全。随着业务扩展,查找特定数据以开发新的见解和模型变得越来越具有挑战性。S3 Metadata,尤其是其自定义元数据功能,让我们能够对所有数据进行注释,并在可查询的托管表中维护元数据。现在,查找相关数据只需要一个高效且经济的 SQL 查询。这使得 S3 元数据改变了游戏规则,使我们能够为客户带来新功能。“

Cambridge Mobile Telematics 首席信息官 Tim Vogel

Missing alt text value

PayPal

PayPal 一直在力争为全球商业带来变革,至今已超过 25 年。PayPal 通过带来创新体验,使资金流动、销售和购物变得简单、个性且安全,帮助约 200 个市场的消费者和企业加入全球经济并实现蓬勃发展。

“S3 元数据为我们提供了一种简单、直接的机制,可以使用亚马逊雅典娜和亚马逊 QuickSight 等标准工具分析数万亿个 S3 对象。借助此功能,我们可以将时间花在决策上,而不是构建复杂的数据管道来访问和查询 S3 对象元数据。“

PayPal 大型企业平台工程副总裁 Jon Southall

Missing alt text value

罗氏

Roche 是一家生物技术公司,将药物和诊断相结合,以实现个性化医疗进步并改善人们的生活。

“S3 元数据加速了我们的生成式 AI 计划。当我们为团队构建 LLM 应用程序(例如内部聊天机器人)时,PDF 等非结构化数据会变得越来越有价值。我们需要将大量特定领域的文档输入到检索增强生成(RAG)应用程序中,以便聊天机器人能够适应 Roche 的特定业务环境。然而,这也意味着我们需要管理的非结构化数据会越来越多。我们需要元数据系统来有效描述我们的非结构化数据,以便我们的用户能够快速筛选我们的大型数据湖,为他们正在构建的特定生成式人工智能应用识别相关数据集。借助 S3 Metadata,构建功能强大的元数据系统变得非常简单,只需在 AWS 管理控制台中点击几下即可。随着我们不断摄取更多的非结构化数据,S3 Metadata 会自动显示元数据并保持元数据处于最新状态。我们还使用自己的 Lambda 来提取特定业务的元数据,例如根据与 Roche 相关的分类标准对文档进行分类,并将这些元数据与 S3 Metadata 表一起存储在同一个粘合目录中,这样只需简单的 SQL 连接,我们就能获得所需的所有元数据。S3 元数据帮助我们更快地构建生成式 AI 应用程序,这使我们能够专注于构建而不是组织数据。“

Roche 制药商务工程负责人 Yannick Misteli

The Roche logo in blue text inside a blue hexagon outline on a transparent background.

SmugMug /Flickr

SmugMug 和 Flickr 为摄影师提供上传和共享照片和视频的在线平台。该公司在其应用程序中存储了数十亿张照片和视频。

“想象一下驾驶时光机器浏览你的亚马逊 S3 数据。在 SmugMug 和 Flickr,我们在 S3 中存储了超过 22 年的客户照片,对象数量达数千亿。新的 S3 Metadata 功能帮助我们以较低的价格轻松探索我们的 S3 对象元数据,通过查询对象大小等元数据来了解我们的数据是如何演变的,这在以前需要将昂贵的数据库查询与对象清单结合起来。了解我们的摄影师如何使用我们的存储空间有助于进一步履行我们通过摄影的力量建设更美好世界的承诺。“

SmugMug 首席工程师 Andrew Shieh

Missing alt text value

利用对象元数据加速数据发现

Amazon S3 元数据可近乎实时地为 S3 对象自动生成丰富的元数据。观看我们如何使用对象标签,基于自定义元数据来探索和查询对象。无论您是在管理大规模数据湖,还是优化数据发现,都可以获得关于元数据驱动的数据管理方面的实用见解。