概览
随时随地为人们提供所需的视频
Prime Video 是 Amazon 的视频流媒体服务,还允许观众购买内容并将其下载以供离线观看,而且,有数千万人在 Prime Video 上观看电影和电视节目。客户希望能即时访问视频,无论是点播节目还是最新电影,而这就需要数据处理能力。
最开始,Amazon 使用 Customer Queue Service(CQS)来管理其视频,该服务于 2007 年在 Oracle 构建而成,旨在支持后来成为 Prime Video 的产品的初次发布。多年来,CQS 不断扩展,现已涵盖广泛的功能,包括播放、所有权、下载、优惠、订单履行、库管理、季票、订阅、租赁和内容发现。无论是对全球最大的视频平台之一的日常运营,还是价值数十亿美元的客户权利存储库,该服务都至关重要。如果 CQS 宕机,Prime Video 将无法访问。
我们将数十亿行的数据从 Oracle 迁移到 Amazon DynamoDB,并提高了弹性和可靠性,实现了全球客户群零停机时间。
Tim Kohn
Prime Video 技术副总裁挑战
遗留的复杂性
多年来,CQS 通过多种解决方法确保能稳定运行并保持足够的性能,在此期间,业务也呈现显著增长。但是,该系统的操作开始变得复杂,无法支持持续部署管道,这就意味着更新系统需要半天的工程时间。CQS 缺乏自动回滚功能,这意味着错误更新造成的任何影响的持续时间都会超出必要时限。随着时间的推移,该服务中定义的 46 个 API 中,只有 15 个仍处于活跃使用状态。系统从未移除这些已弃用功能。
Prime Video 的性能可能会因为这些问题而出现故障点。从 2010 年到 2018 年间,CQS 出现的问题造成 35 次服务中断。对于 Prime Video 而言,中断和停机是一个严重的业务问题,因为客户希望该服务能够正常运行且不会出现任何问题。
2011 年,CQS 的读取操作量已超过 Oracle 数据库的处理能力。鉴于这些读取操作占系统请求的 99% 以上,增加请求量会对性能产生显著影响。为处理读取请求,该团队开始将 Oracle 数据复制到 SABLE,后者是 Amazon 的内部解决方案。但是,SABLE 最活跃的内部用户在复制过程中遇到了一些性能下降的情况。额外的管理负担不仅给技术人员的工作增加了难度,而且还阻碍了它们从事战略活动,因为他们要忙于处理各种运营问题。
为何选择 Amazon Web Services
向前迈进的计划
作为构建能够满足未来至少 10 年预计需求的可扩展平台战略的一部分,Amazon 决定将 Prime Video 迁移到 Amazon Web Services(AWS)。 迁移使用一整套 12 项微服务替代 CQS,这些微服务使用一系列 AWS 服务构建,包括 Amazon DynamoDB、AWS Lambda 和 Amazon Simple Queue Service(Amazon SQS)。IT 团队制定了一项全面详尽的计划,以确保在两年内完成迁移,并保证客户在向新系统切换的过程中不会受到任何影响。迁移计划是经过估算讲习会、工程审查和高层意见共同讨论后制定而成的。衡量团队表现的标准是,其迁移进度对比预期时间表的完成情况。团队必须对每个 API 进行严格测试,在此之后才允许更改数据。
优势
迁移和现代化
该团队完成的第一个使用案例是视频下载。这包括预置全新的第 1 层服务,以及将超过 10 亿条下载记录从 Oracle 迁移到 DynamoDB。该团队在该项目上投入了 32 个月的工程设计工作,并交付了一个能够处理高吞吐量的下载服务。
还有其他 30 多个应用程序也经常使用 CQS API。这些应用程序必须切换到新的 API 端点。最后,该团队必须迁移其存储在 Oracle 中的全部所有权记录(包含数十亿行数据)。写入系统的 API 已设置为同时将数据复制到 Oracle 和 DynamoDB。该团队能够在系统仍处于全面运行的情况下,验证数据并测试 API 性能。该服务超过了支持 Prime Video 业务所需的高扩展性目标。
通过应用 AWS 的功能,该团队能够自由地进行创新,且使用的方法是在遗留系统中无法实现的。该团队使用 Amazon DynamoDB Streams 和 AWS Lambda 构建了相关机制,能够以近乎实时地分析新系统和遗留系统之间的差异,从而确保在发生割接时客户不会受到影响。执行的这一分析不会对服务的延迟或可用性产生任何影响。
该团队利用 Amazon SQS 实施了一项服务,以便在检测到迁移错误时,能够同步各个系统中客户的所有权状态。借助这些工具,团队能够向事件驱动型架构转型,从而解锁了以前不可能实现的客户参与和系统性能使用案例。
该团队将关键性能指标的延迟时间平均缩短了 30%,而这些指标对于视频播放体验而言至关重要。例如,授权服务中的错误减少了 90%,而其延迟则减少了 15-50%。检索客户的电视点播库所产生的延迟减少了 85%,即从 800 毫秒减少到仅 120 毫秒。
该项目产生了一个全局复制的单一数据集,与旧系统相比,其具备更强的韧性、可扩展性、延迟和运营效率,且成本实现了 55% 的缩减。Prime Video 技术副总裁 Tim Kohn 表示:“我们将数十亿行的数据从 Oracle 迁移到 Amazon DynamoDB,并提高了弹性和可靠性,实现了全球客户群零停机时间。”
AWS 的优势
- 零停机时间迁移
- 延迟时间缩短了 30%
- 每秒完成 100000 笔交易
- 创建了下一代平台
关于 Prime Video
Amazon.com 是全球领先的在线零售商,也是客户评论、一键购物、个性化推荐、Prime、AWS、Kindle、Alexa 等众多产品和服务的开创者。
开始使用
无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。