AWS 案例研究:Vskit
2021
传易集团(以下简称“传易”)是由全球智能终端产品及移动增值服务提供商传音控股集团和中国著名的互联网公司网易集团共同创办的合资公司。从音乐、短视频、新闻资讯到支付服务,传易聚焦移动互联网领域,致力于为非洲的广大用户提供多样化的在线服务。
传易旗下拥有非洲知名的短视频社交平台Vskit,专注于非洲短视频分发业务,有“非洲抖音”之称。Vskit于2018年4月上线,是聚焦非洲市场的短视频社区产品。经过3年多的发展,Vskit月活已超1,500万,覆盖非洲超过50多个国家,遍布非洲大陆,成为非洲地区最受欢迎的短视频产品之一。
基于AWS构建DevOps管道,Vskit将应用程序发布效率提升3-4倍。Vskit大量采用托管服务,开发运维一体化,有效节约成本的同时更好地帮助团队专注业务创新。”
使用AWS的智能湖仓架构,Vskit实现了数据分析和机器学习的有机融合。借助Amazon SageMaker,模型训练效率提升了十几倍,实现了视频推荐系统模型日更,极大地提升了推荐的时效性,从而将线下准确率提升4%,线上用户人均消费时长提升10%。”
面临的挑战
Vskit依托传音在非洲的品牌渠道以及先进的算法平台,致力于在非洲提供优质的短视频分发服务。伴随着业务的快速发展,Vskit团队需要将更多精力投入到应用服务创新和用户体验优化的核心议题上。
一方面,IT基础设施需要以稳定、低故障率和低成本的方式支持相关业务服务。运维方面最大程度地降本增效,同时要求底层基础资源具备足够的弹性和灵活性,支持敏捷开发,充分降低开发者相关的学习成本。
另一方面,短视频个性化推荐技术应用创新和用户体验优化是Vskit业务价值的核心。更高效、精准的视频推荐可以进一步增强用户黏性,提升使用体验,同时也可以帮助Vskit提供更多优质的内容,在非洲短视频市场更具竞争力。其中,大数据分析支持的运营优化、AI/ML相关的推荐模型等业务场景是重中之重。Vskit需要建立开发运维一体化的自动化交付流程,借助先进的云原生应用架构无缝打通数据流转路径,并要求基础架构平台全面、高效地支持AI/ML应用扩展,以加速面向最终用户的商业价值转换。
为什么选择AWS?
Vskit从2018年开始使用AWS,初期多采用比较基础的服务。随着对AWS了解的不断深入,基础架构开始从虚拟机为主的场景向大量托管的容器平台演进。Vskit使用了大量托管服务,比如数据库类的Amazon Relational Database Service (Amazon RDS)、Amazon Redshift等。目前,Vskit全部基础架构均已完成容器化改造,基于Amazon Elastic Kubernetes Service (Amazon EKS)实现。同时,通过AWS上的软件开发工具包和工具创建所有基础设施,得益于IaC(Infrastructure as code),Vskit在内部实践DevOps方面获得了相当不错的效果。
大数据应用方面,AWS智能湖仓架构优势尽显:Vskit通过以Amazon Simple Storage Service (Amazon S3) 作为中心存储构建数据湖,存储点击事件、短视频消费业务等用户行为数据;围绕Amazon S3构建专门的数据分析服务,如基于Amazon EMR和AWS Glue自动化工作流进行数据清洗,简化了大数据运行框架,借助Amazon Athena直接查询Amazon S3数据湖的数据,而无需维护任何基础设施;同时,在数据湖和专门构建的数据服务之间实现无缝的数据流转,如用户行为日志经由Amazon Managed Streaming for Apache Kafka (Amazon MSK)进入数据湖,清洗后加载至Amazon Redshift,整个过程由AWS Glue提供中心化的数据目录和安全管控,处理后的数据再流转至Amazon SageMaker进行模型训练和推理。
在机器学习方面,AWS提供了集数据准备、模型开发、训练调优及部署等功能于一体的机器学习平台服务Amazon SageMaker。从一站式托管的Jupyter笔记本环境,到自动化管理动态模型训练集群,再到模型的一键部署,Amazon SageMaker可以帮助算法团队提高工作效率,省去GPU容器化平台搭建和运维时间,这样算法团队在实际开展机器学习时就可以将更多时间和精力放在如何调优模型、如何为涉及用户中长期兴趣、消费偏好等运营优化场景提供决策支撑。同时,Amazon SageMaker与大数据分析服务也无缝集成,可直接通过AWS Glue启动Amazon SageMaker笔记本环境进行模型训练;无论是经过大数据平台清洗的数据,还是为了模型构建专门标注的数据,都可以很方便地融合到整个机器学习工作流。并且,Amazon SageMaker也具备强大的日志和监控功能,方便排查潜在问题。
服务支持方面,AWS团队提供了及时、专业的企业级支持。无论是技术还是业务层面的相关问题,Vskit都能得到及时响应和详细解答。比如,针对Kubernetes资源回收,包括Amazon EKS使用过程中遇到的相关问题等,AWS支持团队均提供了优秀的客户支持服务。
整体而言,基于AWS,Vskit成功实现数据清洗、整理及分析整体流程的大幅简化,同时支持面向各类应用场景无缝地数据流转。从运维、开发和业务创新等各个角度看,AWS均提供了与Vskit不同发展阶段充分适配的产品及服务支持。Vskit使用的AWS服务包括Amazon Elastic Compute Cloud (Amazon EC2)、AWS Glue、Amazon Athena、Amazon RDS、Amazon ElastiCache、Amazon Elasticsearch Service (Amazon ES)、Amazon DynamoDB、Amazon Kinesis、Amazon MSK、Amazon EKS、Amazon EMR、Amazon Redshift、Amazon SageMaker、Amazon CodeBuild、AWS Lambda、Amazon CloudFront、AWS Global Accelerator等。
Vskit 基于 AWS 的架构示意图
获得的收益
使用AWS,Vskit真正意义上实现了基础平台助推业务发展的“正向循环”,从静态资源、动态接口、产品打磨与运营优化,包括通过DevOps加速算法实践落地等各方面观察,Vskit均获得了令人满意的成效。
第一,Vskit现有的测试环境和正式环境,均使用Amazon CodeBuild构建,然后通过AWS Lambda自动触发部署,将应用程序发布时间从过去的15-20分钟缩短至现在的5分钟以内,大幅提升底层部署速度的同时提高了业务灵敏度和响应速度。
第二,Vskit目前无需专职的运维人员,采用了多个AWS托管服务,比如Amazon EMR、AWS Glue、Amazon ElastciSearch、Amazon MSK等,几乎无需运维,完全可以由开发兼任。如采用自建方式,则至少需要1-2人专职运维。使用AWS托管服务帮助Vskit节省了很大一部分人力成本。
第三,通过使用Amazon SageMaker,并在业务上实现一套基于AWS Glue的数据管道,Vskit现可对模型进行日更训练,相较于之前大概半个月更新一次的频率,有了大幅提升。由于推荐系统对用户行为的实时反馈更敏感,用新的行为数据补充训练集可以提升模型泛化性,模型日更可以更好地帮助提升业务指标。具体看,在短视频feed流推荐场景下,使用Amazon SageMaker完成多目标排序 (deepFM+MMoE) 模型每日训练更新任务,提升了模型的时效性,线下准确率提升4%,线上用户人均消费时长提升10%。
第四,基于AWS丰富的Amazon EC2计算实例资源组合以及成本节约计划,Vskit将性价比体验提升至全新高度。通过使用最新的基于Graviton2 ARM芯片的Amazon EC2第六代实例,总成本相比之前下降20%。同时,Vskit在视频转码场景中结合Auto Scaling Group和Spot实例,不仅能够更好地满足突发视频转码需求,还大幅节省计算资源成本,实现了25%左右的成本节约。
目前,Vskit基于AWS每日接收约3亿个请求,涵盖日志收集、核心业务等各类场景,原始数据、中间数据、清洗后的数据和中间表数据等日处理数据量已达TB级。未来,Vskit将继续探索转码技术算法等AI/ML重要应用场景,为用户提供更优质的短视频产品服务和更快速、稳定的应用访问体验。
关于Vskit
传易集团是由全球智能终端产品及移动增值服务提供商传音控股集团和中国著名的互联网公司网易集团共同创办的合资公司。
为什么使用AWS
- 智能湖仓架构拥有极大的优势
- 丰富强大的托管服务全面支持业务增长
- 有效降低资源使用成本和运维成本
- AI/ML 工具集高效支持推荐算法优化
使用的AWS服务
Amazon EKS
Amazon Elastic Kubernetes Service (Amazon EKS) 为您提供在 AWS 云和本地启动、运行和扩展 Kubernetes 应用程序所需的灵活性。
Amazon SageMaker
Amazon SageMaker 通过整合专门为 ML 构建的广泛功能集,帮助数据科学家和开发人员快速准备、构建、训练和部署高质量的机器学习 (ML) 模型。
Amazon RDS
Amazon Relational Database Service (Amazon RDS) 让您能够在云中轻松设置、操作和扩展关系数据库。
AWS Global Accelerator
AWS Global Accelerator 是通过 Amazon Web Service 的全球网络基础设施发送您的用户流量的联网服务,将您的互联网用户性能提升了高达 60%。
开始使用
各行各业中所有规模的公司都在使用 AWS 对其日常业务进行转型。联系我们的专家,立即踏上您的 AWS 云之旅。