OneFootball 使用 AWS Lake Formation 在几天内构建了数据湖,为 7000 万球迷服务
2020 年
OneFootball 最初是 Apple App Store 上的首批 1000 款应用程序之一,从起步时的不起眼,现已发展成为世界上最受足球爱好者欢迎的数字媒体平台之一。该公司每月吸引 7000 万球迷,提供来自世界各地足球比赛的新闻、比分、统计数据、直播和精彩片段。为了成功向这些用户提供服务,OneFootball 的各个团队需要轻松访问其后端数据库,以作出明智的业务决策并构建和测试机器学习模型,进而改善客户体验。
但是,为了满足团队对数据洞察的请求,该公司由六名员工组成的精益分析团队必须为整个公司的独立数据孤岛运行和管理各种提取、转换、加载(ETL)工作负载。在这个复杂而耗时的过程中,提取数据并将其转换为可供销售和营销团队、业务分析师、新闻编辑和数据科学家及时操作的信息,这一任务花费了 4-6 周的时间。为了更好地利用数据造福公司和足球迷,OneFootball 在 Amazon Web Services(AWS)上寻求了更灵活的解决方案。
该公司使用了 AWS Lake Formation(一项于 2019 年推出的服务),在几天之内轻松建立了一个基于云的安全数据湖。自从将来自后端数据库的数据集成到该数据湖后,OneFootball 简化了对其集中式数据湖的数据摄取,并消除了传统的 ETL 工作负载。现在,接收请求、提取数据和提供洞察的任务只需不到两天。提高了数据可用性并启用了自助分析,这在更短的时间内为内部团队和最终用户提供了更丰富的信息。新的基础设施还减少了技术工作,优化了这家在 5 个国家/地区拥有 220 名员工的公司的员工效率,
使其能够专注于核心业务。
AWS Lake Formation 使我们能够将 Amazon S3 用作计算层之上的存储层,并将其无缝集成到我们现有的基础设施中。”
Stephan Durry
OneFootball 数据和洞察主管
满足全世界对足球的兴趣
OneFootball 成立于 2008 年,是一个面向足球迷的媒体平台。每个月,它通过其网站和以 12 种语言运行的原生 iPhone 和 Android 应用程序,每天向用户发送来自 3500 个活跃内容提供商(独立内容创作者、俱乐部、联盟、球员和广播公司)的超过 18 万篇文章。随着客户群的急剧增长,该公司于 2014 年首次使用 AWS 来提高其工作负载的可扩展性、可靠性和效率。多年来,OneFootball 已将其整个平台转移到 AWS。
为了让利益相关者更容易获得后端数据,OneFootball 决定构建了一个数据湖。该公司使用了 Amazon Redshift,这是当前最受欢迎且最快的云数据
仓库。但是为了快速启动并运行,它决定使用现有框架自行创建数据提取系统。通过 API 公开的所有后端数据都是通过脚本提取的,这些脚本每天晚上都会梳理数据并将其放入 Amazon Redshift 中。OneFootball 团队决定使用不同的蓝图单独管理 ETL 框架。这最终增加了技术债务,也增加了团队必须管理的维护量。“真是一团糟,”OneFootball 数据和洞察主管 Stephan Durry
说。“每项服务的警报和监控处理方式各不相同:有时提取会在我们没有立即注意到的情况下失败,从而导致我们的业务用户丢失数据。” 就在这时,团队转而使用 AWS Lake Formation。
“不仅仅是在提取数据方面,”OneFootball 的数据工程师 Rodrigo Del Monte 解释道。“您需要对数据进行压缩和分区,这正是 AWS Lake Formation 的亮点。” 使用 AWS Lake Formation 中的预制蓝图,OneFootball 可以以非常低的开销将数据置于正确的位置,以供 Amazon Redshift 使用。然后,公司的各利益相关者可以即时获取他们需要的信息,并且可以精心挑选他们想要在数据湖中复制的表,从而使整个公司都更容易访问数据,让 OneFootball 的数据工程师有更多时间进行创新。
在 AWS 上使用数据湖实现自助分析的无缝集成
OneFootball 的数据湖包括在 Amazon Simple Storage Service(Amazon S3)上进行分析所需的所有后端数据库集,该服务是一项对象存储服务,可提供行业领先的可扩展性、数据可用性、安全性和性能。每天,OneFootball 都使用 AWS Lake Formation 从数据湖中提取数据并将其带到数据洞察团队站点。数据被加载到 Amazon S3 中,然后 Amazon Redshift 可以使用 Amazon Redshift Spectrum 对 Amazon S3 中的数 PB 数据运行查询,从而无需加载或转换任何数据。“AWS Lake Formation 使我们能够立即将 Amazon S3 用作计算层之上的存储层,并将其无缝集成到我们现有的基础设施中,”Durry 说。“若由我们自己构建这样的东西,既浪费时间又让人头疼。如果团队需要提取新数据,而不是创建复杂的项目,我们会制定蓝图并计划每天在数据湖中提供这些数据。”
在下一阶段,OneFootball 使用提取、加载、转换(ELT)系统每天刷新分析数据或创建用于构建机器学习模型的数据集。作为其商业用户的接口,该团队维护着一款开源商业洞察工具 Metabase,该工具使用户能够使用 AWS Lake Formation 存储在 Amazon S3 中的所有数据。
自实施 AWS Lake Formation 以来,OneFootball 将数据从运营数据库加载到集中式数据湖的时间周期缩短到了 3-5 天。作为其数据湖一部分的相关后端服务,其覆盖率已从 30% 增加到 60%。这最终帮助团队看到了每周活跃分析用户(团队的内部关键绩效指标)大幅增长,分析平台的使用率提高了 40%。
自助分析功能使内部利益相关者能够按需使用分析,并更快地迭代和管理用于报告和绩效测量的数据集。这极大地增加了数据分析师可以花在探索性分析和挖掘见解上的时间,而不是运行分析查询;请求和接收数据见解过程所需的时间从平均 4-6 周缩短到最多 2 天。“归根结底,我们只是一个小型数据团队,却要为 OneFootball 的超过 220 人提供服务,但现在我们可以花更多的时间了解业务问题,而不是维护不同类型的数据库提取,”Durry 说。“看到组织中每天使用分析的人越来越多,这是一项了不起的成就。可靠地集成所有相关数据来源是先决条件。”
使用更多 AWS 服务进一步丰富数据分析
OneFootball 计划使用 Amazon Kinesis Data Streams(一项可大规模扩展且持久的实时数据流服务)增强其数据分析系统。“使用 Amazon Kinesis Data Streams,我们可以将数据加载到数据湖中供分析师和机器学习模型使用,也可以让后端应用程序近乎实时地使用数据,而不必等待每天的 ETL 作业运行,”Del Monte 解释道。“而且上市时间要快得多。”
当前,OneFootball 正在努力将事件流式传输到其数据湖基础设施,以便它能够近乎实时地提供数据。Amazon Kinesis Data Streams 将数据加载到 Amazon
Elasticsearch Service 中,以便最终用户几乎可以立即找到并看到他们感兴趣的信息。
OneFootball 使用 AWS Lake Formation 构建了一个数据湖和数据分析系统,事实证明,这对公司来说是一个不错的成绩。团队可以使用自助分析来快速获得数据见解,然后专注于将这些见解转化为明智的业务决策。“就我们的数据湖运行多少查询而言,现在一切都管理得很好,”Durry 说。“通过开放数据湖和数据仓库,我们让大家自己掌控命运。”
关于 OneFootball
OneFootball 是世界上最受足球爱好者欢迎的数字媒体平台,以 15 种语言提供全球 200 多个联赛和比赛的全天候新闻、直播、比分、数据和精彩片段,每月吸引 8500 万球迷。2020 年 12 月收购 Dugout 之后,OneFootball 吸收阿森纳、巴塞罗那、拜仁慕尼黑、切尔西、尤文图斯、利物浦、曼城、巴黎圣日耳曼、皇家马德里和马赛奥林匹克成为新股东。
AWS 带来的效益
- 将相关后端数据库的数据覆盖率从 30% 提高到 60%
- 将每日活跃的最终用户对分析平台的使用率提高了 40%
- 将请求和接收数据所需的时间从 4-6 周缩短到两天
- 将数据从运营数据库加载到数据湖的时间周期缩短到 3-5 天
- 在几天而不是几个月内建立数据湖
- 使员工能够更快地迭代和管理用于探索性工作的数据集
使用的 AWS 服务
AWS Lake Formation
AWS Lake Formation 是一项服务,可以在几天内轻松建立安全的数据湖。 使用 Lake Formation 创建数据湖很简单,只需定义数据来源,制定要应用的数据访问和安全策略即可。
Amazon Redshift
Amazon Redshift 是世界上速度最快的云数据仓库,并且速度每年都在提高。 Redshift 可为财富 500 强公司、初创公司以及介于两者之间的任何公司,在分析工作负载方面提供支持。
Amazon Simple Storage Service (Amazon S3)
Amazon Simple Storage Service(Amazon S3)是一种对象存储服务,提供行业领先的可扩展性、数据可用性、安全性和性能。 Amazon S3 可达到 99.999999999%(11 个 9)的持久性,并为全球各地的公司存储数百万个应用程序的数据。
Amazon Kinesis Data Streams (KDS)
Amazon Kinesis Data Streams (KDS) 是一种可大规模扩展且持久的实时数据串流服务。KDS 每秒可以从数十万个数据源连续捕获千兆字节的数据。收集的数据以毫秒为单位,以实现实时分析使用案例,如实时控制面板、实时异常检测、动态定价等。
开始使用
无论行业无论规模,每天都有的公司在使用 AWS 实现业务转型。联系我们的专家,立即踏上您的 AWS Cloud 之旅。