OneFootball 利用 AWS Lake Formation 在幾日內建置資料湖,為 7000 萬粉絲提供服務
2020
OneFootball 最早是 Apple App Store 的首批 1,000 個應用程式之一,時至今日已發展成為世界上最受歡迎的足球愛好者數位媒體平台之一。該公司每月為 7000 萬粉絲提供新聞、分數、統計資料、直播和來自世界各地足球比賽的精彩片段。為了服務這些使用者,OneFootball 的各個團隊需要輕鬆存取後端資料庫,從而做出明智的業務決策,並以改善客戶體驗為目標,建立和測試機器學習模型。
但是,為提供團隊所需的資料洞察,該公司由六名員工組成的精簡分析團隊必須從整個公司的獨立資料孤島執行和管理各種擷取、轉換、載入 (ETL) 工作負載。由於這項流程複雜且耗時,若要擷取資料並轉換為即時且可用的資訊以供銷售和行銷團隊、業務分析師、新聞編輯以及資料科學家使用,將需要花費 4 到 6 週的時間。為了更妥善地發揮資料效益以幫助公司和足球迷,OneFootball 在 Amazon Web Services (AWS) 上尋求更敏捷的解決方案。
該公司使用於 2019 年推出的 AWS Lake Formation 服務,在數天內便輕鬆建立安全的雲端型資料湖。自從將後端資料庫的資料整合至該資料湖後,OneFootball 可以輕鬆將資料擷取至集中式資料湖,並消除了過去的 ETL 工作負載。現在,接收請求、擷取資料和提供洞察的作業只需不到兩天即可完成。透過提升資料存取的便利性,以及提供自助式分析功能,內部團隊和使用者可以在更短的時間內獲得更豐富的資訊。新的基礎設施還節省了技術工作,並讓該公司遍布五個國家的 220 名員工生產力更上層樓,
協助專注於核心業務。
AWS Lake Formation 讓我們能夠使用 Amazon S3 做為運算層之上的儲存層,並可無縫整合至我們現有的基礎設施中。」
Stephan Durry
OneFootball 資料和洞察主管
滿足全世界的足球愛好
OneFootball 是於 2008 年成立的足球迷媒體平台。該平台每個月透過其網站和原生 iPhone 和 Android 應用程式向使用者發送了超過 18 萬篇文章,這些內容來自 3,500 位活躍的內容提供者,包括獨立內容創作者、俱樂部、聯盟、球員和廣播者,並以 12 種語言提供。隨著客戶群體大幅成長,該公司於 2014 年首次使用 AWS 來改善工作負載的可擴展性、可靠性和效率。多年來,OneFootball 已將整個平台轉換至 AWS。
為了讓相關人員更容易使用後端資料,OneFootball 決定建置資料湖。該公司已在使用 Amazon Redshift,這是目前最流行且最快的雲端資料
倉儲。但是為了能快速啟動並運行,該公司決定使用現有架構自行建立一個資料擷取系統。所有透過 API 公開的後端資料都會由負責爬取資料的指令碼擷取,並在每晚將資料放入 Amazon Redshift。OneFootball 團隊決定使用不同的藍圖單獨管理 ETL 架構。這項決定最終加重了技術負債以及團隊必須管理的維護量。「那真是一團糟。」Stephan Durry 說,他是 OneFootball 的資料和
洞察主管。「每種服務的警報和監控處理方式都不同:有時候擷取會在我們沒有立即注意到的情況下失敗,從而導致我們的業務使用者遺失資料。」 此時團隊決定改用 AWS Lake Formation。
「任務不僅是擷取資料,」OneFootball 的資料工程師 Rodrigo Del Monte 解釋,「您需要壓縮和分割資料,而這正是 AWS Lake Formation 的功能亮點。」 藉由 AWS Lake Formation 中的預製藍圖,OneFootball 可以將資料擷取為可供 Amazon Redshift 使用的型態,並且開銷非常低。接著,公司內的各種相關人員便可以即時擷取所需的資訊,並在資料湖中自行選擇要複製的表格,讓整個公司的資料更容易存取,並讓 OneFootball 的資料工程師有更多時間專注於進行創新。
使用 AWS 上的資料湖進行無縫整合的自助服務分析
OneFootball 的資料湖包含在 Amazon Simple Storage Service (Amazon S3) 上執行分析所需的所有後端資料庫,Amazon S3 是一項物件儲存服務,可提供業界領先的可擴展性、資料可用性、安全性和效能。OneFootball 每天都會使用 AWS Lake Formation 從資料湖擷取資料,並將這些資料傳送至資料洞察團隊站點。資料會載入到 Amazon S3 中,然後 Amazon Redshift 就可以使用 Amazon Redshift Spectrum 在 Amazon S3 中查詢多達數 PB 的資料,無需載入或轉換任何資料。「AWS Lake Formation 讓我們能夠立即使用 Amazon S3 作為儲存層以搭配運算層,並將其無縫整合到我們現有的基礎架構中。」Durry 表示,「如果我們要自行建立這種架構,將會十分費時且令人頭疼。如果團隊需要擷取新資料,而不是建立複雜的專案,我們會設定藍圖並排定資料湖每天提供資料。」
在下一個階段中,OneFootball 會使用擷取、載入、轉換 (ELT) 系統來重新整理每天的分析資料,或建立用於建置機器學習模型的資料集。作為業務使用者的介面,該團隊會維護 Metabase,這是一種開放原始碼的商業洞察工具,可讓使用者取用 AWS Lake Formation 存放在 Amazon S3 中的所有資料。
自從導入 AWS Lake Formation 以來,OneFootball 已將資料從營運資料庫載入集中式資料湖的交付時間縮短到 3 到 5 天。包含在資料湖內的相關後端服務涵蓋範圍已從 30% 上升到 60%。這最終幫助團隊看到每週活躍分析使用者 (團隊內部的關鍵績效指標) 有顯著成長,使分析平台的使用率提高了 40%。
自助式分析功能可讓內部相關人員隨需使用分析,並更迅速地迭代和管理資料集以進行報告和效能衡量。這大幅增加了資料分析師可用於探索性分析和取得洞察的時間,而不必耗費時間執行分析查詢;請求和接收資料洞察流程所需的時間從平均 4 到 6 週縮短到最多 2 天。「畢竟我們是一個小型資料團隊,要為 OneFootball 中 220 多名員工提供服務,但現在我們可以花更多時間來理解業務問題,而不是維護不同類型的資料庫擷取。」Durry 表示,「看到整個組織中有越來越多人每天使用分析是一項卓越的成就,而可靠地整合所有相關資料來源就是先決條件之一。」
使用更多 AWS 服務進一步豐富資料分析
OneFootball 計劃使用 Amazon Kinesis Data Streams 來增強其資料分析系統,這是一種可大規模擴展且耐久的即時資料串流服務。「透過 Amazon Kinesis Data Streams,我們可以將資料載入分析師和機器學習模型的資料湖中,或者讓後端應用程式以近乎即時的速度取用資料,而不必等待每日 ETL 任務執行。」Del Monte 解釋道,「而且上市的時間也快得多。」
目前,OneFootball 正致力於將事件串流至其資料湖基礎架構,以便能夠以近乎即時的速度提供資料。Amazon Kinesis Data Streams 會將資料載入至 Amazon
Elasticsearch Service,因此一般使用者幾乎可以立即找到並查看他們感興趣的資訊。
OneFootball 使用 AWS Lake Formation 建置資料湖和資料分析系統,事實證明對公司帶來了巨大的收益。團隊可以使用自助式分析快速產生資料洞察,然後專注於將這些洞察轉化為明智的商業決策。「就我們資料湖每天執行的查詢數量而言,現在一切都運行的十分良好。」Durry 表示,「藉由開放資料湖和資料倉儲,我們讓人們可以自行滿足所需。」
關於 OneFootball
OneFootball 是世界上最受歡迎的足球愛好者數位媒體平台,吸引了 8500 萬名粉絲,每月全天候提供 15 種語言的新聞、直播、分數、統計資料以及全球 200 多個聯賽和比賽的精彩片段。繼 2020 年 12 月收購 Dugout 之後,OneFootball 也陸續迎接 Arsenal、Barcelona、Bayern Munich、Chelsea、Juventus、Liverpool、Manchester City、Paris Saint-Germain、Real Madrid 和 Olympique de Marseille 成為新股東。
AWS 的優勢
- 相關後端資料庫的資料涵蓋範圍從 30% 增加到 60%
- 每日活躍一般使用者的分析平台使用率提升 40%
- 將請求和接收資料所需的時間從 4-6 週縮短為兩天
- 將資料從營運資料庫載入到資料湖的交付時間縮短至 3-5 天
- 能夠以天為單位設定資料湖,而不是數月
- 讓員工能夠更快速地迭代和管理資料集,以便進行探索性工作
使用的 AWS 服務
AWS Lake Formation
AWS Lake Formation 是能在幾天內輕鬆設定安全資料湖的服務。 使用 Lake Formation 建立資料湖十分簡單,您只需定義資料來源和想套用的資料存取權與安全政策。
Amazon Redshift
Amazon Redshift는 전 세계에서 가장 빠른 클라우드 데이터 웨어하우스이며 매년 그 속도가 더 빨라지고 있습니다. Redshift는 스타트업부터 중소기업, Fortune지 선정 500대 기업에 이르기까지의 모든 기업이 분석 워크로드를 강화할 수 있도록 합니다.
Amazon Simple Storage Service (Amazon S3)
Amazon Simple Storage Service (Amazon S3) 物件儲存服務提供領先業界的可擴展性、資料可用性、安全性及效能。 Amazon S3 的設計可達到 99.999999999% (11 個 9) 的耐久性,並可為全世界的公司存放數百萬個應用程式的資料。
Amazon Kinesis Data Streams (KDS)
Amazon Kinesis Data Streams(KDS)는 고도로 확장 가능하고 내구력 있는 실시간 데이터 스트리밍 서비스입니다.KDS 可從數萬個來源每秒持續擷取 GB 資料。收集的資料能在幾毫秒內準備就緒,可用於即時儀表板、即時異常偵測、動態定價等即時分析使用案例。
入門
各行各業、各種規模的公司每天都在使用 AWS 來轉型業務。聯絡我們的專家,立即開始 AWS 雲端之旅。