A OneFootball desenvolveu um data lake em poucos dias usando o AWS Lake Formation para atender 70 milhões de fãs

2020

Desde o modesto início como um dos primeiros 1.000 aplicativos na Apple App Store, a OneFootball cresceu e se tornou uma das plataformas de mídia digital mais famosas do mundo para entusiastas de futebol. A empresa alcança 70 milhões de fãs por mês com notícias, resultados, estatísticas, transmissões ao vivo e destaques de jogos de futebol em todo o mundo. Para atender esses usuários com sucesso, as várias equipes da OneFootball precisavam de fácil acesso aos bancos de dados de back-end para tomar decisões de negócios informadas e criar e testar modelos de machine learning, com o objetivo de aprimorar a experiência do cliente.

Porém, para atender à solicitação das equipes por insights dos dados, a equipe de análise enxuta de seis funcionários da empresa precisava executar e gerenciar a extração, a transformação e o carregamento (ETL) de workloads em silos de dados independentes em toda a empresa. Com esse processo complexo e demorado, a tarefa de extrair dados e convertê-los em informações práticas e pontuais para as equipes de vendas e marketing, os analistas de negócios, os editores de notícias e os cientistas de dados levava de 4 a 6 semanas. Para usar melhor os dados em benefício da empresa e dos fãs de futebol, a OneFootball buscou uma solução mais ágil na Amazon Web Services (AWS).

A empresa usou o AWS Lake Formation, um serviço lançado em 2019, para configurar facilmente um data lake seguro, baseado na nuvem, em poucos dias. Desde que integrou os dados de seus bancos de dados de back-end nesse data lake, a OneFootball simplificou a ingestão de dados no data lake centralizado e eliminou as workloads de ETL legadas. Agora, a tarefa de receber uma solicitação, extrair dados e fornecer insights leva menos de dois dias. A maior disponibilidade dos dados e a opção de análise por autosserviço forneceram às equipes internas e aos usuários finais informações mais ricas em menos tempo. A nova infraestrutura também reduziu o trabalho técnico e otimizou a produtividade da equipe da empresa de 220 pessoas espalhadas por cinco países,
permitindo que se concentrassem em seus negócios principais.

kr_quotemark

“O AWS Lake Formation nos permitiu usar o Amazon S3 como uma camada de armazenamento em cima de uma camada de computação e integrá-lo perfeitamente à nossa infraestrutura existente.”

Stephan Durry
Diretor de dados e insights, OneFootball

Alimentando o apetite mundial pelo futebol

Fundada em 2008, a OneFootball é uma plataforma de mídia para fãs de futebol. Todos os meses, ela canaliza diariamente mais de 180.000 artigos de 3.500 provedores de conteúdo ativos (criadores de conteúdo independentes, clubes, federações, jogadores e emissoras) para seus usuários por meio de seu site e aplicativos nativos para iPhone e Android, que operam em 12 idiomas. A empresa usou a AWS pela primeira vez em 2014 para melhorar a escalabilidade, a confiabilidade e a eficiência de suas workloads, à medida que sua base de clientes crescia significativamente. Ao longo dos anos, a OneFootball fez a transição de toda a sua plataforma para a AWS.

Para tornar os dados de back-end mais disponíveis para os stakeholders, a OneFootball decidiu criar um data lake. A empresa já usou o Amazon Redshift, o data warehouse mais rápido e popular
disponível no mercado. Para começar a funcionar rapidamente, a plataforma decidiu criar um sistema de extração de dados por conta própria, usando as estruturas existentes. Todos os dados de back-end expostos pelas APIs foram extraídos por meio de scripts que analisavam cuidadosamente os dados e os enviavam ao Amazon Redshift todas as noites. A equipe da OneFootball decidiu gerenciar as estruturas de ETL individualmente usando diferentes esquemas. Isso acabou aumentando a dívida técnica e o volume de manutenção que a equipe precisava gerenciar. “Foi uma bagunça”, diz Stephan Durry, chefe de dados e insights da
OneFootball. “Os alertas e o monitoramento eram tratados de forma diferente para cada serviço: às vezes, as extrações falhavam sem que percebêssemos imediatamente, causando a perda de dados para nossos usuários corporativos.” Foi quando a equipe recorreu ao AWS Lake Formation.

“Não se trata apenas de extrair os dados”, explica Rodrigo Del Monte, engenheiro de dados da OneFootball. “Você precisa compactar e particionar os dados, e é aí que o AWS Lake Formation se destaca.” Usando os esquemas pré-fabricados no AWS Lake Formation, a OneFootball poderia colocar os dados no formato certo para serem consumidos pelo Amazon Redshift com sobrecarga muito baixa. Então, vários stakeholders da empresa poderiam ingerir rapidamente as informações de que precisam e escolher a dedo as tabelas que desejavam replicar no data lake, tornando os dados mais acessíveis em toda a empresa e dando aos engenheiros de dados da OneFootball mais tempo para inovar.

Integração perfeita para análise por autosserviço usando um data lake na AWS

O data lake da OneFootball inclui todos os conjuntos de bancos de dados de back-end necessários para realizar análises no Amazon Simple Storage Service (Amazon S3), um serviço de armazenamento de objetos que oferece escalabilidade, disponibilidade de dados, segurança e performance líderes do setor. Todos os dias, a OneFootball usa o AWS Lake Formation para extrair dados do data lake e trazê-los para o site da equipe de insights de dados. Os dados são carregados no Amazon S3 e, em seguida, o Amazon Redshift pode executar consultas em petabytes de dados no Amazon S3 usando o Amazon Redshift Spectrum, sem precisar carregar ou transformar nenhum dado. “O AWS Lake Formation nos permitiu usar o Amazon S3 como uma camada de armazenamento em cima de uma camada de computação pronta para uso e integrá-lo perfeitamente à nossa infraestrutura existente”, diz Durry. “O desenvolvimento de algo desse tipo teria nos custado tempo e causado dores de cabeça. Se a equipe precisar ingerir novos dados, em vez de criar um projeto complexo, configuramos um esquema e programamos esses dados para que ficassem disponíveis diariamente no data lake.”

Na próxima fase, a OneFootball usou um sistema de extração, carga e transformação (ELT) para atualizar os dados da análise diariamente ou criar conjuntos de dados usados para desenvolver modelos de machine learning. Como uma interface para os usuários corporativos, a equipe mantém a Metabase, uma ferramenta de insights de negócios de código aberto que permite que os usuários consumam todos os dados armazenados no Amazon S3 pelo AWS Lake Formation.

Desde a implementação do AWS Lake Formation, a OneFootball reduziu para entre 3 a 5 dias o tempo de carregamento de dados dos bancos de dados operacionais no data lake centralizado. A cobertura de serviços de back-end relevantes como parte do data lake aumentou de 30 para 60 por cento. Isso acabou ajudando a equipe a ter um crescimento substancial de usuários de análise ativos semanais, o principal indicador interno de performance da equipe, aumentando em 40% o uso da plataforma de análise.

A capacidade de análise por autosserviço permite que os stakeholders internos consumam análises sob demanda, iterem e organizem os conjuntos de dados com mais rapidez para a geração de relatórios e a avaliação da performance. Isso aumentou drasticamente o tempo que os analistas de dados poderiam gastar em análises explorativas e na coleta de insights em vez de executar consultas de análise. O tempo necessário para o processo de solicitação e recebimento de insights de dados foi reduzido de uma média de 4 a 6 semanas para um máximo de 2 dias. “Em última análise, somos uma pequena equipe de dados que atende mais de 220 pessoas na OneFootball, mas agora podemos passar mais tempo entendendo os problemas de negócios em vez de manter diferentes tipos de extrações de banco de dados”, afirma Durry. “Ver cada vez mais pessoas em toda a organização usando análises diariamente é uma grande conquista. A integração de todas as fontes de dados relevantes de forma confiável era um pré-requisito.”

Enriquecendo ainda mais a análise de dados usando mais serviços da AWS

A OneFootball planeja impulsionar seu sistema de análise de dados usando o Amazon Kinesis Data Streams, um serviço de streaming de dados em tempo real extremamente escalável e durável. “Usando o Amazon Kinesis Data Streams, podemos carregar dados em um data lake para analistas e modelos de machine learning ou forçar os aplicativos de back-end a consumir dados em tempo quase real, em vez de esperar pela execução das tarefas diárias de ETL”, explica Del Monte. “E o tempo de comercialização é muito mais rápido.”

Atualmente, a OneFootball está trabalhando na transmissão de eventos em sua infraestrutura de data lake para que possa oferecer dados em tempo quase real. O Amazon Kinesis Data Streams carrega dados no Amazon
Elasticsearch Service
, para que os usuários finais possam encontrar e ver as informações nas quais estão interessados quase imediatamente.

Usando o AWS Lake Formation, a OneFootball criou um data lake e um sistema de análise de dados que provaram ser uma grande conquista da empresa. As equipes podem usar a análise por autosserviço para gerar insights de dados rapidamente e depois se concentrar em transformar esses insights em decisões comerciais inteligentes. “Tudo está bem gerenciado agora em termos de quantas consultas são executadas em nosso data lake”, diz Durry. “Ao abrir o data lake e o data warehouse, colocamos o destino nas mãos das pessoas.”


Sobre a OneFootball

OneFootball é a plataforma de mídia digital mais popular do mundo para entusiastas do futebol, alcançando 85 milhões de torcedores mensais em 15 idiomas com notícias 24 horas por dia, 7 dias por semana, transmissões ao vivo, resultados, estatísticas e destaques em mais de 200 ligas e competições em todo o mundo. Após a aquisição da Dugout em dezembro de 2020, a OneFootball recebeu os clubes Arsenal, Barcelona, Bayern de Munique, Chelsea, Juventus, Liverpool, Manchester City, Paris Saint-Germain, Real Madrid e Olympique de Marselha como novos acionistas.

Benefícios da AWS

  • Aumento da cobertura de dados de bancos de dados de back-end relevantes de 30% para 60%
  • Aumento do uso da plataforma de análise em 40% para usuários finais ativos diariamente
  • Redução do tempo necessário para solicitar e receber dados de 4 a 6 semanas para dois dias
  • Redução do tempo de entrega para o carregamento de dados de bancos de dados operacionais para o data lake para 3 a 5 dias
  • Configuração de um data lake em dias, em vez de meses
  • Permite que a equipe repita e faça a curadoria mais rápida de conjuntos de dados para trabalhos explorativos

Serviços da AWS usados

AWS Lake Formation

O AWS Lake Formation é um serviço que facilita a configuração de um data lake seguro em dias. A criação de um data lake com o Lake Formation é tão simples quanto definir as fontes de dados e quais políticas de acesso e de segurança dos dados serão aplicadas.

Saiba mais »

 

Amazon Redshift

O Amazon Redshift é o data warehouse em nuvem mais rápido do mundo e fica mais rápido a cada ano. O Redshift alimenta workloads analíticas para empresas da Fortune 500, startups e empresas intermediárias.

Saiba mais »

Amazon Simple Storage Service (Amazon S3)

O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos que oferece escalabilidade, disponibilidade de dados, segurança e performance líderes do setor. O Amazon S3 foi projetado para 99,999999999% (11 noves) de durabilidade e armazena dados de milhões de aplicações para empresas em todo o mundo.

Saiba mais »

Amazon Kinesis Data Streams (KDS)

O Amazon Kinesis Data Streams (KDS) é um serviço de streaming de dados em tempo real com escalabilidade massiva e resiliência. O KDS consegue capturar gigabytes de dados por segundo de centenas de milhares de fontes de maneira contínua. Os dados coletados são disponibilizados em milissegundos para possibilitar casos de uso de análise em tempo real, como painéis em tempo real, detecção de anomalias em tempo real, preço dinâmico e outros.

Saiba mais »


Comece a usar

Empresas de todos os portes em todos os setores estão transformando seus negócios diariamente usando a AWS. Entre em contato com nossos especialistas e comece sua própria jornada para a Nuvem AWS hoje mesmo.