Meet Astro — Astronomer’s managed Apache Airflow service built and hosted on AWS

Como estava esse conteúdo?

Para que os dados sejam úteis em uma empresa moderna, eles devem ser coletados e centralizados de várias fontes, processados em um ecossistema crescente de ferramentas e enviados aos sistemas de toda a organização de uma forma que seja consumível em todas as equipes. Essa orquestração de dados, que combina a lógica de negócios com a pilha de dados para tudo, de painéis a algoritmos de personalização, exige centenas, se não milhares, de pipelines de dados.

A orquestração de dados é necessária em todos os setores, em organizações de todos os tamanhos. Com mais de 2.200 colaboradores e mais de 12 milhões de downloads mensais, o Apache Airflow surgiu como o padrão de código aberto para criação, agendamento e monitoramento programáticos de pipelines de dados. Os profissionais de dados adoram o Airflow por causa de sua comunidade, sua flexibilidade e sua capacidade de fornecer uma visão central de um ecossistema de dados.

No entanto, as equipes de dados naturalmente precisam de mais do que o Airflow de código aberto por si só — elas precisam de canais de teste para garantir a qualidade dos dados, de SDKs para tornar os profissionais de dados produtivos e de observabilidade e linhagem dos dados subjacentes — mesmo quando se esforçam para minimizar a sobrecarga operacional. A linhagem de dados fornece o contexto completo dos dados, capturando com mais detalhes as relações entre as fontes de dados, onde os dados se originaram e como eles são transformados e convergidos durante o ciclo de vida dos dados.

Atendendo à necessidade de orquestração de dados moderna

A Astronomer, uma startup fundada em 2018, passou os últimos cinco anos promovendo o Airflow como um projeto de código aberto com ferramentas que ajudam os profissionais de dados a aproveitar ao máximo a orquestração e a linhagem de dados. O principal produto da Astronomer, o Astro, permite que os clientes criem, executem e observem pipelines de dados no Airflow como um serviço gerenciado, o que permite que as equipes de dados passem mais tempo se concentrando em escrever a lógica de negócios e expandir o acesso aos dados.

“Muitos processos de negócios fundamentais que a Astro orquestra para nossos clientes são desenvolvidos pela Amazon Web Services (AWS): Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon EMR, Amazon SageMaker e muitos outros”, explica Viraj Parekh, CTO de campo da Astronomer's.

Co-fundada por uma pequena equipe que incluía três amigos — Paola Peraza Calderon, Pete DeJoy e Viraj Parekh — o astrônomo descreve sua missão atual como tripla:

  • Crie produtos que aumentem o valor que as equipes de dados obtêm da orquestração e da linhagem de dados.
  • Cultive o crescimento orgânico do projeto de código aberto Airflow e de sua comunidade.
  • Ofereça educação, práticas recomendadas e suporte aos profissionais de dados que possibilitem seu sucesso com os dados.

Com mais de 350 funcionários e uma equipe distribuída globalmente, tanto a Astronomer quanto sua base de clientes cresceram rapidamente. “Tudo começou com pessoas executando o Airflow de código aberto e nos pedindo ajuda para gerenciar a infraestrutura por trás disso”, diz Pete. “Agora que resolvemos o gerenciamento de infraestrutura, estamos focados no conjunto mais amplo de recursos necessários para usar o Airflow como base para uma plataforma de orquestração completa.”

Criação e escalabilidade na AWS

A necessidade do mercado por produtos Astronomer, bem como o potencial de sucesso da empresa, ficaram evidentes desde o início. Viraj ri ao contar uma história sobre seus primeiros dias. “Estávamos todos prontos para uma prova de conceito com uma grande empresa de jogos. A empresa contou com o Astronomer para orquestrar o fluxo de dados para seu maior lançamento do ano. Na manhã seguinte ao lançamento, não havia tickets de suporte”, diz Viraj. “E eu pensei: 'Ah, não, alguma coisa deu errado? ' Acontece que algo deu certo. Tudo funcionou. Estávamos lidando com 100% da ingestão de dados proveniente de um dos maiores lançamentos dessa empresa, e tudo funcionou sem problemas.”

Por que a Astronomer criou sua startup na AWS? “Não posso dizer que foi uma decisão. Foi a escolha óbvia: a AWS tem sido a base da nossa estratégia de nuvem”, diz Paola. “Como base, a onipresença dos serviços da AWS em todos os países e regiões nos permite trabalhar com organizações em todo o mundo. Ele sozinho desbloqueia nosso mercado.”

Para atender às necessidades cada vez maiores de sua base de clientes, a Astronomer cria interfaces que permitem que os profissionais de dados tirem o máximo proveito do Airflow à medida que desenvolvem pipelines de dados e formam uma visão singular de seu ecossistema. Viraj explica: “Estamos mesclando a orquestração de dados por meio de qualquer sistema que você quiser, usando quaisquer ferramentas e serviços que sua equipe use, com a linhagem de dados. Você não só pode orquestrar dados em todos os seus sistemas, mas também pode ver como esses dados se movem.”

Conforme mostrado no diagrama de arquitetura, o Astro é construído com uma arquitetura de vários planos que consiste em um ambiente de gerenciamento hospedado pelo Astronomer e um plano de dados que pode ser executado em sua nuvem ou em uma conta de inquilino único hospedada pelo Astronomer:

À medida que a Astronomer cresce, a empresa expande sua presença na AWS para atender às necessidades de seus clientes. Hoje, o Astronomer confia no Amazon Elastic Kubernetes Service (Amazon EKS) para executar o Astro como um serviço gerenciado na rede corporativa do cliente e oferece suporte a ferramentas como o AWS Transit Gateway e o AWS Private Link para se conectar com segurança a outros serviços de dados em sua rede. A Astro usa o AWS CloudFormation para provisionar novos clusters Kubernetes e o Amazon S3 para armazenar logs e disponibiliza tipos de instâncias de nós para que os clientes escolham o hardware ideal para executar seus pipelines. Isso dá aos profissionais de dados opcionalidade, performance e eficiência onde eles precisam.

“Estamos confiantes de que, à medida que nosso mercado e nossa base de clientes crescem, a AWS pode crescer conosco. Ser capaz de ajustar os serviços da AWS para atender às nossas necessidades nos ajuda a tornar o Astro mais rápido, mais econômico e mais fácil de executar para nossos clientes”, diz Paola.

Construindo uma startup de sucesso

Para startups que desejam replicar seu sucesso, a equipe fundadora do Astronomer concorda que é fundamental passar tempo com os primeiros usuários do produto. Isso cria um ciclo de feedback estreito que melhora seu produto desde o início e geralmente resulta em fortes relacionamentos pessoais que o guiarão por toda a jornada de construção da empresa.

“Especialmente para startups em estágio inicial, as pessoas que adotam seu produto primeiro têm maior probabilidade de entender o problema que você está tentando resolver. Organize esses relacionamentos ao longo do tempo, porque esses clientes estão pensando no seu problema e usando sua solução há tanto tempo.” — Viraj Parekh

“Faça muitas perguntas e trabalhe. Conduzir uma empresa aos estágios iniciais é arregaçar as mangas, deixar-se iterar e reunir uma pequena equipe ao seu lado. Por mais simples que pareça, a execução, em última análise, diferencia muitos empreendimentos bem-sucedidos.” — Paola Peraza Calderon

“À medida que sua empresa cresce, a lista de coisas a fazer nunca terminará. É uma habilidade real aprender a identificar quais itens de alta prioridade estão na lista e se concentrar em realizá-los.” — Pete DeJoy

O que vem por aí para o Astrônomo?

Quanto ao que vem por aí para a Astronomer, Pete explica: “Queremos construir uma empresa geracional que crie valor real para o cliente, cultivando talentos entre nossos funcionários e permitindo que eles se realizem em suas carreiras. E vamos chegar lá gerando resultados tangíveis e significativos para os clientes no dia a dia.”

Paola Peraza Calderon

Paola Peraza Calderon

Paola é gerente de produto e tem orgulho de ser cofundadora da Astronomer. Ela passou mais de 5 anos na Astronomer desempenhando diversas funções, mas sua essência é gerenciamento de produtos e documentação para desenvolvedores. Seu maior impacto foi como curadora de experiências de desenvolvedores nos serviços de nuvem da Astronomer e como líder uma equipe de redatores técnicos para tornar a engenharia de dados mais acessível. Paola se formou na Georgetown University e passou 5 anos em Cincinnati, Ohio, como bolsista da Venture for America. Originalmente da Cidade do México, ela atualmente mora no Brooklyn e está animada para continuar aumentando a presença da Astronomer.

Ganapathi Krishnamoorthi

Ganapathi Krishnamoorthi

Ganapathi Krishnamoorthi é Arquiteta de Soluções Sênior de ML na AWS. Ganapathi fornece orientação prescritiva para clientes startups e corporativos, ajudando-os a projetar e implantar aplicações na nuvem em grande escala. Ele é especializado em machine learning e se concentra em ajudar os clientes a empregar a IA/ML para gerar resultados comerciais. Quando excursões ao ar livre e de ouvir música.

Megan Crowley

Megan Crowley

Megan Crowley é Redatora Técnica Sênior na equipe de Conteúdo de Startups da AWS. Com uma carreira anterior como professora de inglês no ensino médio, ela é movida por um entusiasmo implacável por contribuir com conteúdo que seja ao mesmo tempo educativo e inspirador. Compartilhar histórias de Startups com o mundo é a parte mais gratificante de sua função na AWS. Em seu tempo livre, Megan pode ser encontrada trabalhando madeira, no jardim e em mercados de antiguidades.

Pete DeJoy

Pete DeJoy

Pete é um gerente de produto prático e tem orgulho cofundador da Astronomer. Ele passou os últimos cinco anos trabalhando na solução de problemas de engenharia de dados. Ao longo da jornada, ele fez quase todos os trabalhos imagináveis, mas sua paixão está na interseção entre inovação tecnológica e adequação ao produto/mercado. Em uma vida passada, ele jogou futebol universitário e foi um esquiador de competições. Ele passou seus anos acadêmicos trabalhando com física e química, mas a maior parte desse espaço mental já foi substituída pelas respostas do Stack Overflow.

Viraj Parekh

Viraj Parekh

Viraj lidera os esforços de ecossistema e tem orgulho de ser cofundador da Astronomer. Ao longo de seus mais de seis anos na Astronomer, ele ajudou a criar e gerenciar produtos, ajudou a conquistar clientes e escalou equipes em toda a organização. Atualmente, seu foco é criar uma experiência de primeira classe com o Airflow/Astronomer e o resto da pilha de dados. Agora residente no Brooklyn, Viraj morou 3 anos em Cincinnati, Ohio, como bolsista da Venture for America.

Como estava esse conteúdo?