Astro : service Apache Airflow géré par Astronomer, créé et hébergé sur AWS

Comment a été ce contenu ?

Pour que les données soient utiles dans une entreprise moderne, elles doivent être collectées et centralisées à partir de différentes sources, traitées par le biais d'un écosystème croissant d'outils et introduites dans les systèmes de l'organisation de manière à ce que toutes les équipes puissent les utiliser. Cette orchestration des données, qui consiste à intégrer la logique métier à la pile de données pour tout, des tableaux de bord aux algorithmes de personnalisation, nécessite des centaines, voire des milliers de pipelines de données.

L'orchestration des données est nécessaire dans tous les secteurs, dans les entreprises de toutes tailles. Avec plus de 2 200 contributeurs et plus de 12 millions de téléchargements mensuels, Apache Airflow est devenu la norme open source en matière de création, de planification et de surveillance programmatiques des pipelines de données. Les professionnels des données adorent Airflow en raison de sa communauté, de sa flexibilité et de sa grande capacité à fournir une vue centrale d'un écosystème de données.

Cependant, les équipes chargées des données ont naturellement besoin de bien plus qu'Airflow en tant que solution open source : elles ont besoin de pipelines de test pour garantir la qualité des données, de kits de développement logiciel pour améliorer la productivité des professionnels des données, ainsi que d'observabilité et de traçabilité des données sous-jacentes, tout en s'efforçant de minimaliser les frais opérationnels. Le lignage des données fournit le contexte complet des données en capturant de manière plus détaillée les relations entre les sources de données, l'origine des données et la manière dont elles sont transformées et combinées tout au long du cycle de vie des données.

Répondre au besoin d'une orchestration moderne des données

Astronomer, une start-up fondée en 2018, a passé les cinq dernières années à mettre à niveau Airflow en tant que projet open source doté d'outils qui permettent aux professionnels des données de tirer le meilleur parti de l'orchestration et du lignage des données. Le produit phare d'Astronomer, Astro, permet aux clients de créer, d'exécuter et d'observer des pipelines de données sur Airflow en tant que service géré, ce qui permet aux équipes chargées des données de consacrer plus de temps à l'écriture de la logique métier et à l'élargissement de l'accès aux données.

« De nombreux processus métier fondamentaux qu'Astro orchestre pour ses clients sont à technologie Amazon Web Services (AWS) : Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon EMR, Amazon SageMaker et bien d'autres », explique Viraj Parekh, directeur technique d'Astronomer.

Fondée par une petite équipe composée de trois amis à savoir Paola Peraza Calderon, Pete DeJoy et Viraj Parekh, Astronomer décrit sa mission actuelle comme étant triple :

  • Créer des produits qui augmentent la valeur que les équipes chargées des données tirent de l'orchestration et de la hiérarchisation des données.
  • Cultiver la croissance organique du projet open source Airflow et de sa communauté.
  • Proposer une formation, des bonnes pratiques et un accompagnement aux praticiens des données afin qu'ils puissent tirer le meilleur parti des données.

Avec plus de 350 employés et une équipe répartie dans le monde entier, Astronomer et sa base de clients se sont rapidement développés. « Tout a commencé lorsque des personnes ont utilisé l'open source Airflow et nous ont demandé de l'aide pour gérer l'infrastructure sous-jacente », explique Pete. « Maintenant que nous avons résolu la question de la gestion de l'infrastructure, nous nous concentrons sur l'ensemble plus large de fonctionnalités nécessaires pour utiliser Airflow comme base d'une plateforme d'orchestration complète. »

Création et mise à l'échelle sur AWS

Le besoin du marché pour les produits Astronomer, ainsi que le potentiel de réussite de l'entreprise, ont été évidents très tôt. Viraj raconte en rigolant une anecdote sur les débuts de l'entreprise : « Nous étions tous sur le pont pour une validation de concept avec une grande société de jeux. L'entreprise comptait sur Astronomer pour orchestrer le flux de données de son plus grand lancement de l'année. Le matin suivant le lancement, il n'y avait aucun ticket d'assistance », explique Viraj. Je me suis dit : « Oh non, quelque chose s'est mal passé ? Il s'est avéré que quelque chose s'est bien passé. Tout a fonctionné. Nous gérions 100 % de l'ingestion de données provenant de l'un des plus grands lancements de l'entreprise, et tout s'est déroulé sans problème. »

Pourquoi Astronomer a-t-elle bâti sa start-up sur AWS ? « Le choix s'imposait à nous : AWS a été la pierre angulaire de notre stratégie cloud », déclare Paola. « L'omniprésence des services AWS dans tous les pays et toutes les régions nous permet de travailler avec des organisations du monde entier, ce qui nous ouvre les portes dans nos activités. »

Pour répondre aux besoins croissants de sa clientèle, Astronomer crée des interfaces qui permettent aux spécialistes des données de tirer le meilleur parti d'Airflow tout en développant des pipelines de données et en obtenant une vision unique de leur écosystème. « Nous fusionnons l'orchestration des données à partir du système de votre choix, en utilisant les outils et les services utilisés par votre équipe, avec le lignage des données. Non seulement vous pouvez orchestrer les données sur tous vos systèmes, mais vous pouvez également voir comment ces données circulent », explique Viraj.

Comme le montre le schéma d'architecture, Astro est construit selon une architecture multiplan composée d'un plan de contrôle hébergé par Astronomer et d'un plan de données pouvant s'exécuter dans votre cloud ou sur un compte à locataire unique hébergé par Astronomer :

À mesure qu'Astronomer se développe, elle fait évoluer son empreinte AWS pour répondre aux besoins de ses clients. Aujourd'hui, Astronomer s'appuie sur Amazon Elastic Kubernetes Service (Amazon EKS) pour exécuter Astro en tant que service géré au sein du réseau d'entreprise d'un client, et prend en charge des outils comme AWS Transit Gateway et AWS Private Link pour se connecter en toute sécurité à d'autres services de données dans leur réseau. Astro utilise AWS CloudFormation pour provisionner de nouveaux clusters Kubernetes et Amazon S3 pour stocker les journaux, et met à disposition des types d'instances de nœuds pour que les clients puissent choisir le matériel le plus optimal pour exécuter leurs pipelines. Les praticiens des données disposent ainsi d'options, de performances et d'efficacité là où ils en ont besoin.

« Nous sommes convaincus qu'à mesure que notre marché et notre clientèle se développent, AWS peut évoluer avec nous. Le fait de pouvoir adapter les services AWS à nos besoins nous permet de rendre Astro plus rapide, plus rentable et plus facile à gérer pour nos clients », explique Paola.

Créer une start-up prospère

Pour ce qui est des start-ups qui cherchent à reproduire leur succès, l'équipe fondatrice d'Astronomer s'accorde à dire qu'il est essentiel de passer du temps avec les premiers adeptes du produit. Cette approche permet de créer une boucle de rétroaction étroite qui améliore votre produit dès le départ, et débouche souvent sur des relations personnelles solides qui vous guideront tout au long de votre parcours de création d'entreprise.

« Vos premiers clients sont plus susceptibles de comprendre le problème que vous essayez de résoudre, surtout si vous êtes une start-up en phase de démarrage. Cultivez ces relations au fil du temps, car ces clients réfléchissent à votre problème et utilisent votre solution depuis aussi longtemps que vous. » – Viraj Parekh.

« Posez beaucoup de questions et travaillez dur. Pour accompagner une entreprise dans ses premiers pas, il faut se retrousser les manches, se laisser aller à l'itération et rallier une petite équipe à ses côtés. Aussi simple que cela puisse paraître, c'est l'exécution qui, en fin de compte, différencie tant d'entreprises réussies. » – Paola Peraza Calderon

« À mesure que votre entreprise grandit, la liste des tâches à faire ne s'arrête jamais. C'est une véritable compétence que d'apprendre à identifier les éléments les plus prioritaires de la liste et à se concentrer sur leur réalisation. » – Pete DeJoy

Quelle est la prochaine étape pour Astronomer ?

Pete explique ce qui attend Astronomer : « Nous voulons créer une entreprise générationnelle qui apporte une réelle valeur ajoutée à ses clients, tout en cultivant le talent de ses employés et en leur permettant de s'épanouir dans leur carrière. Pour y parvenir, nous allons obtenir des résultats tangibles et significatifs pour nos clients au jour le jour. »

Paola Peraza Calderon

Paola Peraza Calderon

Paola est chef de produit et fière co-fondatrice d'Astronomer. Elle a passé plus de 5 ans chez Astronomer où elle a occupé plusieurs postes, mais son domaine de prédilection est la gestion de produits et la documentation du développeur. Elle a tiré le meilleur parti de son impact en organisant les expériences des développeurs sur le service cloud d'Astronomer et en dirigeant une équipe de rédacteurs techniques chargée de rendre l'ingénierie des données plus accessible. Paola est diplômée de l'université de Georgetown et a passé 5 ans à Cincinnati, dans l'Ohio, en tant que boursière Venture for America. Originaire de Mexico, elle vit actuellement à Brooklyn et est heureuse de continuer à développer la présence d'Astronomer.

Ganapathi Krishnamoorthi

Ganapathi Krishnamoorthi

Ganapathi Krishnamoorthi est architecte senior de solutions ML chez AWS. Ganapathi fournit des conseils prescriptifs aux startups et aux entreprises pour les aider à concevoir et à développer des applications cloud à grande échelle. Il est spécialisé dans le machine learning et s'efforce d'aider les clients à tirer parti de l'IA et du ML pour atteindre leurs objectifs commerciaux. En dehors du cadre de son travail, il aime explorer la nature et écouter de la musique.

Megan Crowley

Megan Crowley

Megan Crowley est rédactrice technique senior au sein de l'équipe chargée du contenu des startups AWS. Après avoir enseigné l'anglais dans un établissement d'enseignement secondaire, elle nourrit un enthousiasme sans faille à l'idée de contribuer à la création d'un contenu qui soit à la fois éducatif et inspirant. Partager les histoires des startups avec le monde entier est la partie la plus gratifiante de son poste chez AWS. Pendant son temps libre, Megan travaille le bois, fait du jardinage et visite les marchés d'antiquités.

Pete DeJoy

Pete DeJoy

Pete est un chef de produit actif et fier co-fondateur d'Astronomer. Il a passé les cinq dernières années à résoudre des problèmes d'ingénierie des données. Tout au long de son parcours, il a effectué à peu près tous les travaux imaginables, mais sa véritable passion est l'intersection de l'innovation technologique et de l'adéquation produit/marché. Par le passé, il a fait partie de l'équipe de football de l'université et a participé à des compétitions de ski de fond. Il a passé ses années d'études à étudier la physique et la chimie, mais la majeure partie de cet espace mental a depuis été remplacée par les réponses de Stack Overflow.

Viraj Parekh

Viraj Parekh

Viraj dirige les efforts liés à l'écosystème et est fier d'être le cofondateur d'Astronomer. Avec plus de 6 ans d'expérience chez Astronomer, il a participé à la conception et à la gestion des produits, a aidé à conquérir des clients et a renforcé les capacités des équipes dans l'ensemble de l'organisation. Actuellement, sa priorité est de créer une expérience de premier ordre avec Airflow/Astronomer et le reste de la pile de données. Aujourd'hui résident de Brooklyn, Viraj a passé trois ans à Cincinnati, dans l'Ohio, où il était boursier de Venture for America.

Comment a été ce contenu ?