Astro 소개 - AWS를 기반으로 구축 및 호스팅되는 Astronomer의 관리형 Apache Airflow 서비스

이 콘텐츠는 어떠셨나요?

현대 기업에서 데이터를 유용하게 활용하려면 다양한 소스에서 데이터를 수집 및 중앙 집중화하고, 성장하는 도구 생태계에서 처리하며, 팀 간에 사용 가능한 방식으로 조직 전반의 시스템에 공급해야 합니다. 대시보드부터 개인화 알고리즘에 이르기까지 모든 구성 요소에 데이터 스택을 통해 비즈니스 로직을 적용하는 이 데이터 오케스트레이션에는 수백 개 또는 수천 개의 데이터 파이프라인이 필요합니다.

데이터 오케스트레이션은 모든 산업에서 모든 규모의 조직에 필요합니다. 2,200명 이상의 기여자와 월 1,200만 회 이상의 다운로드 횟수를 기록한 Apache Airflow는 데이터 파이프라인을 프로그래밍 방식으로 작성, 예약 및 모니터링하기 위한 오픈 소스 표준으로 부상했습니다. 데이터 전문가들이 Airflow를 좋아하는 이유는 커뮤니티, 유연성, 데이터 생태계를 한곳에서 볼 수 있는 기능 때문입니다.

하지만 데이터 팀에는 당연히 오픈 소스 Airflow 자체만으로는 부족합니다. 운영 오버헤드를 최소화하려고 노력하는 과정에서도 데이터 품질을 보장하기 위한 테스트 파이프라인, 데이터 실무자의 생산성을 높이기 위한 SDK, 기반 데이터의 관찰성과 계보도 필요합니다. 데이터 계보는 데이터 소스 간의 관계, 데이터의 출처, 데이터 수명주기 전반에 걸쳐 데이터가 변환 및 통합되는 방식을 보다 상세하게 캡처하여 데이터의 전반적인 컨텍스트를 제공합니다.

현대적 데이터 오케스트레이션의 요구 사항 충족

2018년에 설립된 Startup인 Astronomer는 지난 5년간, Airflow를 데이터 실무자가 데이터 오케스트레이션과 데이터 계보를 최대한 활용할 수 있도록 돕는 도구를 갖춘 오픈 소스 프로젝트로 발전시켜왔습니다. Astronomer의 주력 제품인 Astro를 사용하면 고객이 Airflow에서 관리형 서비스로서 데이터 파이프라인을 구축, 실행 및 관찰할 수 있으므로, 데이터 팀은 비즈니스 로직을 작성하고 데이터에 대한 액세스를 확대하는 데 더 많은 시간을 할애할 수 있습니다.

Astronomer의 Field CTO인 Viraj Parekh는 “Astro가 고객을 위해 오케스트레이션하는 수많은 기본 비즈니스 프로세스를 Amazon Simple Storage Service (S3), Amazon Redshift, Amazon EMR, Amazon SageMaker 등의 Amazon Web Services(AWS)를 기반으로 지원합니다”라고 설명합니다.

Paola Peraza Calderon, Pete DeJoy, Viraj Parekh 등 세 명의 친구로 이루어진 소규모 팀이 공동 설립한 Astronomer는 현재 목표로 하는 세 가지 사명을 다음과 같이 설명합니다.

  • 데이터 팀이 데이터 오케스트레이션 및 데이터 계보에서 얻는 가치를 높이는 제품을 구축합니다.
  • Airflow 오픈 소스 프로젝트와 해당 커뮤니티의 유기적 성장을 촉진합니다.
  • 데이터를 활용해 성공을 실현할 수 있도록 데이터 실무자에게 교육, 모범 사례 및 지원을 제공합니다.

350여 명의 직원과 전 세계에 분산된 팀을 보유한 Astronomer와 고객 기반은 모두 빠르게 성장했습니다. Pete는 “오픈 소스 Airflow를 실행하는 사람들이 인프라 관리에 대한 도움을 요청하면서 시작되었습니다. 인프라 관리 문제를 해결했으니 이제 Airflow를 완전한 오케스트레이션 플랫폼의 기반으로 사용하는 데 필요한 더욱 다양한 기능에 초점을 맞추고 있습니다”라고 말합니다.

AWS를 기반으로 한 구축 및 확장

Astronomer 제품에 대한 시장의 수요와 회사의 성공 가능성은 초기에 분명하게 드러났습니다. Viraj는 웃으며 초기 시절에 대한 이야기를 이어갔습니다. Viraj는 “대형 게임 회사를 위한 개념 증명을 진행하기 위해 프레젠테이션을 모두 함께 작성하고 있었습니다. 그 게임 회사는 그 해에 예정된 최대 규모의 게임 런칭을 위해 Astronomer의 도움을 받아 데이터 흐름을 조율했습니다. 그런데 출시 다음날 ‘아침에 지원 티켓이 하나도 없었어요’라고 말하는 겁니다. 그래서 저는 '아, 이런, 뭔가 잘못되었구나?'라고 생각했어요. 알고보니 반대로 모두 잘 풀린 것이었습니다. 모든 기능이 제대로 작동했습니다. 이 회사 역사상 최대 규모의 게임 런칭 중 하나에서 발생한 데이터 수집 작업이 100% 처리되고 있었고 모든 것이 문제 없이 실행되었습니다”라고 말합니다.

Astronomer가 AWS를 기반으로 Startup을 구축한 이유는 무엇일까요? Paola는 “저희의 결정이었다고 말할 수는 없겠네요. 그저 당연한 선택이었습니다. AWS는 클라우드 전략의 초석이었습니다. 기본적으로 AWS 서비스는 여러 국가 및 지역에 편재되어 있기 때문에 전 세계 조직과 협력할 수 있습니다. AWS를 이용하는 것만으로도 저희에게 세계 시장이 열렸습니다”라고 말합니다.

고객 기반의 다양한 요구 사항을 충족하기 위해, Astronomer는 데이터 전문가가 데이터 파이프라인을 개발하고 생태계에 대한 단일 보기를 구현할 때 Airflow를 최대한 활용할 수 있도록 해주는 인터페이스를 구축합니다. Viraj는 “팀에서 사용하는 도구와 서비스로, 원하는 모든 시스템의 데이터 오케스트레이션을 데이터 계보와 병합하고 있습니다. 모든 시스템에서 데이터를 오케스트레이션할 수 있을 뿐만 아니라 데이터가 어떻게 이동하는지도 확인할 수 있습니다”라고 설명합니다.

아키텍처 다이어그램에서 보듯이 Astro는 클라우드에서 실행하거나 Astronomer가 호스팅하는 단일 테넌트 계정에서 실행할 수 있는 데이터 영역과 Astronomer가 호스팅하는 컨트롤 플레인으로 구성된, 다중 플레인 아키텍처를 사용하여 구축되었습니다.

Astronomer는 회사가 성장함에 따라 고객의 요구 사항을 충족하기 위해 AWS 활용 범위를 확대했습니다. 현재 Astronomer는 Amazon Elastic Kubernetes Service(Amazon EKS)를 사용하여 고객의 기업 네트워크 내에서 Astro를 관리형 서비스로 실행하고, 네트워크의 다른 데이터 서비스에 안전하게 연결할 수 있도록 AWS Transit GatewayAWS Private Link와 같은 도구를 지원합니다. Astro는 AWS CloudFormation을 사용하여 새로운 Kubernetes 클러스터를 프로비저닝하고 Amazon S3를 사용하여 로그를 저장하며, 고객이 파이프라인을 실행하는 데 가장 적합한 하드웨어를 선택할 수 있도록 다양한 노드 인스턴스 유형을 제공합니다. 이를 통해 데이터 실무자는 필요한 경우에 다양한 선택 옵션, 성능 및 효율성을 확보할 수 있습니다.

Paola는 “시장 및 고객 기반이 성장함에 따라 AWS도 함께 성장할 수 있다고 확신합니다. 필요에 맞게 AWS 서비스를 미세 조정할 수 있게 되면서 Astro의 속도와 비용 효율성이 개선되었고 고객이 더 쉽게 실행할 수 있는 서비스로 거듭났죠”라고 말합니다.

성공적인 Startup 구축

Astronomer 설립 팀은 Startup이 그들과 같은 성공을 실현하려면 제품의 얼리 어답터들과 소통하는 데 시간을 할애하는 것이 무엇보다 중요하다고 말합니다. 그렇게 함으로써 긴밀한 피드백 루프를 구축하여 초기에 제품을 개선할 수 있게 되고, 회사 설립 과정 전반에 걸쳐 탄탄한 개인적 관계가 형성되는 경우가 많습니다.

“특히 초기 Startup의 경우, 여러분이 해결하려고 하는 문제에 대해서는 제품을 먼저 도입한 사람들이 가장 잘 알고 있을 가능성이 높습니다. 장기적으로 이러한 관계를 잘 관리하세요. 이러한 고객들은 여러분만큼이나 오랫동안 여러분의 문제에 대해 생각하고 여러분의 솔루션을 사용해온 사람들입니다.” - Viraj Parekh

“질문을 많이 하고 작업에 반영하세요. 초기 단계에서 회사를 발전시키는 데에는 소매를 걷어붙이고 실험을 반복하면서 소규모 팀을 활용하는 것이 중요합니다. 간단하게 들리겠지만, 결국 이를 얼마나 잘 실천하는지에 따라 수많은 벤처의 성공 여부가 판가름납니다.” - Paola Peraza Calderon

“회사가 성장함에 따라 해야 할 일의 목록은 끝이 없이 이어질 것입니다. 이 목록에서 우선순위가 높은 항목이 무엇인지 파악하고 이를 달성하는 데 집중하는 방법을 배우는 것이 진정한 역량입니다.” - Pete DeJoy

Astronomer의 향후 계획은 어떻게 되나요?

Astronomer의 향후 계획에 대해 Pete는 다음과 같이 설명합니다. “저희는 직원들을 인재로 양성하고 직원들이 커리어를 통해 자아실현을 할 수 있도록 하는 동시에, 진정한 고객 가치를 창출하는, 여러 세대를 아우르는 회사를 만들고 싶습니다. 그리고 매일 가시적이고 의미 있는 고객 성과를 이끌어냄으로써 목표를 달성할 것입니다.”

Paola Peraza Calderon

Paola Peraza Calderon

Paola는 제품 관리자이자 훌륭한 Astronomer 공동 창립자입니다. 그녀는 Astronomer에서 5년 이상 근무하며 많은 경력을 쌓았지만, 그녀의 핵심 분야는 제품 관리 및 개발자 문서입니다. 그녀는 Astronomer의 클라우드 서비스 전반에서 개발자 경험을 큐레이팅하고 데이터 엔지니어링의 접근성을 높이기 위해 기술 문서 작성자 팀을 이끌면서 영향력을 최대한 발휘했습니다. Paola는 조지타운 대학교를 졸업하고 오하이오주 신시내티에서 Venture for America Fellow로 5년간 근무했습니다. 멕시코시티 출신인 그녀는 현재 브루클린에 살고 있으며 천문학자의 발자취를 계속 넓혀갈 생각에 들떠있습니다.

Ganapathi Krishnamoorthi

Ganapathi Krishnamoorthi

Ganapathi Krishnamoorthi는 AWS의 선임 ML 솔루션스 아키텍트입니다. Ganapathi는 스타트업 및 엔터프라이즈 고객이 규모에 따라 클라우드 애플리케이션을 설계하고 배포할 수 있도록 규범적 지침을 제공합니다. 그는 기계 학습을 전문으로 하며 고객이 비즈니스 성과를 위해 AI/ML을 활용할 수 있도록 돕는 데 주력하고 있습니다. 일하지 않을 때는 야외 활동과 음악을 듣는 것을 즐깁니다.

Megan Crowley

Megan Crowley

Megan Crowley는 AWS Startup Content Team 팀의 선임 기술 작가입니다. 일찍이 고등학교 영어 교사로 경력을 쌓은 그녀는 교육적이면서도 영감을 주는 콘텐츠에 기여하고자 하는 끊임없는 열정에 이끌립니다. Startups의 스토리를 전 세계에 공유하는 일은 AWS에서 그녀가 맡은 역할 중 가장 보람 있는 부분입니다. Megan은 여가 시간에 목공 작업을 하거나 정원, 골동품 시장에서 시간을 보냅니다.

Pete DeJoy

Pete DeJoy

Pete는 Astronomer의 실무 제품 관리자이자 훌륭한 공동 창립자입니다. 그는 지난 5년 동안 데이터 엔지니어링 문제를 해결하는 일을 해왔습니다.여정 내내 그는 상상할 수 있는 거의 모든 일을 해냈지만 그의 열정은 기술 혁신과 제품 및 시장 적합성의 교차점에 있습니다. 과거에 그는 대학 미식축구 선수로 활동했으며 스키 선수로도 활약했습니다. 그는 학창시절을 물리학과 화학을 공부하며 보냈지만, 그 후로 이러한 정신적 지식의 대부분은 Stack Overflow의 답변으로 대체되었습니다.

Viraj Parekh

Viraj Parekh

Viraj는 에코시스템 활동을 이끌고 있으며 훌륭한 Astronomer 공동 창립자입니다. Astronomer에서 6년 이상 근무하면서 그는 제품 제작 및 관리를 도왔고, 고객 확보를 도왔으며, 조직 전체에서 팀을 확장했습니다. 현재 그는 Airflow 및 Astronomer와 나머지 데이터 스택을 통해 최고 수준의 경험을 만드는 데 집중하고 있습니다. 현재 브루클린에 거주하고 있는 Viraj는 Venture for America Fellow로 오하이오주 신시내티에서 3년간 보냈습니다.

이 콘텐츠는 어떠셨나요?