학습
YC에서 AWS로: Tusk는 프로덕션 트래픽을 AWS의 AI 기반 테스트로 전환합니다.

YC에서 AWS로: Tusk는 프로덕션 트래픽을 AWS의 AI 기반 테스트로 전환합니다.

이 콘텐츠는 어떠셨나요?

Tusk turns production traffic into AI-powered tests on AWS

AI 생성 코드는 소프트웨어 개발을 빠르게 재편하고 있습니다. 이전에 며칠씩 걸리던 작업이 지금은 몇 시간이면 완료되고, 팀을 필요로 했던 작업을 개인이 수행할 수 있는 경우도 늘고 있습니다. 문제가 있나요? 그 어느 때보다 많은 코드가 생성되고 있습니다. 이로 인해 풀 요청이 늘어나고 극단적인 엣지 사례가 증가하며 엔지니어링 팀에 대한 수요도 증가합니다. 품질 보증에 대한 요구 사항이 증가하여 소프트웨어를 구축하는 사람들이 점점 더 많은 책임을 지게 된다면 작성 시간이 절약된다고 하더라도 소용이 없습니다.

선구적인 스타트업이면서 Y Combinator(YC) 동문인 Tusk는 실제 프로덕션 트래픽에 기반한 AI 지원 테스트를 통해 코딩 에이전트와 사람이 놓칠 수 있는 버그를 기업이 차단할 수 있도록 돕고 있습니다. Amazon Bedrock의 고성능 파운데이션 모델(FM)을 사용하여, Tusk는 코드 병합 전에 예상치 못한 회귀, API 계약 드리프트와 같은 문제를 자동으로 플래그 지정하여 엔지니어링 팀이 고부가가치 작업에 집중할 수 있도록 합니다.

가정이 아닌 현실에 기반하는 소프트웨어 테스트

캘리포니아 대학교 버클리 캠퍼스를 졸업한 두 명이 2023년에 설립한 Tusk는 기업이 실제 사용자 행동에 기반한 AI 생성 테스트를 통해 양질의 코드를 제공할 수 있도록 지원합니다. CEO인 Marcel Tan은 “Tusk는 프로덕션 트래픽을 사실적인 단위 및 API 테스트로 전환합니다. Tusk는 이를 위해 사용자가 실제 환경에서 앱과 상호 작용할 때 트레이스를 기록하고, 이 트레이스를 재생하면서 코드 변경 사항과 대조하는 방식으로 회귀를 찾아 방지합니다.” 이는 AI 시대에 모든 규모의 기업이 코드 테스트에 접근하는 방식이 크게 바뀌었음을 나타냅니다.

Tan은 “현재 최고의 엔지니어링 팀들을 살펴보면 QA를 담당하는 사람은 일반적으로 기능을 구축하는 사람이기도 합니다.”라고 말합니다. 이러한 추세에 근거하는 추론에는 타당한 이유가 있습니다. 이들 팀은 실제로 코드를 업데이트하고 최적화하는 주체이므로 테스트에 접근할 때 더 나은 맥락을 가지고 있습니다. 하지만 코드 볼륨이 급증하면서 버그를 수정하는 데 점점 더 많은 시간이 소요되고 있습니다. “과거에는 QA가 릴리스 주기의 약 절반을 차지했습니다. 코딩 에이전트를 사용하는 현재는 최고의 엔지니어들이 근무 시간의 90%를 QA에 활용하고 있는데, 이는 시간을 효율적으로 활용하는 방식이 아닙니다.”라고 Tan은 말합니다.

“수동으로 또는 AI로 작성되는 대부분의 테스트는 실제 환경에서 사용자가 제품과 상호 작용하는 방식을 실제로 반영하지 않습니다.”라고 Tan은 말합니다. “Tusk는 실제 트래픽을 캡처하므로, 그렇지 않으면 놓칠 수 있는 극단적인 사례에 대한 커버리지를 제공합니다.”여기에는 의도하지 않은 의미론적 동작으로 인한 자동 실패도 포함됩니다.이러한 경우 출력은 유효한 것처럼 보이지만 기능적으로는 잘못된 것입니다.Tusk는 생성한 테스트를 실행하고 반복하며, 이를 실제 프로덕션 트래픽과 비교하여 평가하므로 다른 방법으로는 예측하기가 거의 불가능할 수도 있는 회귀를 쉽게 찾아낼 수 있습니다.

첫 피치 프레젠테이션부터 제품-시장 적합성까지 인큐베이팅 성공

Tusk는 최초의 일반 공개 코딩 에이전트 중 하나로 시작했습니다. Tan은 “제품 관리자, 소프트웨어 엔지니어, 기술 전문가가 아닌 사람도 JIRA 티켓부터 풀 요청까지 전 과정을 처리할 수 있는 코딩 에이전트를 구축하고 싶었습니다.”라고 말합니다. “완성도 높은 코드베이스에서 이를 수행할 수 있었던 에이전트는 Tusk가 처음일 것입니다.” Tusk는 초기 버전의 제품을 발표한 후 YC W24 배치에 선정되었으며, 여기서 오늘날의 Tusk가 모습을 갖추기 시작했습니다.

“YC의 3개월은 매우 철저합니다.”라고 Tan은 말합니다. “기본적으로 부트캠프이며 스타트업 외에는 별로 생각하고 있지 않습니다. Tusk에게 YC 경험에서 가장 소중했던 부분 중 하나는 같은 배치 내의 소규모이지만 엄선된 그룹을 포함해 다른 설립자들과 교류할 수 있었던 점입니다. 이들 그룹은 정기적으로 모여 각자의 목표와 진행 상황에 대해 논의했습니다. “사람들이 불과 사흘 또는 나흘 만에 얼마나 빠르게 움직일 수 있는지 확인할 수 있어서 정말 큰 동기부여가 됩니다. 이러한 긴박감이 스타트업에 녹아들어 훌륭한 DNA를 구성합니다.”라고 Tan은 말합니다.

인큐베이터에서 얻은 가장 큰 교훈은 고객과 직접 소통하는 것의 가치였습니다. Tan은 “고객이 무엇을 필요로 하는지 짐작하려고 애쓰지 말고 고객에게 직접 물어보라는 권고를 받았습니다.”라고 말합니다. “너무 당연한 것 같죠? 때로는 가장 간단한 조언이 최고의 조언일 때도 있습니다.” 사실, Tusk 팀은 고객과 소통하고 나서 비즈니스 방향을 재고하기 시작했습니다.

“그후 고객들은 풀 요청을 더 많이 생성하는 것이 엔지니어의 업무 부담을 가중시키고 있다고 거듭 지적했습니다.”라고 Tan은 말합니다. 여기에 더해 AI 기반 코딩 도우미가 확대되면서 업계가 어디로 향하고 있는지 분명해졌습니다. Tan은 ”코드를 작성하는 일이 점차 흔해졌습니다.”라고 말합니다. “18개월만에 코드 작동을 확인하는 데 병목 현상이 생긴다는 것을 깨달았습니다.” 그 결과 팀은 방향을 전환하여 테스트에 중점을 두고 회사를 재편했으며, 현재 제공 중인 제품의 기반을 마련했습니다.

비용이 아닌 고객에게 집중할 수 있는 자유

Tusk는 YC를 졸업한 지 얼마 지나지 않아 AWS와 협업하기 시작했습니다. Tusk는 기술 전문 지식, 시장 진출 기회, AWS 크레딧 형태의 자금 지원을 통해 스타트업을 지원하는 전용 프로그램인 AWS Activate에 참여했습니다. CTO인 Sohil Kshirsagar는 “정말 놀라웠습니다.”라고 말합니다. “AWS 팀은 규모가 훨씬 작았을 때에도 매우 신속하게 대응했습니다. 무엇보다도 당사가 받은 크레딧의 양이 정말 도움이 되었습니다. 이는 근본적으로 지분이 없이 당사가 받는 투자입니다.” 이는 AI 인프라에 의존하는 스타트업에게 특히 유용합니다.

Kshirsaar는 “AI 이전 스타트업에서는 클라우드 비용이 호스팅, 스토리지 등으로 제한되지만, 오늘날에는 대규모 언어 모델(LLM)이 주요 비용이 됩니다.”라고 말합니다. “이러한 크레딧이 없다면 고객에게 제품을 출시할 때마다 비용이 얼마나 들고, 당사의 행보에 영향을 미칠지 고민하게 될 것입니다. 하지만 지금은 일단 문제를 해결하고 나중에 어떻게 최적화할지 고민해도 됩니다.”

비용 절감 이외에 Tusk 팀은 AWS Activate를 통해 더 중요한 일에 집중할 수 있게 되었습니다. Kshirsagar는 “매일 신경 써야 할 일이 이미 너무 많은 데, 클라우드 사용량이나 비용까지 신경 쓰고 싶지는 않을 겁니다.”라고 말합니다. “Activate를 이용하면 고객이 겪고 있는 문제가 무엇이고, 어떻게 하면 문제를 가장 잘 해결할 수 있을지 등 고객에 초점을 맞출 수 있습니다. 장래에 발생할 비용 영향을 고려할 필요도 없습니다.”

실시간 관측성과 확장 가능한 인텔리전스의 결합

Tusk는 추론 및 모니터링을 위해 여러 AWS 서비스를 함께 사용합니다. “Amazon Bedrock은 Tusk의 기본 LLM 추론 솔루션입니다.”라고 Kshirsagar는 말합니다. “이 솔루션을 통해 얻을 수 있는 주요 이점 중 하나는 확장 가능한 교차 리전 추론인데, 이는 몇 주 만에 고객을 한 명에서 열 명으로 늘려 요금 한도를 늘려야 하는 초기에 매우 중요합니다.”

Tusk가 Amazon Bedrock에서 사용하는 모델은 의미론적 이해와 회귀 분류를 촉진합니다. Kshirsagar는 “Tusk는 API 응답의 출력 차이를 살펴볼 때, 고객이 API의 구조를 변경하거나 응답을 약간 수정할 수 있다는 점을 고려해야 합니다.”라고 말합니다. “당사는 Bedrock의 추론 모델을 사용하여 해당 변경이 회귀인지 아니면 풀 요청의 컨텍스트에 따라 의도된 업데이트인지 여부를 판단합니다.”

Amazon Bedrock은 Tusk가 모델 및 토큰 사용을 최적화하도록 도와줍니다. “당사는 종종 작업의 복잡성에 따라 모델을 전환합니다.”라고 Kshirsagar는 말합니다. 모델 변경이 필요한 경우 Amazon Bedrock을 통해 쉽게 처리할 수 있습니다. 대개 모델 ID를 업데이트하는 것만큼 간단합니다.

QA 병목 현상을 넘어 엔드 투 엔드 보증으로 전환

Tusk가 계속 성장하고 발전해 내가는 과정에서 YC 재직 중에 다져진 고객 우선 사고방식이 여전히 핵심적인 역할을 하고 있습니다. “엔지니어들 사이에서 번아웃 현상이 많이 나타나고 있습니다.”라고 Tan은 말합니다. “당사는 엔지니어들이 테스트에 매달려 시간을 낭비하는 대신 복잡한 문제에 대한 솔루션을 설계하거나 사용자에게 도움이 되는 기능을 개발하는 등 더 재미있는 일에 더 많은 시간을 할애할 수 있도록 돕고자 합니다.”

이러한 야망을 실현하기 위해 Tusk는 Amazon Bedrock을 통해 AWS와의 협력을 강화하고 있습니다. Kshirsagar는 “당사가 계속해서 새로운 기능을 출시하고 신규 고객을 유치함에 따라 Amazon Bedrock 사용량은 기하급수적으로 확장될 것입니다.”라고 말합니다. “또한 AWS Trainium EC2 인스턴스에서 모델을 미세 조정하거나 자체 모델을 구축하여 교육할 수 있는 가능성에 대해서도 AWS와 의견을 나눴습니다.”

“당사는 올인원 테스트 플랫폼이 될 계획입니다.”라고 Tan은 말합니다. “당사는 단위, 통합(API), 엔드 투 엔드 테스트 등 소프트웨어 회사가 의존하는 모든 주요 유형의 테스트를 지능적으로 다룰 것입니다. 이를 통해 Tusk는 1인 스타트업을 비롯한 누구라도 고용할 수 있는 직원급 AI 테스트 엔지니어로서 코드 변경 및 풀 요청을 QA할 수 있습니다. 이것이 바로 궁극적인 비전입니다.”

이 콘텐츠는 어떠셨나요?