Lernen
Von YC zu AWS: Tusk wandelt Produktionsdatenverkehr in KI-gestützte Tests in AWS um

Von YC zu AWS: Tusk wandelt Produktionsdatenverkehr in KI-gestützte Tests in AWS um

Wie war dieser Inhalt?

Tusk turns production traffic into AI-powered tests on AWS

KI-generierter Code verändert die Softwareentwicklung rasant. Was früher Tage dauerte, ist heute in Stunden erledigt, und was Teams erforderte, kann zunehmend von Einzelpersonen übernommen werden. Das Problem? Es wird mehr Code generiert als je zuvor. Das bedeutet mehr Pull-Anforderungen, mehr Grenzfälle und mehr Anforderungen an die Entwicklungsteams. Die Zeitersparnis beim Schreiben ist wenig wert, wenn sie durch die gestiegenen Anforderungen an die Qualitätssicherung – eine Verantwortung, die zunehmend bei den Softwareentwicklern selbst liegt – wieder aufgefressen wird.

Tusk, ein wegweisendes Startup und Alumnus von Y Combinator (YC), hilft Unternehmen dabei, Fehler zu vermeiden, die sonst sowohl von Codierungsagenten als auch von Menschen übersehen würden – und zwar mit KI-fähigen Tests, die auf echtem Produktionsdatenverkehr basieren. Durch die Nutzung leistungsstarker Basismodelle (FMs) in Amazon Bedrock kennzeichnet Tusk automatisch Probleme wie unerwartete Regressionen und Abweichungen von API-Verträgen vor dem Zusammenführen von Code. So können sich Entwicklungsteams auf wertschöpfendere Aufgaben konzentrieren.

Softwaretests, die auf Realität basieren, nicht auf Annahmen

Tusk wurde 2023 von 2 Absolventen der UC Berkeley gegründet und unterstützt Unternehmen bei der Bereitstellung von qualitativ hochwertigem Code mithilfe KI-generierter Tests, die auf echtem Benutzerverhalten basieren. „Tusk wandelt Ihren Produktionsdatenverkehr in realistische Einheiten- und API-Tests um“, erklärt CEO Marcel Tan. „Dazu zeichnen wir Traces auf, während Benutzer in der realen Welt mit Ihrer App interagieren und gleichen diese mit Ihren Codeänderungen ab, um Regressionen zu finden und zu verhindern.“ Dies stellt einen bedeutenden Wandel in der Herangehensweise an Code-Tests für Unternehmen jeder Größe im KI-Zeitalter dar.

„Wenn man sich die derzeit führenden Entwicklungsteams anschaut, sind die Mitarbeiter, die die Qualitätssicherung durchführen, in der Regel auch an der Entwicklung der Funktionen beteiligt“, sagt Tan. Die Begründung für diesen Trend ist nachvollziehbar. Diese Teams verfügen über einen besseren Kontext für die Testdurchführung, da sie den Code auch tatsächlich aktualisieren und optimieren. Mit dem rasanten Anstieg des Codeumfangs ist die Fehlerbehebung jedoch immer zeitaufwendiger geworden. „Früher machte die Qualitätssicherung ungefähr die Hälfte des Veröffentlichungszyklus aus. Durch Codierungsagenten verbringen heute Top-Ingenieure 90 Prozent ihrer Zeit mit Qualitätssicherung – das ist keine effiziente Nutzung ihrer Zeit“, so Tan.

„Die meisten manuell oder mit KI erstellten Tests spiegeln nicht wirklich wider, wie Benutzer in der realen Welt mit Ihrem Produkt interagieren“, sagt Tan. „Da wir den tatsächlichen Datenverkehr erfassen, decken wir auch Grenzfälle ab, die sonst übersehen würden.“ Dazu gehören auch stille Fehler aufgrund unbeabsichtigten semantischen Verhaltens. In solchen Fällen erscheint eine Ausgabe zwar gültig, ist aber funktionell falsch. Tusk führt die von ihm generierten Tests aus und wiederholt sie. Durch die Auswertung anhand des tatsächlichen Produktionsdatenverkehrs lassen sich Regressionen leichter erkennen, die sonst kaum vorhersehbar wären.

Fördern des Erfolgs vom ersten Pitch bis zur Marktreife des Produkts

Tusk startete als einer der ersten öffentlich verfügbaren Codierungsagenten. „Wir wollten einen Codierungsagenten entwickeln, der es Produktmanagern, Softwareentwicklern und auch Personen ohne technischen Hintergrund ermöglicht, den gesamten Prozess von einem JIRA-Ticket bis hin zu einer Pull-Anforderung zu durchlaufen“, erklärt Tan. „Wir waren wohl der erste Agent, der dies in einer ausgereiften Codebasis leisten konnte.“ Nachdem das Unternehmen diese früher Version seines Produkts vorgestellt hatte, wurde es in den YC-W24-Batch aufgenommen, wo das heutige Tusk Gestalt annahm.

„Die 3 Monate bei YC sind extrem intensiv“, sagt Tan. „Es ist im Grunde ein Bootcamp, und man denkt an nichts anderes als an das Startup.“ Für Tusk war einer der wertvollsten Aspekte des YC-Erlebnisses der Austausch mit anderen Gründern, einschließlich einer kleineren, ausgewählten Gruppe innerhalb des Batchs. Diese Gruppen trafen sich regelmäßig, um ihre Ziele und Fortschritte zu besprechen. „Es ist wirklich motivierend, weil man sieht, wie schnell sich die Leute innerhalb von 3 oder 4 Tagen entwickeln können. Dieses Gefühl der Dringlichkeit ist im Startup verankert – es gibt einem eine gute DNA“, sagt Tan.

Eine der wichtigsten Erkenntnisse des Inkubators war der Wert des direkten Kundenkontakts. „Anstatt zu versuchen, die Bedürfnisse unserer Kunden zu erraten, wurden wir ermutigt, sie einfach direkt zu fragen“, sagt Tan. „Klingt so selbstverständlich, oder? Manchmal ist der einfachste Rat der beste.“ Tatsächlich begann das Tusk-Team erst nach dem Austausch mit den Kunden, die Ausrichtung seines Unternehmens zu überdenken.

„Unsere Kunden wiesen immer wieder darauf hin, dass die Generierung von mehr Pull-Anforderungen ihren Entwicklern zusätzliche Arbeit bescherte“, sagt Tan. In Verbindung mit der zunehmenden Verfügbarkeit KI-gestützter Codierungsgeräte verdeutlichte dies die zukünftige Entwicklung der Branche. „Das Schreiben von Code wurde zur Standardware“, so Tan. „Uns wurde klar, dass der Engpass in 18 Monaten die Überprüfung der Codefunktionalität sein würde.“ Daraufhin verlagerte das Team seinen Fokus, richtete das Unternehmen neu aus und legte damit den Grundstein für das heutige Produkt.

Freiheit, sich auf den Kunden zu konzentrieren, nicht auf die Kosten

Kurz nach dem Austritt aus YC begann Tusk die Zusammenarbeit mit AWS. Das Unternehmen nahm an AWS Activate teil, einem speziellen Programm zur Unterstützung von Startups mit technischem Fachwissen, Markteinführungsmöglichkeiten und Finanzierung in Form von AWS-Guthaben. „Es war unglaublich“, sagt Sohil Kshirsagar, CTO. „Das AWS-Team war sehr hilfsbereit, selbst als wir noch deutlich kleiner waren. Darüber hinaus war die Höhe der erhaltenen Guthaben äußerst hilfreich. Es ist im Grunde eine Investition, die wir ohne Eigenkapital erhalten.“ Dies ist besonders wertvoll für Startups, die auf KI-Infrastruktur angewiesen sind.

„Als Startup vor dem KI-Zeitalter beschränkten sich unsere Cloud-Kosten auf Hosting und Speicherplatz, doch heute werden große Sprachmodelle (LLMs) zu unserem Hauptkostenfaktor“, sagt Kshirsagar. „Ohne diese Guthaben hätten wir uns bei jeder Kundenveröffentlichung gefragt: Wie viel wird das kosten? Wird das unsere Liquidität gefährden? Jetzt können wir das Problem einfach lösen und im Nachhinein Optimierungsmöglichkeiten finden.“

Neben den Kosteneinsparungen ermöglichte AWS Activate dem Tusk-Team, sich auf das Wesentliche zu konzentrieren. „Wir haben schon so viele Dinge, um die wir uns täglich kümmern müssen. Da möchte man nicht, dass auch noch die Cloud-Nutzung oder -Kosten dazu gehören“, sagt Kshirsagar. „Mit Activate können wir uns voll und ganz auf unsere Kunden konzentrieren – welches Problem haben sie, wie können wir es am besten lösen – und müssen uns nicht ständig Gedanken über die zukünftigen Kosten machen.“

Beobachtbarkeit in Echtzeit trifft auf skalierbare Intelligenz

Tusk verwendet eine Kombination von AWS-Services für Inferenz und Überwachung. „Amazon Bedrock ist unsere primäre LLM-Inferenzlösung“, sagt Kshirsagar. „Einer der Hauptvorteile ist die skalierbare regionsübergreifende Inferenz, die gerade in der Anfangsphase wichtig ist, wenn die Kundenzahl innerhalb weniger Wochen von 1 auf 10 steigen kann und die Ratenlimits erhöht werden müssen.“

Die von Tusk in Amazon Bedrock verwendeten Modelle fördern das semantische Verständnis und die Regressionsklassifizierung. „Wenn Tusk Unterschiede in den Ausgaben einer API-Antwort untersucht, muss es berücksichtigen, dass Sie möglicherweise die Struktur der API geändert oder die Antwort leicht modifiziert haben“, erklärt Kshirsagar. „Wir verwenden in Bedrock Reasoning-Modelle, um anhand des Kontexts der Pull-Anforderung zu bestimmen, ob es sich bei dieser Änderung um eine Regression oder ein beabsichtigtes Update handelt.“

Amazon Bedrock unterstützt Tusk bei der Optimierung der Modell- und Token-Nutzung. „Wir wechseln häufig die Modelle je nach Komplexität der Aufgabe“, erklärt Kshirsagar. Ist ein Modellwechsel erforderlich, vereinfacht Amazon Bedrock diesen Prozess – oft genügt es, lediglich die Modell-ID zu aktualisieren.

Überwindung des QA-Engpasses, hin zu durchgängiger Qualitätssicherung

Während Tusk weiter wächst und sich entwickelt, bleibt die Kundenorientierung, die während seiner Zeit in YC gefördert wurde, von zentraler Bedeutung. „Wir beobachten häufig Burnout bei unseren Entwicklern“, sagt Tan. „Wir möchten ihnen helfen, weniger Zeit mit Tests zu verbringen und sich stattdessen mehr den spannenden Aufgaben zu widmen, wie der Entwicklung von Lösungen für komplexe Probleme oder der Arbeit an Funktionen, die den Benutzern helfen.“

Um dieses Ziel zu erreichen, intensiviert Tusk die Zusammenarbeit mit AWS und nutzt Amazon Bedrock. „Da wir kontinuierlich neue Funktionen entwickeln und neue Kunden gewinnen, wird unsere Nutzung von Amazon Bedrock wahrscheinlich exponentiell zunehmen“, sagt Kshirsagar. „Wir haben auch mit AWS über eine mögliche Feinabstimmung von Modellen oder die Erstellung und das Training unserer eigenen Modelle auf AWS-Trainium-EC2-Instances gesprochen.“

„Wir planen, die All-in-One-Testplattform zu werden“, sagt Tan. „Wir werden alle wichtigen Arten von Testsoftware, auf die sich Unternehmen verlassen, intelligent abdecken: Einheiten-, Integrations- (API) und End-to-End-Tests. Dadurch kann Tusk als KI-Testingenieur auf Mitarbeiterebene fungieren, den jeder – sogar ein Ein-Personen-Startup – engagieren kann, um jede Codeänderung und jede Pull-Anforderung zu prüfen. Das ist unsere ultimative Vision.“

Wie war dieser Inhalt?