Pelajari
Dari YC ke AWS: Tusk mengubah lalu lintas produksi menjadi pengujian yang ditenagai AI di AWS

Dari YC ke AWS: Tusk mengubah lalu lintas produksi menjadi pengujian yang ditenagai AI di AWS

Bagaimana konten ini?

Tusk turns production traffic into AI-powered tests on AWS

Kode yang dihasilkan AI dengan cepat membentuk kembali pengembangan perangkat lunak. Hal-hal yang dahulunya membutuhkan waktu berhari-hari kini dapat diselesaikan dalam hitungan jam, dan hal-hal yang harus dikerjakan secara tim dapat makin dikerjakan oleh individu. Masalahnya? Makin banyak kode yang dihasilkan dibandingkan dengan sebelumnya. Hal tersebut berarti ada lebih banyak permintaan tarik, lebih banyak kasus edge, dan lebih banyak permintaan pada tim rekayasawan. Penghematan waktu dalam penulisan kode menjadi tidak berarti jika justru habis terserap oleh meningkatnya persyaratan jaminan kualitas—tanggung jawab yang makin melekat pada mereka yang membangun perangkat lunak.

Tusk, startup perintis dan alumnus Y Combinator (YC), membantu bisnis mencegah bug yang kemungkinan terlewatkan oleh agen pengodean dan manusia dengan pengujian berkemampuan AI berdasarkan lalu lintas produksi nyata. Dengan menggunakan model fondasi (FM) beperforma tinggi di Amazon Bedrock, Tusk secara otomatis menandai masalah, seperti regresi tidak terduga dan penyimpangan kontrak API sebelum penggabungan kode, sehingga memungkinkan tim rekayasawan untuk fokus pada pekerjaan yang bernilai lebih tinggi.

Pengujian perangkat lunak dibangun berdasarkan realita, bukan asumsi

Didirikan pada tahun 2023 oleh dua lulusan UC Berkeley, Tusk membantu bisnis mengirimkan kode berkualitas dengan pengujian yang dihasilkan AI berdasarkan perilaku pengguna nyata. "Tusk mengubah lalu lintas produksi Anda menjadi pengujian unit dan API yang realistis," ungkap Marcel Tan, CEO. "Kami melakukan ini dengan merekam jejak saat pengguna berinteraksi dengan aplikasi Anda di dunia nyata, dan kami memutar ulang jejak ini terhadap perubahan kode untuk menemukan serta mencegah regresi." Hal ini menandai perubahan signifikan dalam cara bisnis dari semua ukuran dapat melakukan pengujian kode di era AI.

"Jika Anda melihat semua tim rekayasawan teratas saat ini, orang-orang yang melakukan QA biasanya adalah orang yang juga membangun fitur tersebut," ungkap Tan. Alasan di balik tren ini masuk akal. Tim-tim ini memiliki konteks yang lebih baik untuk melakukan pengujian karena merekalah yang benar-benar memperbarui dan mengoptimalkan kode. Namun, karena volume kode melonjak, memperbaiki bug menjadi hal yang makin memakan waktu. "Sebelumnya, hampir setengah dari siklus rilis selalu tersita untuk QA. Dengan agen pengodean saat ini, kami memiliki rekayasawan teratas yang menghabiskan 90 persen waktu mereka untuk QA, yang kurang efisien dari segi waktu," ungkap Tan.

"Sebagian besar pengujian yang ditulis secara manual atau dengan AI tidak benar-benar menggambarkan cara pengguna berinteraksi dengan produk Anda di dunia nyata," kata Tan. "Karena kami menangkap lalu lintas nyata, kami dapat mencakup kasus edge yang biasanya terlewatkan." Hal tersebut termasuk kegagalan yang tidak disadari sebagai akibat dari perilaku semantik yang tidak diinginkan. Dalam contoh ini, output tampak valid, tetapi secara fungsional salah. Tusk menjalankan dan mengiterasi pengujian yang dihasilkannya, serta dengan mengevaluasinya terhadap lalu lintas produksi nyata, memudahkan pendeteksian regresi yang hampir tidak mungkin diprediksi.

Menginkubasi kesuksesan dari pitch pertama hingga mencapai kecocokan pasar produk

Tusk memulai perjalanannya sebagai salah satu agen pengodean pertama yang tersedia untuk umum. "Kami ingin membangun agen pengodean yang memungkinkan manajer produk, rekayasawan perangkat lunak, bahkan orang-orang nonteknis untuk beralih dari tiket JIRA menjadi permintaan pull," kata Tan. "Bisa dikatakan bahwa kami adalah agen pertama yang mampu melakukan hal tersebut dalam basis kode yang matang." Setelah mempresentasikan versi awal produknya ini, perusahaan diterima di batch YC W24, yang menjadi awal terbentuknya Tusk saat ini.

"Tiga bulan YC sangatlah intensif," ungkap Tan. "Pada dasarnya YC adalah pelatihan intensif dan Anda tidak benar-benar memikirkan apa pun selain startup." Bagi Tusk, salah satu aspek paling berharga dari pengalaman YC adalah terhubung dengan para pendiri lain, termasuk grup yang lebih kecil dan lebih dikuratori dalam batch. Grup ini akan bertemu secara teratur untuk membahas tujuan dan kemajuan mereka. "Hal ini benar-benar memotivasi karena Anda dapat melihat seberapa cepat orang-orang dapat bergerak dalam rentang waktu tiga atau empat hari. Rasa urgensi itu melekat ke dalam startup tersebut—hal itu memberi Anda DNA yang baik," kata Tan.

Pelajaran yang membekas dari inkubator adalah nilai dari keterlibatan langsung dengan pelanggan. "Alih-alih mencoba memahami hal-hal yang dibutuhkan pelanggan, kami didorong untuk bertanya langsung kepada mereka," ungkap Tan. "Kedengarannya sangat jelas, kan? Terkadang nasihat yang paling sederhana adalah nasihat terbaik." Bahkan, setelah terlibat dengan pelanggan, tim Tusk mulai memikirkan kembali arah bisnis mereka.

"Pelanggan kami kemudian berulang kali menunjukkan bahwa menghasilkan lebih banyak permintaan pull menciptakan lebih banyak pekerjaan untuk rekayasawan mereka," ungkap Tan. Hal ini, ditambah dengan meningkatnya ketersediaan pendamping pengodean yang ditenagai AI, memberikan sinyal yang jelas tentang arah industri. "Menulis kode menjadi komoditas," ungkap Tan. "Kami menyadari bahwa dalam 18 bulan hambatan akan memverifikasi bahwa kode berfungsi." Akibatnya, tim mengalihkan fokus, mengarahkan ulang perusahaan ke pengujian, dan meletakkan dasar untuk produk yang ditawarkannya saat ini.

Kebebasan untuk fokus pada pelanggan, alih-alih biaya

Tidak lama setelah keluar dari YC, Tusk mulai berkolaborasi dengan AWS. Perusahaan tersebut berpartisipasi dalam AWS Activate, program khusus untuk mendukung startup dengan keahlian teknis, peluang masuk ke pasar, dan pendanaan dalam bentuk Kredit AWS. " Hal ini sangat luar biasa," kata Sohil Kshirsagar, CTO. "Tim AWS sangat responsif, bahkan ketika kami jauh lebih kecil. Selain itu, jumlah kredit yang kami terima sangat membantu. Hal ini pada dasarnya adalah investasi yang kami dapatkan tanpa ekuitas." Hal ini sangat berharga bagi startup yang mengandalkan infrastruktur AI.

"Sebagai startup pra-AI, biaya cloud Anda akan terbatas pada hal-hal seperti hosting dan penyimpanan, tetapi saat ini, model bahasa besar (LLM) menjadi biaya utama Anda", ungkap Kshirsagar. "Jika kami tidak mendapatkan kredit tersebut, setiap kali kami merilis sesuatu untuk pelanggan, kami akan berpikir berapa biayanya yang diperlukan? Apakah ini akan memengaruhi runway kami? Namun sekarang, kami bisa menyelesaikan masalah terlebih dahulu dan mencari cara mengoptimalkannya setelah itu."

Selain penghematan biaya, AWS Activate membebaskan tim Tusk untuk mengarahkan perhatian mereka pada hal yang paling penting. "Sudah ada begitu banyak hal yang harus kami khawatirkan setiap hari, Anda tidak benar-benar ingin penggunaan atau pengeluaran cloud menjadi salah satunya," kata Kshirsagar. "Activate memungkinkan kami untuk tetap fokus pada pelanggan—apa masalah yang mereka hadapi, bagaimana kami dapat menyelesaikannya dengan sebaik-baiknya—dan tidak harus selalu memikirkan implikasi biaya di masa mendatang."

Observabilitas waktu nyata bertemu kecerdasan yang dapat diskalakan

Tusk menggunakan kombinasi layanan AWS untuk inferensi dan pemantauan. "Amazon Bedrock adalah solusi inferensi LLM utama kami," ungkap Kshirsagar. "Salah satu keuntungan utama yang diberikannya kepada kami adalah inferensi lintas wilayah yang dapat diskalakan, yang krusial di tahap awal saat jumlah pelanggan dapat melonjak dari satu ke sepuluh dalam beberapa minggu dan membutuhkan peningkatan batasan tarif."

Model yang digunakan Tusk di Amazon Bedrock mendorong pemahaman semantik dan klasifikasi regresi. "Ketika Tusk melihat perbedaan dalam output respons API, Tusk harus mempertimbangkan bahwa Anda mungkin mengubah struktur API atau sedikit memodifikasi respons," ungkap Kshirsagar. "Kami menggunakan model penalaran di Bedrock untuk menentukan apakah perubahan tersebut adalah regresi, atau pembaruan yang dimaksudkan berdasarkan konteks permintaan pull."

Amazon Bedrock membantu Tusk mengoptimalkan model dan penggunaan token. "Kami sering mengganti model tergantung pada kompleksitas tugas," kata Kshirsagar. Jika perubahan model diperlukan, Amazon Bedrock membuat proses tersebut menjadi mudah—sering kali semudah memperbarui ID model.

Melampaui hambatan QA, menuju jaminan ujung ke ujung

Seiring dengan pertumbuhan dan perkembangan Tusk, pola pikir mengutamakan pelanggan yang dipupuk selama di YC tetap menjadi fondasi utama. “Kami melihat banyak kelelahan di antara para rekayasawan,” kata Tan. "Kami ingin membantu mereka menghabiskan lebih sedikit waktu terjebak dengan pengujian dan mendapatkan lebih banyak waktu untuk hal-hal yang menyenangkan, seperti mendesain solusi untuk masalah yang kompleks atau mengerjakan fitur yang melayani pengguna."

Untuk mewujudkan ambisi tersebut, Tusk memperdalam kolaborasinya dengan AWS menggunakan Amazon Bedrock. "Saat kami terus merilis fitur baru dan menjangkau pelanggan baru, penggunaan Amazon Bedrock kami kemungkinan akan meningkat secara eksponensial," kata Kshirsagar. "Kami juga telah berbicara dengan AWS tentang model yang berpotensi menyempurnakan atau membangun dan melatih model kami sendiri pada instans EC2 AWS Trainium."

"Kami berencana untuk menjadi platform pengujian yang lengkap," kata Tan. "Kami akan secara cerdas mencakup semua tipe utama perangkat lunak pengujian yang diandalkan perusahaan: unit, integrasi (API), dan pengujian ujung ke ujung. Hal ini akan memungkinkan Tusk berperan sebagai rekayasawan pengujian AI tingkat staf yang dapat direkrut siapa pun—bahkan startup dengan satu orang saja—untuk melakukan QA dari setiap perubahan kode dan permintaan pull yang Anda buat. Itulah visi utamanya."

Bagaimana konten ini?