Lewati ke konten utamaAWS Startups
  1. Pelajari
  2. Adaptive ML dan CCS Mempercepat Dukungan Pasien dengan Meta Llama dan AWS

Adaptive ML dan CCS Mempercepat Dukungan Pasien dengan Meta Llama dan AWS

Bagaimana konten ini?

Adaptive ML, sebuah perusahaan yang mengembangkan perangkat lunak pembelajaran penguatan untuk AI korporasi, berupaya membantu CCS, sebuah penyedia terkemuka solusi klinis dan perlengkapan medis yang dikirim ke rumah, untuk meningkatkan waktu respons serta keandalan di seluruh operasi layanan pasiennya bagi orang yang mengelola kondisi kronis. Tim Adaptive ML menguji agen AI yang dirancang untuk menjalankan tugas operasional nyata di seluruh sistem internal menggunakan model Llama dari Meta di Amazon Web Services (AWS). Bukti konsep menunjukkan pendekatan yang lebih cepat dan lebih efisien untuk alur kerja dukungan AI korporasi yang mengurangi latensi respons lebih dari 90 persen.

Meningkatkan waktu respons dukungan pasien

Organisasi layanan kesehatan yang mendukung pasien dengan kondisi kronis harus merespons dengan cepat dan andal permintaan tentang persediaan, pengiriman, dan manajemen perawatan, bahkan selama lonjakan permintaan puncak. Ketika pasien bergantung pada perangkat seperti monitor glukosa kontinu atau pompa insulin, penundaan dalam menyelesaikan masalah dapat mengganggu pengobatan serta menciptakan ketegangan operasional bagi tim pendukung. CCS menyediakan layanan dukungan pasien yang membantu individu mengelola kebutuhan perawatan berkelanjutan, termasuk logistik dan koordinasi yang diperlukan untuk menjaga persediaan medis penting. Interaksi ini sering memerlukan agen untuk mengakses berbagai sistem internal untuk mengambil informasi, memeriksa pesanan, atau membimbing pasien melalui langkah selanjutnya. Karena volume dukungan berfluktuasi, AI menjadi komponen yang makin penting untuk meningkatkan waktu respons.

Untuk mengatasi tantangan ini, CCS mulai mengeksplorasi cara agen AI dapat membantu menyederhanakan alur kerja dukungan pasien. Tujuannya adalah untuk memungkinkan sistem otomatis yang dapat berinteraksi langsung dengan alat korporasi, mengambil informasi dari sistem internal, dan menyelesaikan tugas operasional atas nama tim pendukung. Mencapai hal ini, memerlukan lebih dari sekadar AI percakapan. Agen dukungan korporasi harus menjalankan panggilan fungsi dengan andal, memungkinkan model untuk menginvokasi API di seluruh sistem seperti CRM, basis pengetahuan, dan platform manajemen pesanan. Jika panggilan tersebut gagal karena parameter yang salah atau output yang salah format, alur kerja berhenti. Permintaan tersebut kemudian harus diserahkan kepada agen manusia, yang meningkatkan waktu tunggu serta biaya operasional. Pendekatan tradisional sering kali bergantung pada model kepemilikan besar yang diakses melalui API eksternal. Meskipun generalis yang cakap, model-model ini dapat mengalami latensi dan membatasi kontrol atas pelatihan atau optimisasi untuk alur kerja korporasi khusus. Adaptive ML berpartner dengan CCS untuk mengeksplorasi pendekatan yang berbeda: menggunakan pembelajaran penguatan—model terbuka yang dioptimalkan untuk mendukung agen AI andal yang dapat beroperasi dengan cepat dan efisien di lingkungan dukungan layanan kesehatan dunia nyata.

Melakukan deployment arsitektur agen AI khusus

Adaptive ML mengimplementasikan bukti konsep menggunakan Adaptive Engine, sebuah platform operasi pembelajaran penguatan (RLOps) yang dirancang untuk membantu korporasi melatih, mengevaluasi, dan melakukan deployment model bahasa khusus. Untuk kasus penggunaan CCS, Adaptive ML memilih model Meta Llama 3.2 3B, sebuah model sumber terbuka yang ringkas yang cocok untuk aplikasi korporasi waktu nyata. Model yang lebih kecil menawarkan keuntungan signifikan untuk alur kerja operasional: waktu inferensi yang lebih cepat, persyaratan infrastruktur yang lebih rendah, dan kemampuan untuk melakukan iterasi dengan cepat selama pengembangan. “Begitu kami menguji model Llama, perbedaan latensinya sangat dramatis,” kata Olivier Cruchant, co-founder di Adaptive ML. “Dengan model yang ringkas, Anda dapat merespons hampir secara waktu nyata, yang persis seperti yang Anda butuhkan untuk interaksi dukungan pasien.”

Agen AI korporasi ini memerlukan akurasi panggilan fungsi tingkat tinggi untuk berinteraksi secara andal dengan sistem bisnis. Untuk memenuhi persyaratan ini, Adaptive ML menerapkan penyempurnaan berbasis pembelajaran penguatan melalui Adaptive Engine. Proses ini melatih model Llama untuk secara andal menghasilkan output terstruktur yang diperlukan untuk berinteraksi dengan API korporasi dan sistem bisnis. Sistem ini di-deploy pada instans p5.4xlarge Amazon Elastic Compute Cloud (Amazon EC2) yang dilengkapi dengan GPU NVIDIA H100, yang menyediakan sumber daya komputasi yang dibutuhkan untuk menjalankan model secara efisien.

Adaptive ML juga menggunakan Blok Kapasitas Amazon EC2, yang memungkinkan sumber daya GPU dicadangkan untuk jendela waktu tertentu. Hal ini memungkinkan tim untuk mengamankan ketersediaan GPU untuk penolokuran dan pengujian sambil mempertahankan fleksibilitas dalam penyediaan. “Mampu memesan kapasitas untuk jendela tertentu sangat membantu,” ujar Olivier. “Hal ini memungkinkan kami untuk menjalankan tolok ukur skala besar dengan keyakinan bahwa infrastruktur akan tersedia.” Infrastruktur AWS juga membantu mengurangi latensi sistem dengan menempatkan sumber daya komputasi dan basis data pendukung dalam zona ketersediaan yang sama. Dari perspektif CCS, integrasi tetap mudah. Adaptive ML melakukan host lingkungan model di AWS serta mengeksposnya melalui titik akhir API HTTPS, memungkinkan aplikasi CCS memanggil agen AI secara langsung tanpa perubahan arsitektural besar.

Menunjukkan performa AI layanan kesehatan yang dapat diskalakan

Bukti konsep menunjukkan bahwa model khusus dan ringkas dapat memberikan performa tingkat korporasi untuk alur kerja dukungan pasien yang ditenagai AI. Sistem ini mencapai latensi inferensi sisi klien sekitar 230 milidetik, yang mewakili pengurangan lebih dari 90 persen dibandingkan dengan acuan dasar model kepemilikan. Waktu respons end-to-end ini mencakup siklus permintaan penuh, sementara latensi inferensi model rata-rata sekitar 160 milidetik di sisi server. Itu berarti agen AI dapat merespons dengan cepat bahkan selama alur kerja multilangkah. “Untuk alur kerja secara waktu nyata, latensi adalah segalanya,” kata Olivier. “Ketika respons kembali dalam beberapa ratus milidetik, alih-alih beberapa detik, pengalaman tersebut menjadi dapat digunakan untuk pasien dan tim pendukung.”

Latensi yang lebih rendah juga meningkatkan keandalan alur kerja otomatis. Karena model dapat menghasilkan panggilan fungsi yang akurat dengan cepat, model dapat mengambil data dari sistem korporasi dan menyelesaikan tugas tanpa memerlukan campur tangan manusia. Hal tersebut mengurangi penundaan dalam interaksi pasien serta memungkinkan tim pendukung untuk fokus pada kasus yang lebih rumit. Arsitektur ini juga menunjukkan model ekonomi baru untuk deployment AI korporasi. “Model kecil mengungkap sesuatu yang canggih: kemampuan untuk mengintegrasikan pengetahuan dan alur kerja kepemilikan CCS ke dalam dukungan pasien—meningkatkan kecepatan dan keandalan,” ucap Richard Mackey, CTO di CCS.

Bukti konsep CCS menyoroti bagaimana organisasi layanan kesehatan dapat mulai mengintegrasikan agen AI ke dalam alur kerja operasional sambil mempertahankan keresponsifan dan keandalan yang diperlukan untuk layanan yang berinteraksi langsung dengan pasien. Menggabungkan model Llama Meta dengan platform pembelajaran penguatan Adaptive ML dan infrastruktur AWS, kolaborasi ini menunjukkan jalan menuju sistem dukungan AI yang dapat diskalakan yang dirancang untuk lingkungan korporasi di dunia nyata.

Bagaimana konten ini?