Apa itu Model AI Generatif?
Apa itu model AI generatif?
Model AI generatif memiliki kelebihan dan batasan. Tergantung pada tingkat kompleksitas, kinerja, privasi, dan persyaratan biaya dari kasus penggunaan Anda, beberapa model mungkin lebih cocok daripada yang lain. Panduan ini membahas faktor-faktor yang perlu dipertimbangkan dan praktik terbaik dalam memilih model AI generatif.
Model kecerdasan buatan generatif dapat menghasilkan teks, gambar, audio, dan konten video yang asli dan bermakna berdasarkan masukan bahasa alami dari pengguna. Organisasi memanfaatkan teknologi ini untuk berbagai keperluan, mulai dari mengoperasikan chatbot, membuat templat desain, hingga menyelesaikan masalah kompleks dalam bidang biologi. Ribuan model AI proprietary dan open-source tersedia, dan model baru serta versi yang ditingkatkan dirilis setiap hari.
Meskipun memiliki fleksibilitas dan keunggulan, model AI generatif bukanlah solusi serba guna untuk setiap kasus penggunaan. Tim AI harus memilih dan mengevaluasi model terbaik yang mengoptimalkan biaya dan kinerja. Evaluasi model adalah hal yang kompleks. Uji coba populer seperti Helm dan papan peringkat Hugging Face hanya memberikan gambaran umum tentang bagaimana kinerja model AI tertentu dalam tugas-tugas pemrosesan bahasa alami yang umum. Tim AI harus menerapkan strategi yang berbeda untuk mengevaluasi output model terhadap input data kustom, dan kemudian memilih yang paling sesuai dengan kebutuhan mereka.
Bagaimana model AI generatif dievaluasi untuk berbagai kasus penggunaan?
Berikut adalah beberapa faktor yang perlu dipertimbangkan saat memilih model AI yang sesuai untuk kasus penggunaan Anda.
Modalitas
Modalitas merujuk pada jenis data yang diproses oleh model: penyematan, gambar (penglihatan), atau teks. Beberapa model bersifat unimodal dan dapat memproses satu jenis data dengan efisien. Yang lain bersifat multimodal dan dapat mengintegrasikan berbagai jenis data, tetapi mungkin lebih cocok untuk satu jenis data daripada yang lain. Misalnya, model seperti Claude, Llama 3.1, atau Titan Text G1 cocok untuk tugas berbasis teks, sementara Stable Diffusion XL dan Titan Image Generator v2 lebih cocok untuk tugas pengenalan gambar. Demikian pula, model Titan Multimodal Embeddings G1 lebih disukai untuk menerjemahkan gambar atau teks masukan menjadi embedding yang mengandung makna semantik dari gambar dan teks tersebut dalam ruang semantik yang sama.
Ukuran model
Ukuran model adalah jumlah parameter atau variabel konfigurasi yang terdapat di dalam model. Jumlahnya dapat bervariasi dari beberapa juta hingga lebih dari 100 miliar, dengan sebagian besar model memiliki antara 10 hingga 100 miliar parameter. Ukuran model secara langsung menentukan kemampuan model untuk belajar dari data. Model dengan lebih banyak parameter bekerja lebih baik karena dapat memahami data baru secara lebih mendalam. Namun, mereka lebih mahal untuk disesuaikan dan dioperasikan.
Latensi inferensi
Latency inferensi umumnya menjadi masalah dalam skenario real-time di mana pengguna aplikasi AI Anda mungkin mengharapkan respons instan. Ini adalah waktu total yang dibutuhkan oleh model untuk memproses input dan menghasilkan output berdasarkan panjang input. Model AI generatif dengan arsitektur yang kompleks mungkin memiliki kecepatan inferensi yang lebih lambat dibandingkan dengan model yang lebih kecil. Namun, latensi inferensi bervariasi tergantung pada kedua hal, yaitu prompt yang Anda harapkan dan kinerja model. Peningkatan jumlah token (seperti huruf, tanda baca, dll.) dalam masukan pengguna akhir juga dapat meningkatkan latensi.
Jendela konteks
Jendela konteks model AI generatif adalah jumlah token yang dapat “diingat” oleh model tersebut untuk konteks pada satu waktu tertentu. Model dengan jendela konteks yang lebih besar mempertahankan lebih banyak percakapan sebelumnya dan memberikan respons yang lebih relevan. Oleh karena itu, jendela konteks yang lebih besar lebih disukai untuk tugas-tugas kompleks seperti merangkum dokumen panjang atau mendukung percakapan multi-putaran.
Pertimbangan Harga
Biaya operasional model mencakup biaya penggunaan untuk model proprietary dan biaya komputasi serta memori. Biaya operasional dapat bervariasi dari satu model ke model lainnya tergantung pada beban kerja. Membandingkan biaya dengan manfaat memastikan Anda mendapatkan nilai terbaik untuk investasi Anda. Misalnya, menjalankan Claude 2 atau Command R+ akan dikenakan biaya berdasarkan penggunaan karena model-model tersebut bersifat proprietary, sedangkan mengimplementasikan Llama 2 7B memiliki biaya komputasi yang lebih rendah. Namun, jika model proprietary memberikan akurasi atau efisiensi yang jauh lebih baik untuk tugas Anda, biaya tambahan yang mereka kenakan mungkin dapat dibenarkan.
Kualitas respon
Anda dapat mengevaluasi kualitas respons dari sebuah model AI dengan menggunakan beberapa metrik, seperti
- Ketepatan—seberapa sering respons model tersebut benar
- Relevansi—seberapa tepatnya respons terhadap masukan yang diberikan.
- Ketahanan—seberapa baik model menangani masukan yang sengaja dirancang untuk menyesatkan dan membingungkannya.
- Toksisitas—persentase konten yang tidak pantas atau bias dalam keluaran model.
Metrik-metrik tersebut biasanya diukur berdasarkan baseline yang telah dikonfigurasi sebelumnya. Merupakan praktik terbaik untuk mengevaluasi kualitas respons dari beberapa model yang berbeda menggunakan dataset input yang sama, dan memilih model yang memberikan kualitas respons tertinggi.
Apa itu proses pemilihan model AI generatif?
Pemilihan model AI generatif pertama-tama memerlukan Anda untuk menentukan persyaratan spesifik dari aplikasi AI Anda. Pastikan Anda memahami ekspektasi pengguna, kebutuhan pemrosesan data, pertimbangan penerapan, serta detail-detail lain dalam bisnis dan industri Anda. Kemudian, Anda dapat mengeliminasi berbagai model AI dengan melakukan uji kualitas hingga menemukan model terbaik yang sesuai dengan kebutuhan Anda.
Langkah 1 - Menyaring pilihan model awal
Mulailah proses dengan menyaring sekitar 20 model dari ribuan model yang tersedia yang sesuai dengan persyaratan Anda. Memilih antara model open-source dan proprietary adalah setengah dari pekerjaan yang sudah terselesaikan. Setelah Anda menentukan hal tersebut, Anda dapat menyaring lebih lanjut dengan mengevaluasi model berdasarkan kriteria kunci seperti modus, ukuran model, jendela konteks, dan sebagainya, yang dijelaskan dalam bagian sebelumnya.
Model AI generatif sumber terbuka versus model AI generatif berlisensi
Model sumber terbuka menawarkan fleksibilitas dan memungkinkan tim untuk menyesuaikan atau melatih ulang model sepenuhnya menggunakan data proprietary. Hal ini dapat sangat berguna di industri-industri khusus di mana model umum tidak berfungsi dengan baik pada kasus penggunaan yang spesifik. Misalnya, sebuah perusahaan asuransi besar mungkin lebih memilih untuk melatih model sumber terbuka menggunakan data kustom daripada menggunakan model proprietary yang ditujukan untuk sektor keuangan, yang tidak sepenuhnya memenuhi persyaratan spesifik mereka.
Namun, penggunaan model open-source membutuhkan hal-hal yang perlu dipertimbangkan lebih lanjut. Mereka dapat menimbulkan risiko keamanan dan hukum, sehingga organisasi perlu menerapkan langkah-langkah kepatuhan mereka sendiri dan memeriksa dengan cermat syarat-syarat lisensi. Model eksklusif, di sisi lain, umumnya menawarkan fitur keamanan bawaan, jaminan ganti rugi untuk data pelatihan dan output, serta jaminan kepatuhan—yang mengurangi beban operasional bagi bisnis yang memprioritaskan mitigasi risiko.
Langkah 2 - Periksa hasil dan sempitkan daftar lebih lanjut
Pada langkah ini, tujuan Anda adalah mengidentifikasi 3 model AI generatif terbaik yang paling sesuai untuk kasus penggunaan Anda. Pertama, identifikasi subset dari prompt uji yang sesuai dengan kasus penggunaan Anda. Kemudian, periksa secara visual output dari setiap model untuk prompt yang spesifik. Cari hasil yang lebih rinci yang paling sesuai dengan masukan Anda. Pilih 3 teratas yang menghasilkan output yang paling relevan, rinci, dan akurat.
Amazon SageMaker Clarify paling sesuai untuk tahap ini. Sistem ini secara otomatis mengevaluasi FM untuk kasus penggunaan AI generatif Anda dengan menggunakan metrik seperti akurasi, ketangguhan, dan tingkat toksisitas guna mendukung inisiatif AI yang bertanggung jawab.
Langkah 3 - Tolok ukur berbasis kasus penggunaan
Sekarang, Anda dapat mengevaluasi model AI teratas secara lebih rinci berdasarkan prompt dan output yang telah ditentukan sebelumnya untuk dataset uji spesifik Anda. Faktor kunci di sini adalah memiliki kumpulan data uji yang komprehensif yang mencakup semua aspek kasus penggunaan Anda dengan beberapa variasi. Anda juga harus memiliki output ideal yang sesuai untuk secara statistik menilai output model mana yang paling dekat dengan output ideal Anda.
Amazon Bedrock menyediakan alat evaluasi untuk mengevaluasi, membandingkan, dan memilih model AI yang sesuai untuk kasus penggunaan Anda dengan Evaluasi Model.
Ada tiga pendekatan evaluasi yang dapat Anda lakukan.
Programatis
Evaluasi hasil model menggunakan algoritma dan metrik bahasa alami tradisional seperti BERT Score, F1, dan teknik pencocokan tepat lainnya. Amazon Bedrock memungkinkan Anda mencapai hal ini menggunakan dataset prompt bawaan, atau Anda dapat menggunakan dataset prompt Anda sendiri.
Manusia dalam proses
Minta evaluator manusia — anggota tim Anda, sekelompok pengguna akhir, atau evaluator AI profesional — untuk mengevaluasi hasil dari ketiga model tersebut berdasarkan metrik model yang telah ditentukan sebelumnya. Mereka dapat membandingkan hasil secara manual dengan hasil ideal, atau jika kasus penggunaan terlalu luas, mereka dapat mengevaluasi dan menandai hasil berdasarkan penilaian terbaik mereka.
Dengan Amazon Bedrock, Anda dapat mengevaluasi output model bersama tim Anda atau membiarkan AWS mengelola evaluasi respons terhadap dataset prompt kustom dengan metrik seperti relevansi, gaya, dan kesesuaian dengan suara merek, atau metrik bawaan.
Model AI lainnya sebagai penilai
Dalam pendekatan ini, model AI lain mengevaluasi output dari ketiga model tersebut secara objektif. Hal ini paling efektif untuk kasus penggunaan di mana keluaran telah didefinisikan dengan jelas dan kesamaannya dengan keluaran ideal dapat diukur secara statistik. Amazon Bedrock memungkinkan Anda mengevaluasi hasil model menggunakan model AI lain dalam mode LLM-as-a-judge. Anda dapat menggunakan dataset prompt kustom Anda dengan metrik seperti akurasi, kelengkapan, dan potensi bahaya, serta metrik AI yang bertanggung jawab seperti penolakan jawaban dan potensi bahaya.
Langkah 4 - Pemilihan akhir
Manfaatkan data evaluasi, ditambah analisis biaya dan performa, untuk menentukan model akhir. Dengan Amazon Bedrock, Anda dapat menggunakan fitur perbandingan dalam evaluasi untuk melihat hasil dari perubahan apa pun yang Anda lakukan pada prompt Anda dan model yang sedang dievaluasi. Lihat semua analitik Anda dalam satu tempat dan pilih model yang memberikan keseimbangan terbaik antara kinerja, biaya, serta risiko terkait, sekaligus menggunakan sumber daya secara efisien.
Memilih model AI generatif yang tepat untuk kasus penggunaan Anda memerlukan pendekatan terstruktur yang menyeimbangkan kemampuan teknis, kebutuhan bisnis, dan keterbatasan operasional. Kuncinya adalah menyelaraskan keputusan Anda dengan persyaratan khusus dari kasus penggunaan Anda. Evaluasi model dengan cermat berdasarkan faktor-faktor seperti jenis model, ukuran, kemampuan pemrosesan data, dan pertimbangan implementasi. Pada akhirnya, model yang tepat dapat meningkatkan efisiensi dan inovasi, serta menyediakan landasan yang dapat diskalakan untuk kemajuan berbasis kecerdasan buatan (AI) di organisasi Anda di masa depan.