Memilih model fondasi yang tepat untuk perusahaan rintisan Anda

Bagaimana konten ini?

Ketika perusahaan rintisan memasukkan kecerdasan buatan (AI) generatif ke dalam produk mereka, memilih model fondasi (FM) adalah salah satu langkah pertama dan paling penting. FM adalah model machine learning (ML) berukuran besar yang telah dilatih sebelumnya pada sejumlah besar data dalam skala besar. Dengan cara ini, menghasilkan model yang dapat disesuaikan dengan berbagai tugas downstream.

Pemilihan model memiliki implikasi strategis terhadap pembangunan sebuah perusahaan rintisan. Segala sesuatu mulai dari pengalaman pengguna dan pemasaran, hingga perekrutan dan profitabilitas, dapat dipengaruhi oleh model yang Anda pilih. Model bervariasi berdasarkan sejumlah faktor, termasuk:

  • Tingkat kustomisasi – Kemampuan untuk mengubah output model dengan data baru mulai dari pendekatan berbasis prompt hingga pelatihan ulang model penuh
  • Ukuran model – Berapa banyak informasi yang telah dipelajari model seperti yang ditentukan oleh jumlah parameter
  • Opsi inferensi — Dari deployment yang dikelola sendiri hingga panggilan API
  • Perjanjian lisensi – Beberapa perjanjian dapat membatasi atau melarang penggunaan komersial
  • Ragam konteks – Berapa banyak informasi yang dapat masuk dalam satu prompt
  • Latensi – Berapa lama waktu yang diperlukan model untuk menghasilkan output

Bagian berikut menunjukkan hal yang harus dipertimbangkan ketika memilih FM untuk memenuhi kebutuhan perusahaan rintisan Anda.

Tolok ukur khusus aplikasi

Saat Anda mengevaluasi performa FM yang berbeda untuk kasus penggunaan Anda, langkah penting dalam proses ini adalah menetapkan strategi tolok ukur. Strategi ini membantu Anda mengukur seberapa sesuai konten dengan harapan Anda.

“Ada banyak sekali model di luar sana, mulai dari pemain sumber tertutup… hingga model sumber terbuka, seperti Dolly, Alpaca, dan Vicuna. Setiap model ini memiliki kelebihannya masing-masings — sangat penting untuk memilih model terbaik untuk pekerjaan tersebut”, jelas Noa Flaherty, kepala staf teknologi (chief technology officer/CTO) dan salah satu pendiri Vellum. “Kami telah membantu bisnis menerapkan berbagai kasus penggunaan AI dan telah melihat secara langsung bahwa setiap kasus penggunaan memiliki persyaratan berbeda dalam hal biaya, kualitas, latensi, ragam konteks, dan privasi”.

Tolok ukur umum (seperti Evaluasi Holistik Model Bahasa dari Stanford) adalah titik awal yang baik untuk beberapa perusahaan rintisan, karena tolok ukur tersebut membantu memprioritaskan model dasar yang akan digunakan untuk bereksperimen. Namun, tolok ukur umum mungkin tidak cukup untuk perusahaan rintisan yang fokus membangun basis pelanggan tertentu.

Misalnya, jika model Anda perlu merangkum janji temu medis atau umpan balik pelanggan, maka harus dievaluasi berdasarkan seberapa baik model tersebut dapat melakukan tugas-tugas spesifik ini. “Untuk melakukan tolok ukur kustom, Anda memerlukan alur kerja untuk eksperimen cepat  biasanya melalui uji coba di berbagai skenario. Hal yang umum jika menyesuaikan model/prompt Anda secara berlebihan untuk kasus pengujian tertentu dan berpikir Anda memiliki model yang tepat, namun model tersebut gagal setelah diproduksi,” ujar Noa. Tolok ukur kustom dapat mencakup teknik, seperti penghitungan skor BLEU dan ROUGE. Skor ini adalah dua metrik yang membantu perusahaan rintisan mengukur jumlah koreksi yang diperlukan guna diterapkan pada teks yang dihasilkan AI sebelum disetujui untuk digunakan dalam aplikasi human-in-the-loop.

Metrik kualitas dan evaluasi model sangat penting, itulah sebabnya Noa mendirikan Vellum. Perusahaan rintisan yang didukung Y Combinator ini memfokuskan penawaran produk mereka pada eksperimen. Menurut Noa, “Semakin banyak membandingkan/mengontraskan model di berbagai kasus yang menyerupai apa yang akan Anda lihat dalam produksi, maka semakin baik produksi Anda.”

Model-model yang lebih kecil dan dibuat khusus sedang meningkat

Setelah tolok ukur kualitas ditetapkan, Anda dapat mulai bereksperimen menggunakan model yang lebih kecil, khusus untuk tugas-tugas tertentu, seperti mengikuti instruksi atau meringkas. Model yang dibuat khusus ini dapat mengurangi jumlah parameter model secara signifikan sekaligus mempertahankan kemampuannya untuk melakukan tugas spesifik domain. Misalnya, perusahaan rintisan GoCharlie bermitra dengan SRI untuk mengembangkan model multimodal khusus pemasaran dengan parameter 1B.

“Model yang universal tidak akan pernah benar-benar memenuhi kebutuhan pengguna akhir, sedangkan model yang dirancang untuk memenuhi kebutuhan tersebut secara spesifik akan menjadi model yang paling efektif,” jelas Kostas Hatalis, direktur utama (CEO) dan salah satu pendiri GoCharlie. “Kami yakin model yang dibuat khusus untuk sektor vertikal tertentu, seperti pemasaran, sangat penting untuk memahami kebutuhan sebenarnya dari pengguna akhir.”

Komunitas riset sumber terbuka mendorong banyak inovasi pada model yang lebih kecil dan dibuat khusus, seperti Alpaca dari Stanford atau Falcon 40B dari Technology Innovation Institute. Papan Peringkat LLM Terbuka dari Hugging Face membantu menentukan peringkat model sumber terbuka ini di berbagai tolok ukur umum. Model yang lebih kecil ini memberikan metrik tolok ukur yang sebanding pada tugas-tugas yang mengikuti instruksi, dengan jumlah parameter dan sumber daya pelatihan yang lebih sedikit.

Saat perusahaan rintisan menyesuaikan model mereka untuk tugas-tugas khusus domain, FM sumber terbuka memberdayakan mereka untuk lebih menyesuaikan dan menyempurnakan sistem mereka dengan set data mereka sendiri. Misalnya, Solusi Parameter-Efficient Fine-tuning (PERT) dari Hugging Face telah menunjukkan penyesuaian sejumlah kecil parameter model, sekaligus pembekuan sebagian besar parameter lain dari LLM yang telah dilatih sebelumnya, dapat sangat mengurangi biaya komputasi dan penyimpanan. Teknik penyempurnaan berbasis adaptasi domain seperti itu umumnya tidak mungkin dilakukan dengan FM eksklusif berbasis API yang dapat membatasi seberapa dalam sebuah perusahaan rintisan dapat membangun produk yang berbeda.

Memfokuskan penggunaan pada tugas-tugas tertentu juga memungkinkan pengetahuan FM yang telah dilatih sebelumnya di berbagai domain, seperti matematika, sejarah, atau kedokteran, umumnya tidak berguna bagi perusahaan rintisan. Beberapa perusahaan rintisan sengaja membatasi cakupan FM ke domain tertentu dengan menerapkan batasan, seperti NeMo Guardrails sumber terbuka Nvidia, dalam model mereka. Batasan ini membantu mencegah model dari halusinasi: output yang tidak relevan, salah, atau tidak terduga.

Fleksibilitas inferensi sangatlah penting

Pertimbangan penting lainnya dalam pemilihan model adalah cara penyajian model tersebut. Model sumber terbuka, serta model eksklusif yang dikelola sendiri, memberikan fleksibilitas untuk menyesuaikan cara dan tempat model dihosting. Mengontrol infrastruktur model secara langsung dapat membantu perusahaan rintisan memastikan keandalan aplikasi mereka dengan praktik terbaik, seperti penskalaan otomatis dan redundansi. Mengelola infrastruktur hosting juga membantu memastikan bahwa semua data yang dihasilkan dan digunakan oleh suatu model disimpan di lingkungan cloud khusus yang dapat mematuhi persyaratan keamanan yang ditetapkan oleh perusahaan rintisan.

Model yang lebih kecil dan dibuat khusus yang kami sebutkan sebelumnya juga memerlukan lebih sedikit perangkat keras yang intensif komputasi, sehingga membantu perusahaan rintisan mengoptimalkan keekonomisan unit serta performa harga. Dalam eksperimen baru-baru ini, AWS mengukur penghematan biaya inferensi hingga 50% saat menggunakan instans AWS Graviton3 berbasis ARM untuk model sumber terbuka dibandingkan dengan instans Amazon Elastic Compute Cloud (EC2) yang serupa.

Prosesor AWS Graviton3 ini juga menggunakan energi hingga 60% lebih sedikit untuk performa yang sama dibandingkan instans Amazon EC2 yang sebanding, sehingga membantu perusahaan rintisan yang mempertimbangkan dampak lingkungan dalam memilih perangkat keras inferensi yang haus daya.  Sebuah studi dari World Economic Forum memperinci konsumsi energi pusat data. Setelah dianggap sebagai eksternalitas, implikasi lingkungan menjadi perhatian utama banyak orang dan AWS memungkinkan perusahaan rintisan mengukur dampak lingkungan mereka melalui penawaran, seperti Carbon Footprint Reporting (Pelaporan Jejak Karbon), yang membantu perusahaan membandingkan efisiensi energi dari berbagai pilihan perangkat keras.

Penutup

Aaron Melgar

Aaron Melgar

Aaron memberdayakan ekosistem Startupss & Venture Capital AI/ML di AWS, yang berfokus pada pertumbuhan perusahaan tahap awal. Dia merupakan former Founder, Series-A Product Manager, Machine Learning Director, dan Strategy Consultant. Aaron adalah warga asing yang tinggal dan menetap di Amerika. Dia menyukai tenis, golf, traveling, dan bertukar rekomendasi buku audio tentang ekonomi, psikologi, atau bisnis.

Bagaimana konten ini?