Apa itu LLM (Model Bahasa Besar)?

Buat Akun AWS

Topik halaman

Apa itu Model Bahasa Besar?
Mengapa Model Bahasa Besar Penting?
Bagaimana Cara Kerja Model Bahasa Besar?
Apa Saja Aplikasi Model Bahasa Besar?
Bagaimana Model Bahasa Besar Dilatih?
Apa Masa Depan LLM?
Bagaimana Cara AWS Membantu Anda dengan LLM?

Apa itu Model Bahasa Besar?

Model bahasa besar, juga dikenal sebagai LLM, adalah model deep learning yang sangat besar yang telah dilatih sebelumnya pada sejumlah besar data. Transformator yang mendasari adalah rangkaian jaringan neural yang terdiri dari enkoder dan dekoder dengan kemampuan perhatian mandiri. Enkoder dan dekoder mengekstraks makna dari urutan teks serta memahami hubungan antara kata dan frasa di dalamnya.

LLM transformator mampu melakukan pelatihan tanpa pengawasan meski penjelasan yang lebih tepat adalah bahwa transformator melakukan pembelajaran mandiri. Melalui proses inilah transformator belajar memahami tata bahasa, bahasa, dan pengetahuan dasar.

Tidak seperti jaringan neural berulang (RNN) sebelumnya yang secara berurutan memproses input, transformator memproses seluruh urutan secara paralel. Hal ini memungkinkan para ilmuwan data untuk menggunakan GPU guna melatih LLM berbasis transformator sehingga mengurangi waktu pelatihan secara signifikan.

Arsitektur jaringan neural transformator memungkinkan penggunaan model yang sangat besar, sering kali dengan ratusan miliar parameter. Model skala besar seperti itu dapat menyerap sejumlah besar data, sering kali dari internet, tetapi juga dari sumber seperti Common Crawl, yang mencakup lebih dari 50 miliar halaman web, dan Wikipedia, yang memiliki sekitar 57 juta halaman.

Baca Selengkapnya tentang Jaringan Neural »

Baca Selengkapnya tentang Deep Learning »

Mengapa Model Bahasa Besar Penting?

Model bahasa besar sangat fleksibel. Satu model dapat melakukan tugas yang sama sekali berbeda, seperti menjawab pertanyaan, meringkas dokumen, menerjemahkan bahasa, dan melengkapi kalimat. LLM memiliki potensi untuk mengganggu pembuatan konten serta cara orang menggunakan mesin pencari dan asisten virtual.

Meski tidak sempurna, LLM menunjukkan kemampuan luar biasa untuk membuat prediksi berdasarkan jumlah prompt atau input yang relatif kecil. LLM dapat digunakan untuk AI generatif (kecerdasan buatan) untuk menghasilkan konten berdasarkan prompt input dalam bahasa manusia.

LLM sangat, amat besar. LLM dapat mempertimbangkan miliaran parameter dan memiliki banyak kemungkinan kegunaan. Berikut adalah beberapa contohnya:

Model GPT-3 milik Open AI memiliki 175 miliar parameter. Model yang setara, ChatGPT, dapat mengidentifikasi pola dari data dan menghasilkan output yang alami dan mudah dibaca. Meski kita tidak tahu ukuran Claude 2, model ini dapat mengambil input hingga 100 ribu token di setiap prompt, yang berarti dapat bekerja dengan lebih dari ratusan halaman dokumentasi teknis atau bahkan seluruh buku.
Model Jurassic-1 milik AI21 Labs memiliki 178 miliar parameter serta kosakata token sebanyak 250.000 bagian kata dan kemampuan percakapan serupa.
Model Command milik Cohere memiliki kemampuan serupa dan dapat bekerja di lebih dari 100 bahasa yang berbeda.
Paradigm milik LightOn menawarkan model fondasi dengan kemampuan yang diklaim melebihi GPT-3. Semua LLM ini dilengkapi dengan API yang memungkinkan developer membuat aplikasi AI generatif yang unik.

Baca Selengkapnya tentang AI Generatif »

Baca Selengkapnya tentang Model Fondasi »

Bagaimana Cara Kerja Model Bahasa Besar?

Faktor kunci dalam cara kerja LLM adalah caranya merepresentasikan kata-kata. Bentuk machine learning sebelumnya menggunakan tabel numerik untuk merepresentasikan setiap kata. Namun, bentuk representasi ini tidak dapat mengenali hubungan antara kata-kata, seperti kata-kata dengan makna yang serupa. Keterbatasan ini diatasi dengan menggunakan vektor multidimensi, yang biasa disebut sebagai penyematan kata, untuk merepresentasikan kata-kata sehingga kata-kata dengan makna kontekstual yang sama atau hubungan lainnya saling berdekatan dalam ruang vektor.

Menggunakan penyematan kata, transformator dapat melakukan praproses teks sebagai representasi numerik melalui enkoder serta memahami konteks kata dan frasa dengan makna yang serupa serta hubungan lain antara kata-kata, seperti kelas kata. LLM kemudian dapat menerapkan pengetahuan bahasa ini melalui dekoder untuk menghasilkan output yang unik.

Apa Saja Aplikasi Model Bahasa Besar?

Ada banyak aplikasi praktis untuk LLM.

Penulisan Wara

Selain GPT-3 dan ChatGPT, tersedia pula Claude, Llama 2, Cohere Command, dan Jurassiccan yang menulis wara orisinal. AI21 Wordspice menyarankan perubahan pada kalimat asli untuk meningkatkan gaya dan suara.

Penjawaban Basis Pengetahuan

Sering disebut sebagai pemrosesan bahasa alami intensif pengetahuan (KI-NLP), teknik ini mengacu pada LLM yang dapat menjawab pertanyaan spesifik dari bantuan informasi dalam arsip digital. Contohnya adalah kemampuan taman bermain AI21 Studio untuk menjawab pertanyaan pengetahuan umum.

Pengklasifikasian Teks

Menggunakan pengklasteran, LLM dapat mengklasifikasikan teks dengan makna atau sentimen yang serupa. Penggunaannya termasuk mengukur sentimen pelanggan, menentukan hubungan antara teks, dan pencarian dokumen.

Pembuatan Kode

LLM mahir dalam pembuatan kode dari prompt bahasa alami. Contohnya termasuk kodeks milik Amazon CodeWhisperer dan Open AI yang digunakan dalam GitHub Copilot, yang dapat membuat kode dalam bahasa pemrograman Python, JavaScript, Ruby, dan beberapa lainnya. Aplikasi pengodean lainnya termasuk membuat kueri SQL, menulis perintah shell, dan desain situs web. Pelajari Selengkapnya tentang Pembuatan Kode AI.

Pembuatan Teks

Mirip dengan pembuatan kode, pembuatan teks dapat melengkapi kalimat yang belum lengkap, menulis dokumentasi produk, atau, seperti Alexa Create, menulis cerita pendek untuk anak-anak.

Bagaimana Model Bahasa Besar Dilatih?

Jaringan neural berbasis transformator sangat besar. Jaringan ini berisi banyak simpul dan lapisan. Setiap simpul dalam lapisan memiliki koneksi ke semua simpul di lapisan berikutnya, yang masing-masing memiliki bobot dan bias. Bobot dan bias bersama dengan sematan dikenal sebagai parameter model. Jaringan neural berbasis transformator yang besar dapat memiliki miliaran parameter. Ukuran model umumnya ditentukan oleh hubungan empiris antara ukuran model, jumlah parameter, dan ukuran data pelatihan.

Pelatihan dilakukan menggunakan korpus besar data berkualitas tinggi. Selama pelatihan, model secara iteratif menyesuaikan nilai parameter hingga model memprediksi token berikutnya dari urutan token input sebelumnya dengan benar. Pelatihan ini dilakukan melalui teknik belajar mandiri yang mengajarkan model untuk menyesuaikan parameter guna memaksimalkan kemungkinan token berikutnya dalam contoh pelatihan.

Setelah dilatih, LLM dapat dengan mudah disesuaikan untuk melakukan banyak tugas menggunakan set data yang diawasi yang relatif kecil, yaitu sebuah proses yang dikenal sebagai penyempurnaan.

Ada tiga model pembelajaran umum:

Zero-shot learning: LLM dasar dapat merespons berbagai permintaan tanpa pelatihan eksplisit, sering kali melalui prompt, meski akurasi jawaban bervariasi.
Few-shot learning: Dengan memberikan beberapa contoh pelatihan yang relevan, performa model dasar meningkat secara signifikan di area spesifik tersebut.
Penyempurnaan: Ini adalah lanjutan dari few-shot learning di mana para ilmuwan data melatih model dasar untuk menyesuaikan parameternya dengan data tambahan yang relevan dengan aplikasi spesifik.

Apa Masa Depan LLM?

Pengenalan model bahasa besar, seperti ChatGPT, Claude 2, dan Llama 2 yang dapat menjawab pertanyaan dan menghasilkan teks menunjukkan kemungkinan-kemungkinan yang menarik pada masa mendatang. Perlahan, tetapi pasti, LLM makin mendekati performa seperti manusia. Keberhasilan langsung dari LLM ini menunjukkan minat yang besar pada LLM tipe robot yang meniru dan, dalam beberapa konteks, mengungguli otak manusia. Berikut adalah beberapa pemikiran mengenai masa depan LLM,

Peningkatan Kemampuan

Meski mengesankan, tingkat teknologi saat ini tidak sempurna dan LLM tidak sepenuhnya sempurna. Namun, perilisan yang lebih baru akan meningkatkan akurasi dan kemampuan yang ditingkatkan karena developer belajar cara meningkatkan performa mereka sambil mengurangi bias dan menghilangkan jawaban yang salah.

Pelatihan Audiovisual

Sementara developer melatih sebagian besar LLM menggunakan teks, beberapa telah memulai model pelatihan menggunakan input video dan audio. Bentuk pelatihan ini harus mengarah pada pengembangan model yang lebih cepat dan membuka kemungkinan baru dalam penggunaan LLM untuk kendaraan otonom.

Transformasi Tempat Kerja

LLM adalah faktor pengganggu yang akan mengubah tempat kerja. LLM kemungkinan akan mengurangi tugas monoton dan berulang dengan cara yang sama seperti yang dilakukan robot untuk tugas-tugas manufaktur berulang. Kemungkinannya mencakup tugas administrasi berulang, chatbot layanan pelanggan, dan penulisan wara otomatis sederhana.

AI Percakapan

LLM tidak diragukan lagi akan meningkatkan performa asisten virtual otomatis, seperti Alexa, Google Assistant, dan Siri. Model tersebut akan lebih mampu menafsirkan maksud pengguna dan merespons perintah yang canggih.

Baca Selengkapnya tentang AI Percakapan di Sini

Bagaimana Cara AWS Membantu Anda dengan LLM?

AWS menawarkan beberapa kemungkinan untuk developer model bahasa besar. Amazon Bedrock adalah cara termudah untuk membangun dan menskalakan aplikasi AI generatif dengan LLM. Amazon Bedrock adalah layanan terkelola penuh yang membuat LLM dari Amazon dan perusahaan rintisan AI terkemuka tersedia melalui API, sehingga Anda dapat memilih dari berbagai LLM untuk menemukan model yang paling cocok untuk kasus penggunaan Anda.

Amazon SageMaker JumpStart adalah hub machine learning dengan model fondasi, algoritma bawaan, dan solusi ML prabangun yang dapat Anda deploy hanya dengan beberapa klik. Dengan SageMaker JumpStart, Anda dapat mengakses model yang telah dilatih sebelumnya, termasuk model fondasi untuk melakukan tugas, seperti peringkasan artikel dan pembuatan gambar. Model yang telah dilatih sebelumnya sepenuhnya dapat disesuaikan untuk kasus penggunaan Anda dengan data yang dimiliki, dan Anda dapat dengan mudah men-deploy model tersebut ke dalam produksi dengan antarmuka pengguna atau SDK.

Mulai Menggunakan LLM dan AI di AWS dengan Membuat akun Gratis Sekarang.

Langkah Berikutnya di AWS

Lihat sumber daya tambahan terkait produk

Berinovasi lebih cepat dengan layanan AI generatif AWS

Daftar untuk akun gratis

Dapatkan akses langsung ke AWS Tingkat Free.

Daftar

Mulai membangun di konsol

Mulai membangun di konsol manajemen AWS.

Masuk

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Memuat

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages