Apa itu Klasifikasi Teks?

Klasifikasi teks adalah proses menetapkan kategori yang telah ditentukan untuk dokumen teks terbuka menggunakan sistem kecerdasan buatan dan machine learning (AI/ML). Banyak organisasi memiliki arsip dokumen yang besar dan alur kerja bisnis yang terus-menerus menghasilkan dokumen dalam skala besar—seperti dokumen hukum, kontrak, dokumen penelitian, data yang dibuat pengguna, dan email. Klasifikasi teks adalah langkah pertama untuk mengatur, menyusun, dan mengategorikan data ini untuk analitik lebih lanjut. Klasifikasi teks memungkinkan pelabelan dan penandaan dokumen otomatis. Klasifikasi teks menghemat ribuan jam bagi organisasi Anda yang seharusnya Anda perlukan untuk membaca, memahami, dan mengklasifikasikan dokumen secara manual.

Apa saja manfaat klasifikasi teks?

Organisasi menggunakan model klasifikasi teks untuk alasan berikut.

Tingkatkan akurasi

Model klasifikasi teks mengategorikan teks secara akurat dengan sedikit atau tanpa pelatihan tambahan. Mereka membantu organisasi mengatasi kesalahan yang mungkin dilakukan manusia saat mengklasifikasikan data tekstual secara manual. Selain itu, sistem klasifikasi teks lebih konsisten daripada manusia ketika menetapkan tanda ke data teks di berbagai topik.

Berikan analitik waktu nyata

Organisasi menghadapi tekanan waktu ketika memproses data teks secara waktu nyata. Dengan algoritma klasifikasi teks, Anda dapat mengambil wawasan yang dapat ditindaklanjuti dari data mentah dan merumuskan respons langsung. Sebagai contoh, organisasi dapat menggunakan sistem klasifikasi teks untuk menganalisis umpan balik pelanggan dan merespons permintaan yang mendesak dengan segera.

Skalakan tugas klasifikasi teks

Organisasi sebelumnya mengandalkan sistem manual atau berbasis aturan untuk mengklasifikasikan dokumen. Metode ini lambat dan menghabiskan sumber daya yang berlebihan. Dengan klasifikasi teks machine learning, Anda dapat memperluas upaya kategorisasi dokumen di seluruh departemen secara lebih efektif untuk mendukung pertumbuhan organisasi.

Terjemahkan bahasa

Organisasi dapat menggunakan pengklasifikasi teks untuk deteksi bahasa. Model klasifikasi teks dapat mendeteksi bahasa asal dalam percakapan atau permintaan layanan dan mengarahkannya ke tim masing-masing.

Apa saja kasus penggunaan klasifikasi teks?

Organisasi menggunakan klasifikasi teks untuk meningkatkan kepuasan pelanggan, produktivitas karyawan, dan hasil bisnis.

Analisis sentimen

Klasifikasi teks memungkinkan organisasi untuk mengelola merek mereka secara efektif di berbagai saluran dengan mengekstraksi kata-kata tertentu yang mengindikasikan sentimen pelanggan. Menggunakan klasifikasi teks untuk analisis sentimen juga memungkinkan tim pemasaran untuk secara akurat memprediksi tren pembelian dengan data kualitatif.

Misalnya, Anda dapat menggunakan alat bantu klasifikasi teks untuk menganalisis perilaku pelanggan dalam posting media sosial, survei, percakapan obrolan, atau sumber daya teks lainnya, serta merencanakan kampanye pemasaran yang sesuai.

Moderasi konten

Bisnis mengembangkan audiens mereka di grup komunitas, media sosial, dan forum. Mengatur diskusi pengguna merupakan hal yang menantang ketika mengandalkan moderator manusia. Dengan model klasifikasi teks, Anda dapat secara otomatis mendeteksi kata, frasa, atau konten yang mungkin melanggar pedoman komunitas. Hal ini memungkinkan Anda untuk mengambil tindakan segera dan memastikan percakapan terjadi di lingkungan yang aman dan diatur dengan baik.

Manajemen dokumen

Banyak organisasi menghadapi tantangan dalam memproses dan mengurutkan dokumen untuk mendukung operasi bisnis. Pengklasifikasi teks dapat mendeteksi informasi yang hilang, mengekstraksi kata kunci tertentu, dan mengidentifikasi hubungan semantik. Anda dapat menggunakan sistem klasifikasi teks untuk melabeli dan mengurutkan dokumen, seperti pesan, tinjauan, dan kontrak ke dalam kategorinya masing-masing.

Dukungan pelanggan

Pelanggan mengharapkan respons yang tepat waktu dan akurat ketika mereka mencari bantuan dari tim dukungan. Pengklasifikasi teks yang ditenagai oleh machine learning memungkinkan tim dukungan pelanggan untuk mengarahkan permintaan yang masuk ke personel yang tepat. Misalnya, pengklasifikasi teks mendeteksi pertukaran kata dalam tiket dukungan dan mengirimkan permintaan tersebut ke departemen garansi.

Apa saja pendekatan untuk klasifikasi teks?

Klasifikasi teks telah berkembang pesat sebagai bagian dari pemrosesan bahasa alami. Kami membagikan beberapa pendekatan yang digunakan oleh para rekayasawan machine learning untuk mengklasifikasikan data teks.

Inferensi bahasa alami

Inferensi bahasa alami menentukan hubungan antara hipotesis dan premis dengan melabeli mereka sebagai keterlibatan, kontradiksi, atau netral. Keterlibatan menggambarkan hubungan logis antara premis dan hipotesis, sementara kontradiksi menunjukkan keterputusan antara entitas tekstual. Netral diterapkan saat tidak ditemukan adanya keterlibatan atau kontradiksi.

Misalnya, pertimbangkan premis berikut:

Tim kami adalah pemenang kejuaraan sepak bola.

Hal Ini adalah cara hipotesis yang berbeda akan ditandai oleh pengklasifikasi inferensi bahasa alami.

Keterlibatan: Tim kami suka berolahraga.
Kontradiksi:Kami adalah orang yang tidak berolahraga.
Netral: Kami muncul sebagai juara sepak bola.

Pemodelan bahasa probabilistik

Pemodelan bahasa probabilistik adalah pendekatan statistik yang digunakan model bahasa untuk memprediksi kata berikutnya ketika diberikan urutan kata. Dengan pendekatan ini, model memberikan nilai probabilistik untuk setiap kata dan menghitung kemungkinan kata-kata berikut. Ketika diterapkan pada klasifikasi teks, pemodelan bahasa probabilistik mengategorikan dokumen berdasarkan frasa tertentu yang ditemukan dalam teks.

Penyematan kata

Penyematan kata adalah teknik yang menerapkan representasi numerik ke kata-kata yang menangkap hubungan semantiknya. Penyematan kata adalah padanan numerik dari sebuah kata. Algoritma machine learning tidak dapat menganalisis teks secara efisien dalam bentuk aslinya. Dengan penyematan kata, algoritma pemodelan bahasa dapat membandingkan teks yang berbeda berdasarkan penyematannya.

Untuk menggunakan penyematan kata, Anda harus melatih model pemrosesan bahasa alami (NLP). Selama pelatihan, model memberikan kata-kata terkait dengan representasi numerik yang diposisikan secara dekat dalam ruang multidimensi yang dikenal sebagai semantik vektor.

Misalnya, ketika membuat vektor teks dengan penyematan, Anda akan menyadari bahwa anjing dan kucing lebih dekat satu sama lain dalam ruang vektor dua dimensi daripada tomat, orang, dan batu. Anda dapat menggunakan semantik vektor untuk mengidentifikasi teks yang mirip dalam data yang tidak dikenal dan memprediksi frasa berikutnya. Pendekatan ini sangat membantu dalam klasifikasi sentimen, pengorganisasian dokumen, dan tugas klasifikasi teks lainnya.

Model bahasa besar

Model bahasa besar (LLM) adalah algoritma pembelajaran mendalam yang dilatih pada volume besar data teks. Mereka didasarkan pada arsitektur transformator, jaringan neural dengan beberapa lapisan tersembunyi yang mampu memproses data teks secara paralel. Model bahasa yang besar lebih kuat daripada model yang lebih sederhana dan unggul dalam berbagai tugas pemrosesan bahasa alami, termasuk klasifikasi teks.

Tidak seperti pendahulunya, model bahasa besar dapat mengklasifikasikan teks tanpa pelatihan sebelumnya. Mereka menggunakan klasifikasi zero-shot, suatu metode yang memungkinkan model untuk mengategorikan data teks yang tidak terlihat ke dalam kategori yang sudah ditentukan sebelumnya. Misalnya, Anda dapat menerapkan model klasifikasi teks zero-shot di Amazon Sagemaker Jumpstart untuk mengur utkan posting resolusi tahun baru ke dalam karir, kesehatan, keuangan, dan kelas lainnya.

Bagaimana Anda mengevaluasi performa klasifikasi teks?

Sebelum Anda melakukan deployment pengklasifikasi teks untuk aplikasi bisnis, Anda harus mengevaluasinya untuk memastikan bahwa pengklasifikasi tersebut tidak mengalami underfitting. Underfitting adalah fenomena di mana algoritma machine learning beperforma baik dalam pelatihan, tetapi gagal mengklasifikasikan data di dunia nyata secara akurat. Untuk mengevaluasi model klasifikasi teks, kami menggunakan metode validasi silang.

Validasi silang

Validasi silang adalah teknik evaluasi model yang membagi data pelatihan ke dalam grup-grup yang lebih kecil. Setiap grup kemudian dibagi menjadi beberapa sampel untuk pelatihan dan validasi model. Model pertama kali dilatih dengan sampel yang dialokasikan dan diuji dengan sampel yang tersisa. Kemudian, kami membandingkan hasil model dengan hasil anotasi dari manusia.

Kriteria penilaian

Kita dapat mengevaluasi model klasifikasi teks dari penilaian pada beberapa kriteria.

Akurasi menjelaskan jumlah prediksi yang benar yang dibuat oleh pengklasifikasi teks dibandingkan dengan total prediksi.
Presisi mencerminkan kemampuan model untuk secara konsisten memprediksi kelas tertentu dengan benar. Pengklasifikasi teks akan menjadi lebih tepat jika menghasilkan lebih sedikit positif palsu.
Recall mengukur konsistensi model dalam keberhasilan memprediksi kelas yang tepat dibandingkan dengan semua prediksi positif.
Skor F1 menghitung rata-rata harmonik dari presisi dan recall untuk memberikan gambaran umum yang seimbang mengenai akurasi model.

Bagaimana Anda menerapkan klasifikasi teks?

Anda dapat membangun, melatih, dan melakukan deployment model klasifikasi teks dengan mengikuti langkah-langkah berikut.

Kurasi set data pelatihan

Mempersiapkan set data berkualitas tinggi penting saat melatih atau menyempurnakan model bahasa untuk klasifikasi teks. Set data yang beragam dan berlabel memungkinkan model untuk belajar mengidentifikasi kata, frasa, atau pola tertentu dan kategori masing-masing secara efisien.

Siapkan set data

Model machine learning tidak dapat belajar dari set data mentah. Oleh karena itu, Anda harus membersihkan dan menyiapkan set data dengan metode prapemrosesan seperti tokenisasi. Tokenisasi membagi setiap kata atau kalimat menjadi bagian-bagian yang lebih pendek yang disebut token.

Setelah tokenisasi, Anda harus menghapus data yang berlebihan, duplikat, dan abnormal dari set data pelatihan karena dapat memengaruhi performa model. Kemudian Anda membagi set data menjadi data pelatihan dan validasi.

Latih model klasifikasi teks

Pilih dan latih model bahasa dengan set data yang disiapkan. Selama pelatihan, model belajar dari set data beranotasi dan mencoba mengklasifikasikan teks ke dalam kategorinya masing-masing. Pelatihan selesai saat model secara konsisten memberikan hasil yang sama.

Evaluasi dan optimalkan

Nilai model dengan set data uji. Bandingkan presisi, akurasi, recall, dan skor F1 model dengan tolok ukur yang telah ditetapkan. Model yang telah dilatih mungkin memerlukan penyesuaian lebih lanjut untuk mengatasi masalah overfitting dan masalah performa lainnya. Optimalkan model hingga Anda mencapai hasil yang memuaskan.

Apa saja tantangan dalam klasifikasi teks?

Organisasi dapat menggunakan sumber daya klasifikasi teks komersial atau yang tersedia untuk umum untuk mengimplementasikan jaringan neural pengklasifikasi teks. Namun, data yang terbatas dapat membuat kurasi set data pelatihan menjadi tantangan di industri tertentu. Sebagai contoh, perusahaan layanan kesehatan mungkin memerlukan bantuan untuk mendapatkan set data medis guna melatih model klasifikasi.

Melatih dan menyempurnakan model machine learning membutuhkan biaya dan waktu. Selain itu, model mungkin overfit atau underfit sehingga menyebabkan performa yang tidak konsisten dalam kasus penggunaan aktual.

Anda dapat membangun pengklasifikasi teks dengan pustaka machine learning sumber terbuka. Namun, Anda memerlukan pengetahuan machine learning khusus dan pengalaman pengembangan perangkat lunak selama bertahun-tahun untuk melatih, memprogram, dan mengintegrasikan pengklasifikasi dengan aplikasi korporasi.

Bagaimana AWS dapat membantu kebutuhan klasifikasi teks Anda?

Amazon Compre deh adalah layanan NLP yang menggunakan pembelajaran mesin untuk mengungkap wawasan dan koneksi berharga dalam teks. API Klasifikasi Kustom memungkinkan Anda untuk membuat model klasifikasi teks kustom dengan mudah menggunakan label khusus bisnis Anda tanpa mempelajari ML.

Misalnya, organisasi dukungan pelanggan Anda dapat menggunakan Klasifikasi Kustom untuk mengategorikan permintaan masuk menurut tipe masalah secara otomatis berdasarkan cara pelanggan mendeskripsikan masalahnya. Dengan model kustom Anda, mudah untuk memoderasi komentar situs web, melakukan triase umpan balik pelanggan, dan mengatur dokumen grup kerja.

Amazon SageMaker adalah layanan yang dikelola sepenuhnya untuk menyiapkan data dan membangun, melatih, dan menerapkan model ML untuk kasus penggunaan apa pun. Amazon SageMaker memiliki infrastruktur, alat, dan alur kerja yang terkelola penuh.

Dengan Amazon SageMaker JumpStart , Anda dapat mengakses model pra-latih dan model dasar (FM) dan menyesuaikannya untuk kasus penggunaan Anda dengan data Anda. SageMaker JumpStart menyediakan solusi menyeluruh dengan sekali klik untuk banyak kasus penggunaan ML yang umum. Anda dapat menggunakannya untuk klasifikasi teks, ringkasan dokumen, pengenalan tulisan tangan, ekstraksi hubungan, pertanyaan dan jawaban, dan pengisian nilai yang hilang dalam catatan tabular.

Mulailah dengan klasifikasi teks di Amazon Web Services (AWS) dengan membuat akun hari ini.

Apa itu Klasifikasi Teks?