Apa itu Pencarian Dokumen?

Pencarian dokumen adalah pencarian yang bekerja terutama pada teks bebas tidak terstruktur (tidak hanya dokumen). Baik Anda yang mencari sebuah halaman web, menemukan sebuah produk, maupun bekerja dengan konten terkurasi, Anda menggunakan mesin pencari untuk melakukannya. Anda membuka sebuah halaman web dan mengetik di kotak teks Pencarian. Klik "cari" dan Anda menerima (semoga) item yang relevan dan memenuhi tujuan informasi.

Mesin pencari tumbuh dari teknologi basis data—mesin ini menyimpan data serta memproses kueri terhadap data tersebut. Basis data tradisional bekerja terutama dengan konten terstruktur—data diatur ke dalam tabel, dan kolom, dengan skema bawaan. Tugas basis data adalah mengambil semua baris data, berdasarkan kueri yang cocok dengan nilai di kolom. Mesin pencari bekerja dengan data terstruktur (dokumen), yang berisi metadata dan blok teks besar tidak terstruktur (teks bebas). Mesin pencari menggunakan aturan linguistik untuk membagi blok teks besar ini menjadi istilah yang dapat dicocokkan. Mesin pencari hadir dengan kemampuan pemeringkat bawaan untuk mengurutkan hasil dan memberikan hasil terbaik ke posisi paling atas. Tempat basis data relasional and NoSQL mengambil semua hasil, mesin pencari mengambil hasil terbaik.

Aplikasi mesin pencari dibagi menjadi tiga kategori besar: pencarian dokumen, yang bekerja terutama pada teks bebas tidak terstruktur; pencarian perdagangan elektronik, yang bekerja pada campuran data terstruktur dan tidak terstruktur; serta pemindahan kueri, yang sebagian besar bekerja pada data terstruktur.

Apakah pencarian dokumen dapat bekerja dengan metadata?

Dalam pencarian dokumen, Anda mencari dokumen utama yang mungkin bisa sekecil paragraf atau sebanyak ribuan halaman. Dokumen meliputi berbagai bidang lain, termasuk bidang teks tidak terstruktur (judul dan ringkasan), bidang semi terstruktur (penulis), dan bidang terstruktur (tanggal publikasi, grup asal, kategori)—metadata. Mesin pencari menangani campuran teks dan metadata di kueri pengguna.

Apa saja tantangan utama dari pencarian dokumen?

Tantangan utama dalam pencarian dokumen terbagi dalam dua area yakni persiapan dan penyerapan data, serta relevansi pencarian.

Dalam kasus pengguna pencarian dokumen, isi dokumen (korpus) berasal dari konten yang dihasilkan pengguna atau konten tak terkurasi lainnya. Konten ini biasanya berisi kesalahan ketik atau kesalahan lainnya, pengulangan, dan data yang tidak masuk akal. Sebelum memuat data ke dalam mesin pencari, Anda harus mengurasi, membersihkan, dan menormalkan data. Setelah data siap, Anda harus memuat data ke dalam mesin (dengan memanggil API penyerapan). Terakhir, Anda memerlukan proses untuk memperbarui dokumen saat berubah.

Nilai utama pencarian dokumen adalah untuk mengambil dokumen yang relevan dengan kueri pengguna—relevansi pencarian. Selama pengambilan, mesin pencari memberi skor dan mengurutkan semua dokumen yang cocok melalui langkah statistik (BM25). BM25 menggunakan keunikan istilah pencarian yang disilangkan dengan jumlah dokumen yang cocok. Jika kueri semakin sering cocok dengan lebih banyak istilah yang unik, skor yang diperoleh akan semakin tinggi. Anda harus menyesuaikan fungsi pemberian skor untuk set data khusus; teknik machine learning (ML) membantu meningkatkan peringkat. Pencarian hanya sebaik relevansi dokumen yang diambil, dan Anda ingin yang terbaik.

Apa kasus penggunaan pencarian lainnya?

Pencarian perdagangan elektronik

Anda dapat membuka mesin perdagangan elektronik untuk mencari dan membeli produk dari katalog produk yang tersedia. Produk ini terdiri dari banyak bidang metadata, ukuran, warna, merk, dan lain sebagainya, bersama dengan bidang yang lebih panjang seperti judul, deskripsi produk, dan ulasan. Tugas utama mesin ini adalah mengambil hasil paling relevan, yang menghasilkan pendapatan. Perancang situs menggunakan banyak alat untuk membuat fungsi relevansi yang baik—mulai dari nilai numerik yang disematkan hingga model ML yang didasarkan pada perilaku pengguna.

Untuk meningkatkan pengalaman pengguna akhir, situs perdagangan elektronik sering menambahkan pencarian berfaset. Mesin ini menyediakan hitungan bucket untuk nilai yang ada di berbagai bidang (ukuran, warna, dan lain sebagainya)—dan UI menyediakan daftar yang dapat diklik untuk pengguna yang dapat digunakan untuk mempersempit hasil pencarian.

Beberapa tipe pencarian perdagangan elektronik sangat bergantung pada personalisasi dan rekomendasi. Jika pembeli mencari “gaun”, mesin pencari harus menemukan gaun yang mungkin menarik perhatian pembeli meskipun kueri itu sendiri sangat terbuka. Kesamaan yang dimiliki metrik seperti k-nearest neighbor (k-NN) dapat membantu hal ini.

Pencarian set data terkurasi

Pencarian set data terkurasi adalah seperti respositori dokumen korporasi (data uji klinis, laporan hukum, real estate, dan lain sebagainya). Mesin pencari berisi aturan linguistik dan fitur khusus bahasa lainnya yang membantu mesin untuk memecah blok teks yang besar menjadi istilah komponen (kata dari suatu bidang atau blok teks yang besar) untuk dicocokkan. Bahasa kueri yang kaya milik mesin pencari memungkinkan untuk mencari blok teks besar untuk kombinasi istilah, seperti “gaun lengan panjang”. Namun, mesin tidak mengambil semua yang cocok: mesin menggunakan pemberian skor relevansi untuk memberi peringkat dan mengurutkan dokumen, setelah itu hanya mengembalikan hasil yang paling cocok.

Pemindahan kueri

Mesin pencari berisi struktur data khusus untuk mempermudah pencarian dengan volume tinggi dan latensi rendah. Hal yang paling penting dari struktur ini adalah indeks inversi yang memetakan istilah individu menjadi daftar dokumen yang berisi istilah tersebut. Dikarenakan struktur data ini, mesin pencari mengungguli basis data relasional dalam hal pemrosesan kueri. Mesin pencari ini juga memiliki kekurangan, yaitu sifatnya yang tidak relasional. Basis data relasional dan mesin pencari tandem sudah umum ditemukan. Anda menggunakan basis data relasional untuk menyajikan data aplikasi, dan menggunakan mesin pencari untuk menyediakan pencarian relevan dengan latensi rendah di seluruh data tersebut.

Siapa yang membuat pencarian dokumen?

Membangun pengalaman pencarian yang kaya dan menyenangkan membutuhkan banyak fungsi tugas. Developer mengintegrasikan solusi pencarian, membuat antarmuka pencarian, dan memahami cara menyusun data untuk mendapatkan hasil pencarian terbaik. Manajer produk memberikan persyaratan untuk struktur metadata dan pengalaman pengguna antarmuka pencarian. Ilmuwan data mengurasi data sumber, serta melacak dan bekerja dengan perilaku pengguna. Eksekutif menetapkan KPI bisnis yang memberikan panduan untuk tim produk dan pengembangan dalam pemenuhan tujuan bisnis untuk mesin.

Bagaimana kelangsungan pencarian dokumen di masa mendatang?

Mesin pencari telah dioptimalkan untuk mencocokkan istilah. Pencarian untuk “sofa 8 kaki” harus memberikan hasil sofa dengan 8 kaki, dan hasil ini ditemukan dengan mencocokkan “sofa”, “8”, dan “kaki”. Ini adalah kata kunci untuk pencarian. Dalam banyak kasus, pencari tidak mengetahui dengan pasti istilah yang ingin mereka cari dan ingin mencari berdasarkan pemahaman mereka. Ini adalah pencarian semantik, dan ini adalah garda terdepan dari teknologi pencarian dan ML. Dengan pencarian semantik, Anda menggunakan kueri seperti “tempat yang nyaman untuk duduk di dekat perapian” untuk mengambil item seperti sofa 8 kaki.

Pencarian semantik membutuhkan teknik ML. Anda harus membuat ruang vektor item dan kueri, lalu menggunakan perhitungan kesamaan vektor untuk menemukan item yang berkaitan dengan ruang tersebut. Dengan pencarian vektor, dokumen tidak memerlukan kata atau sinonim yang sama dengan kueri agar menjadi relevan. Misalnya, pencarian “perawatan sepeda” dapat cocok dengan dokumen mengenai “pelumasan pemindah gigi” karena algoritme ML tahu bahwa “pelumasan pemindah gigi” sering muncul terkait diskusi mengenai perawatan sepeda.

Bagaimana cara Anda dapat memberikan hasil pencarian yang lebih baik?

Kunci untuk pencarian dokumen dan perdagangan elektronik yang efektif adalah relevansi—apakah hasil pencarian memenuhi kebutuhan pencari? Mesin pencari berusaha memberikan hasil terbaik menggunakan berbagai macam teknik. Hal ini disebut sebagai peringkat relevansi. Basis data mengembalikan semua yang cocok, dan mesin pencari dioptimalkan untuk pemberian skor item yang relevan.

Pencarian Anda dapat mencakup beberapa bidang dengan pembobotan yang berbeda. Misalnya, jika Anda mencari basis data film, Anda mungkin ingin mencakupkan bidang, seperti judul, sutradara, dan aktor, lalu judul yang cocok akan diberi bobot yang lebih berat daripada aktor yang cocok.
Pertimbangkan untuk menyesuaikan hasil pencarian Anda agar mendapatkan hasil terbaru. Tambah bidang tanggal rilis pada indeks dan fungsi decay eksponensial berdasarkan tanggal rilis pada fungsi skor Anda.
Pertimbangkan untuk menambahkan faset atau filter pada hasil pencarian Anda untuk membantu pengguna menelusuri elemen tertentu. Banyak sistem pencarian dokumen mendukung faceting pada metadata—biasanya ditampilkan sebagai kategori di bagian sebelah kiri dari halaman hasil pencarian.
Pertimbangkan untuk menambahkan sinonim. Sinonim dapat membantu pengguna akhir menemukan hasil yang mereka cari. Dalam hal pakaian, tee (kaos) adalah T-shirt atau teeshirt. Pengguna akhir Anda harus menemukan hasil yang sama saat mereka mencari “tee” atau “t-shirt”. Menambahkan sinonim dapat mengembalikan hasil seperti ini.

Bagaimana cara pelanggan menggunakan pencarian dokumen?

Pencarian dokumen mencakup banyak aplikasi berbeda.

Situs perdagangan elektronik menggunakan pencarian dokumen untuk mengambil produk yang ingin dibeli pengguna.
Situs foto menggunakan pencarian dokumen untuk mencari foto berdasarkan metadata, seperti judul dan deskripsi, atau bahkan berdasarkan vektor gambar yang cocok.
Pengguna hukum menggunakan pencarian dokumen untuk mencari hukum kasus yang relevan.
Dokter menggunakan pencarian dokumen untuk mencari obat yang cocok dengan kondisi pasien.
Manajemen Hubungan Pelanggan (CRM) menggunakan pencarian dokumen untuk mengambil catatan, interaksi, dan pelanggan yang ditargetkan.

Gunakan mesin pencari jika ingin menemukan sesuatu yang Anda cari!

Apa saja penawaran AWS untuk pencarian dokumen?

Amazon OpenSearch Service adalah toolkit untuk developer yang ingin membuat solusi pencarian.
Amazon Kendra adalah solusi unik untuk pencarian cerdas.
Amazon CloudSearch adalah untuk pencarian sederhana.

Apa itu Pencarian Dokumen?