Blog AWS Indonesia

Dukungan Kesamaan Kosinus dalam Layanan Amazon Elasticsearch

Amazon Elasticsearch Service sekarang mendukung metrik jarak kesamaan kosinus dengan K-Nearest Neighbor (k-NN) untuk mendukung mesin pencari kesamaan Anda. Kesamaan kosinus digunakan untuk mengukur kesamaan antara dua vektor, terlepas dari ukurannya dan paling sering digunakan dalam pengambilan informasi, pengenalan gambar, kesamaan teks, bioinformatika dan sistem rekomendasi.

Kami merilis fitur pencarian kesamaan K-NN di Amazon Elasticsearch Service yang melakukan pencarian terdekat tetangga pada miliaran dokumen, diwakili oleh vektor, di ribuan dimensi. Peluncuran awal K-NN menggunakan jarak Euclidean untuk mengukur kesamaan antara vektor. Kesamaan kosinus mengukur kosinus dari sudut antara dua vektor dalam arah yang sama di mana sudut kosinus yang lebih kecil menunjukkan kesamaan yang lebih tinggi antara vektor. Dengan kesamaan kosinus, Anda sekarang dapat mengukur orientasi antara dua vektor. Misalnya, jika Anda menggunakan bag-of-words untuk membandingkan dua dokumen yang sangat berbeda panjang namun kata yang paling sering di kedua adalah “hewan peliharaan”, yang muncul 300 kali dalam dokumen yang lebih besar dan 75 kali di lain, jarak Euclidean antara dokumen-dokumen ini dapat besar karena skala yang berbeda, sementara dokumen tersebut dapat dianggap serupa dengan kesamaan kosinus karena orientasi umum dalam konten mereka. Hasil dari pencarian k-NN dengan kesamaan kosinus dapat lebih ditingkatkan dalam presisi, dengan memanfaatkan fitur pasca pengolahan Elasticsearch ini seperti agregasi dan penyaringan. Dengan arsitektur yang sangat terdistribusi Elasticsearch ini, Anda dapat menerapkan mesin pencari kesamaan kelas enterprise berdasarkan dengan tingkat recall dan kinerja kinerja.

Pencarian kesamaan kosinus di k-NN dibangun menggunakan Non-Metric Space Library (NMSLIB) yang ringan dan efisien serta didukung oleh Open Distro untuk Elasticsearch, distribusi Elasticsearch berlisensi Apache 2.0. Untuk mempelajari lebih lanjut tentang Open Distro untuk Elasticsearch dan plugin k-NN, kunjungi situs web proyek.

Pencarian kesamaan kosinus tersedia pada domain yang menjalankan Elasticsearch 7.7. Untuk mempelajari lebih lanjut, lihat dokumentasi.

Cosine pencarian kesamaan di Amazon Elasticsearch Service sekarang tersedia di 24 Region global: AS Timur (Virginia, Ohio), AS Barat (Oregon, N. California), AWS GovCloud (AS-Gov-east, AS-Gov-west), Kanada (Tengah), Amerika Selatan (Sao Paulo), Uni Eropa (Irlandia, London, Frankfurt, Paris, Stockholm, Milan), Asia Pasifik (Singapura, Sydney, Tokyo, Seoul, Mumbai, Hong Kong), Timur Tengah (Bahrain), Cina (Beijing — dioperasikan oleh Sinnet, Ningxia — dioperasikan oleh NWCD), dan Afrika (Cape Town). Silakan lihat AWS Region Table untuk informasi lebih lanjut tentang ketersediaan Amazon Elasticsearch Service.

Artikel ini diterjemahkan dari Cosine Similarity support in Amazon Elasticsearch Service.