Publié le: Jul 29, 2020
Amazon Elasticsearch Service prend désormais en charge la métrique de distance de similarité cosinus avec k-Nearest Neighbor (k-NN) pour alimenter votre moteur de recherche de similarité. La similarité cosinus est utilisée pour mesurer les similitudes entre deux vecteurs, quelle que soit leur taille. Elle est le plus couramment utilisée dans la recherche d'informations, la reconnaissance d'images, la similitude de texte, la bio-informatique et les systèmes de recommandation.
Nous avons lancé la fonction de recherche de similarité k-NN dans Amazon Elasticsearch Service qui exécute la recherche du voisin le plus proche sur des milliards de documents, représentés par des vecteurs, sur des milliers de dimensions. La version initiale de k-NN utilisait la distance euclidienne pour mesurer la similitude entre les vecteurs. La similarité cosinus mesure le cosinus de l'angle entre deux vecteurs dans la même direction où un angle cosinus plus petit dénote une similitude plus élevée entre les vecteurs. Avec la similarité cosinus, vous pouvez maintenant mesurer l'orientation entre deux vecteurs. Par exemple, si vous utilisez un sac de mots pour comparer deux documents d'une longueur très différente, mais que le mot le plus fréquent dans les deux est « animal de compagnie », qui apparaît à 300 reprises dans le document plus grand et à 75 reprises dans l'autre, la distance euclidienne entre ces documents peut être importante en raison d'échelles différentes, alors que les documents peuvent être considérés comme similaires par similitude cosinus en raison de l'orientation commune de leur contenu. Les résultats de la recherche k-NN avec similarité cosinus peuvent être encore plus précis, si vous exploitez les fonctionnalités de post-traitement d'Elasticsearch telles que les agrégations et le filtrage. Avec l'architecture hautement distribuée d'Elasticsearch, vous pouvez mettre en œuvre un moteur de recherche basé sur la similitude cosinus de niveau entreprise avec un rappel et des performances élevés.
La recherche de similarité cosinus dans k-NN est établie à l'aide de la bibliothèque NMSLIB (Non-Metric Space Library) légère et efficace, et est optimisée par Open Distro pour Elasticsearch, une distribution sous licence Apache 2.0 d'Elasticsearch. Pour en savoir plus sur Open Distro pour Elasticsearch et son plug-in k-NN, consultez le site Web du projet.
La recherche de similitude cosinus est disponible sur les domaines exécutant Elasticsearch version 7.7. Pour en savoir plus, consultez la documentation.
La recherche de similitude cosinus dans Amazon Elasticsearch Service est désormais disponible dans 24 régions du monde : USA Est (Virginie du Nord, Ohio), USA Ouest (Oregon, Californie du Nord), AWS GovCloud (US-Gov-East, US-Gov-West), Canada (Centre), Amérique du Sud (Sao Paulo), UE (Irlande, Londres, Francfort, Paris, Stockholm, Milan), Asie-Pacifique (Singapour, Sydney, Tokyo, Séoul, Mumbai, Hong Kong), Moyen-Orient (Bahreïn), AWS Chine (Pékin, opérée par Sinnet – Ningxia, opérée par NWCD) et Afrique (Le Cap). Pour connaître la disponibilité d'Amazon Elasticsearch Service, veuillez consulter le tableau des régions AWS.