La recherche de données moderne est un domaine complexe. La recherche de similarité vectorielle, ou VSS, représente les données avec une profondeur contextuelle et renvoie des informations plus pertinentes aux consommateurs en réponse à une requête de recherche. Prenons un exemple simple.
Les requêtes de recherche telles que « science des données » et « science-fiction » font référence à différents types de contenu, même si les deux ont un mot commun (« science »). Une technique de recherche traditionnelle correspondrait à des expressions courantes pour renvoyer des résultats pertinents, ce qui serait inexact dans ce cas. La recherche de similarité vectorielle tiendrait compte de l’intention de recherche réelle et de la signification de ces requêtes de recherche pour renvoyer une réponse plus précise.
Cet article abordera divers aspects de la recherche de similarité vectorielle, tels que ses composants, ses défis, ses avantages et cas d’utilisation. Commençons.
Qu’est-ce que Recherche de similarité vectorielle (VSS) ?
La recherche de similarité vectorielle trouve et récupère des informations contextuellement similaires à partir de grandes collections de données structurées ou non structurées en les transformant en représentations numériques appelées vecteurs ou intégrations.
VSS peut gérer une variété de formats de données, y compris numériques, catégoriques, textuels, image et vidéo. Il convertit chaque objet d’un corpus de données en une représentation vectorielle de grande dimension correspondant à son format pertinent (discuté dans la section suivante).
Le plus souvent, VSS localise des objets comparables, tels que des phrases ou des paragraphes similaires, ou trouve des images associées dans de vastes systèmes de récupération d’images. Les grandes entreprises de consommation comme Amazon, eBay et Spotify utilisent cette technologie pour améliorer les résultats de recherche pour des millions d’utilisateurs, c’est-à-dire pour proposer un contenu pertinent que les utilisateurs voudraient très probablement acheter, regarder ou écouter.
Trois Principaux composants de la recherche de similarité vectorielle
Avant de comprendre comment fonctionne la recherche de similarité vectorielle, examinons ses principaux composants. Il existe principalement trois composants essentiels pour la mise en œuvre d’une méthodologie VSS efficace :
Incorporations vectorielles : les incorporations représentent différents types de données dans un format mathématique, c’est-à-dire un tableau ordonné ou un ensemble de nombres. Ils identifient des modèles dans les données à l’aide de calculs mathématiques.Métriques de distance ou de similarité : il s’agit de fonctions mathématiques qui calculent le degré de similitude ou de proximité entre deux vecteurs.Algorithmes de recherche : les algorithmes aident à trouver des vecteurs similaires à une requête de recherche donnée. Par exemple, l’algorithme K-Nearest Neighbors ou KNN est fréquemment utilisé dans les systèmes de recherche compatibles VSS pour déterminer les vecteurs K dans un ensemble de données qui sont les plus similaires à une requête d’entrée donnée.
Maintenant, discutons du fonctionnement de ces composants dans une recherche système.
Comment fonctionne la recherche de similarité vectorielle ?
La première étape de la mise en œuvre de la recherche de similarité vectorielle consiste à représenter ou à décrire des objets dans le corpus de données sous forme de vecteurs incorporés. Il utilise différentes méthodes d’intégration de vecteurs, telles que GloVe , Word2vec et BERT, pour mapper des objets sur l’espace vectoriel.
Pour chaque format de données, comme le texte, l’audio et la vidéo, VSS construit différents modèles d’intégration, mais le résultat final de ce processus est une représentation de tableau numérique.
L’étape suivante consiste à créer un index qui peut organiser des objets similaires ensemble à l’aide de ces représentations numériques. Un algorithme comme KNN sert de base à la mise en œuvre de la similarité de recherche. Cependant, pour indexer des termes similaires, les systèmes de recherche utilisent des approches modernes, telles que Hashing sensible à la localité (LSH) et Voisin le plus proche approximatif (ANNOY).
En outre, les algorithmes VSS calculent une mesure de similarité ou de distance, telle que la distance euclidienne, la similarité cosinus ou la similarité Jaccard, pour comparer toutes les représentations vectorielles dans la collecte de données et renvoyer un contenu similaire en réponse à une requête de l’utilisateur.
Principaux défis et avantages de la recherche de similarité vectorielle
Globalement, l’objectif est de trouver des caractéristiques communes parmi les objets de données. Cependant, ce processus présente plusieurs défis potentiels.
Principaux défis de la mise en œuvre du VSS
Les différentes techniques d’intégration de vecteurs et les mesures de similarité présentent des résultats différents. Choisir les configurations appropriées pour les systèmes de recherche de similarité est le principal défi. Pour les grands ensembles de données, VSS est coûteux en calcul et nécessite des GPU hautes performances pour créer des index à grande échelle. Les vecteurs avec trop de dimensions peuvent ne pas représenter avec précision la structure et les connexions authentiques des données. Par conséquent, le processus d’intégration de vecteurs doit être sans perte, ce qui est un défi.
Actuellement, la technologie VSS fait l’objet d’un développement et d’une amélioration continus. Cependant, il peut toujours offrir de nombreux avantages pour l’expérience de recherche d’une entreprise ou d’un produit.
Avantages de VSS
VSS permet aux systèmes de recherche de localiser des objets similaires incroyablement rapidement sur divers types de données.VSS assure une gestion efficace de la mémoire car il convertit tous les objets de données en incorporations numériques que les machines peuvent facilement traiter. VSS peut classer les objets sur de nouvelles requêtes de recherche que le système n’a peut-être pas rencontrées de la part des consommateurs. des objets contextuellement similaires, même s’ils ne correspondent pas parfaitement. Plus important encore, il peut détecter et regrouper des objets associés à grande échelle (volumes de données variables).
Principaux cas d’utilisation commerciale de la recherche de similarité vectorielle
Dans commerciale, la technologie VSS peut révolutionner un large éventail d’industries et d’applications. Certains de ces cas d’utilisation incluent :
Réponses aux questions : la recherche de similarité vectorielle peut localiser des questions connexes dans les forums de questions-réponses qui sont presque identiques, permettant des réponses plus précises et pertinentes pour les utilisateurs finaux.Recherche Web sémantique : la recherche de similarité vectorielle peut localiser documents ou pages Web connexes en fonction de la”proximité”de leurs représentations vectorielles. Il vise à accroître la pertinence des résultats de la recherche sur le Web.Recommandations de produits : la recherche de similarité vectorielle peut faire des recommandations de produits personnalisées en fonction de l’historique de navigation ou de recherche du consommateur.Meilleure prestation de soins de santé : les chercheurs et les praticiens de la santé utilisent la recherche de similarité vectorielle pour optimiser les essais cliniques en analysant représentations de la recherche médicale pertinente.
Aujourd’hui, il n’est plus viable de gérer, d’analyser et de rechercher des données à l’aide de techniques conventionnelles basées sur SQL. Les internautes posent des requêtes complexes sur le Web – apparemment simples pour les humains mais incroyablement complexes à interpréter pour les machines (moteurs de recherche). C’est un défi de longue date pour les machines de déchiffrer différentes formes de données dans un format compréhensible par la machine.
La recherche par similarité vectorielle permet aux systèmes de recherche de mieux comprendre le contexte des informations commerciales.