Approche par le contenu

 

Le fichier S3 (voir lien) permet d’établir la signature de chaque article (ensemble des syntagmes qui caractérisent un article suite à des considérations statistiques, voir lexique) ce qui permet des questions du type :

Quels sont les syntagmes utilisés dans cette LRA ?

Ce qui construit une LS (liste de syntagmes)

Quels sont les articles de cette LRA qui contiennent en quelle proportion les syntagmes de cette LS ?

Avec cette approche, nous abordons la recherche par contenu et ce sans ambiguïté de vocabulaire puisque nous sommes à l’intérieur d’un domaine.

Pour une LRA, inférieure à 100 titres, nous pouvons aussi accéder à une matrice traduisant pour les articles pris deux à deux, le calcul d’un degré de ressemblance.