Approche par le contenu
Le fichier S3 (voir lien) permet d’établir la signature de chaque article (ensemble des syntagmes qui caractérisent un article suite à des considérations statistiques, voir lexique) ce qui permet des questions du type :
Quels sont les syntagmes utilisés dans cette LRA ?
Ce qui construit une LS (liste de syntagmes)
Quels sont les articles de cette LRA qui contiennent en quelle proportion les syntagmes de cette LS ?
Avec cette approche, nous abordons la recherche par contenu et ce sans ambiguïté de vocabulaire puisque nous sommes à l’intérieur d’un domaine.
Pour une LRA, inférieure à 100 titres, nous pouvons aussi accéder à une matrice traduisant pour les articles pris deux à deux, le calcul d’un degré de ressemblance.