Traitement des articles présentés dans les congrès JNGG
à partir des CD-rom de ces congrès

Les congrès JOURNEES NATIONALES DE LA GEOLOGIE ET DE GEOTECHNIQUE sont organisées tous les deux ans depuis 2002. A partir des  6 CD-roms de ces congrès MKD construit une base de données pour aider les chercheurs à mieux connaître et utiliser les connaissances présentées dans ces journées.

Rappel des étapes de la construction de la base
  • Transformation des fichiers pdf en fichier txt
  • Construction des fichiers S1, S2, S3
  • S1: liste des articles du congrès
  • S2 : liste des références (multiples) des bibliographies
  • S3 : liste des syntagmes utilisés suivant les patrons pré-définis
  • Correction assistée de S1 et S2
  • Mise en base
  • Calcul des lexiques de chaque congrès puis sommation de ces lexiques
  • Détermination du lexique final (du domaine) par seuillage des valeurs tf-idf calculées pour chaque syntagme

Mise en base

CongrèsFichiers initiaux txt : Nombre de lignesFichiers S1Fichiers S2Fichiers S3
S1S2S3Nb articlesNb auteurs lusNb auteurs nouveauxNb ref luesNb ref nouvellesNb auteurs lusNb auteurs nouveauxNb syntagmes lus
Nancy 200267526701944587184158584570102182919444
Lille 200466920811881459185160448420103473218814
Lyon 200689928132562182244202602566103292725620
Nantes 20081099300620739973071966316011372100820739
Grenoble 201015034541346991244492479618682364145534698
Bordeaux 20121434317829848112423244655557169497129848
Totaux149163

Aprés avoir traité les 12 fichiers (6 S1 et 6 S2) la base comporte 4123  références d'articles et 7092 auteurs identifiés. Les 6 fichiers S3 apportent 149163 syntagmes à la base pour permettre le calcul du lexique.

Construction du lexique

CongrèsNb syntagmes lusNb de syntagmes retenusNb syntagmes sommésNb de syntagmes ajoutés
Nancy 200219444
1695
1695
1695
Lille 20041881413942295600
Lyon 20062562015752862587
Nantes 20082073916533405522
Grenoble 20103469818483969564
Bordeaux 20122984817504454485

Les 4454 syntagmes sont ordonnés suivant le tf-idf et seuls les 1762 plus pertinents sont retenus.
Pour chaque syntagme on a calculé son tf-idf, sorte de probabilité tenant compte du nombre d'occurences du syntagme et du nombre de textes (fichiers) dans lequel il apparait. Le seuillage est fait en fonction de la taille désirée du lexique.

Approche bibliométrique

La base de références peut être interrogée de façon classique. Des tris sont proposés (auteur, mots du titre, etc ) et permettent de construire des LRA (Liste de Références d'Article) qui peuvent être combinées pour identifier des équipes, des thèmes, etc et qui sont utilisées pour la recherche de semblables.

Calcul des signatures et recherche de semblables

Le calcul des signatures (liste des syntagmes appartenant à l'article et au lexique) est fait pour chaque article. (environ 5 secondes par article)
On peut alors calculer un degré de ressemblance entre un article donné et tous ceux de la base et obtenir la liste des articles de la base
ordonnée par ressemblance décroissante. Le degré de ressemblance est "simplement", exprimé en pourcentage, le rapport du nombre de syntagmes communs entre les deux articles, au nombre de syntagmes de la signature de l'article comparé. Pour des raisons d'édition seuls les 20% articles les plus semblables sont listés.
Exemple
Etape1 : recherche des articles écrits par 'faure' dans la base JNGG. Cela permet de connaître le id-ref (index généré par le machine) de chaque fichier.(voir document)
Etape2 : recherche des "ressemblants" à l'article 479. (voir document)
Ce même calcul peut être fait pour chaque combinaison des articles d'une LRA. On obtient alors de degré de ressemblance (ressemblances croisées) de tous les couples d'articles et la liste est ordonnée par ressemblance décroissante. (voir document) Les combinaisons de n articles deux à deux, conduisent à n(n-1)/2 calculs, ce qui peut être long. D'où la nécessité d'avoir une LRA pertinente.

Détermination de thèmes à partir du lexique et classification

MKD facilite la partition du lexique en plusieurs ensembles de syntagmes qui correspondent à autant de sous-thèmes.
Une interface permet la répartition facile des syntagmes dans les thèmes choisis. Les noms des thèmes sont choisis dynamiquement parmi les termes du lexique.
La liste des syntagmes d'un thème peut servir à une classification des articles de la base en fonction de leur représentativité du thème.
Une autre possibilté pour obtenir une liste de syntagmes (LS) en vue d'une classification, est de modifier par ajout ou suppression une LS obtenue, par exemple, en éditant une signature.