Traitement des articles présentés dans les congrès JNGGà partir des CD-rom de ces congrèsLes
congrès JOURNEES NATIONALES DE LA GEOLOGIE ET DE GEOTECHNIQUE sont
organisées tous les deux ans depuis 2002. A partir des 6 CD-roms
de ces congrès MKD construit une base de données pour aider les
chercheurs à mieux connaître et utiliser les connaissances présentées
dans ces journées.
Rappel des étapes de la construction de la base
- Transformation des fichiers pdf en fichier txt
- Construction des fichiers S1, S2, S3
- S1: liste des articles du congrès
- S2 : liste des références (multiples) des bibliographies
- S3 : liste des syntagmes utilisés suivant les patrons pré-définis
- Correction assistée de S1 et S2
- Mise en base
- Calcul des lexiques de chaque congrès puis sommation de ces lexiques
- Détermination du lexique final (du domaine) par seuillage des valeurs tf-idf calculées pour chaque syntagme
Mise en base
Congrès | Fichiers initiaux txt : Nombre de lignes | Fichiers S1 | Fichiers S2 | Fichiers S3
|
| S1 | S2 | S3 | Nb articles | Nb auteurs lus | Nb auteurs nouveaux | Nb ref lues | Nb ref nouvelles | Nb auteurs lus | Nb auteurs nouveaux | Nb syntagmes lus |
Nancy 2002 | 675 | 2670 | 19445 | 87 | 184 | 158 | 584 | 570 | 1021 | 829 | 19444 |
Lille 2004 | 669 | 2081 | 18814 | 59 | 185 | 160 | 448 | 420 | 1034 | 732 | 18814 |
Lyon 2006 | 899 | 2813 | 25621 | 82 | 244 | 202 | 602 | 566 | 1032 | 927 | 25620 |
Nantes 2008 | 1099 | 3006 | 20739 | 97 | 307 | 196 | 631 | 601 | 1372 | 1008 | 20739 |
Grenoble 2010 | 1503 | 4541 | 34699 | 124 | 449 | 247 | 961 | 868 | 2364 | 1455 | 34698 |
Bordeaux 2012 | 1434 | 3178 | 29848 | 112 | 423 | 244 | 655 | 557 | 1694 | 971 | 29848 |
Totaux | | | | | | | | | | | 149163 |
Aprés
avoir traité les 12 fichiers (6 S1 et 6 S2) la base comporte 4123
références d'articles et 7092 auteurs identifiés. Les 6 fichiers
S3 apportent 149163 syntagmes à la base pour permettre le calcul du
lexique.
Construction du lexique
Congrès | Nb syntagmes lus | Nb de syntagmes retenus | Nb syntagmes sommés | Nb de syntagmes ajoutés |
Nancy 2002 | 19444
| 1695
| 1695
| 1695 |
Lille 2004 | 18814 | 1394 | 2295 | 600 |
Lyon 2006 | 25620 | 1575 | 2862 | 587 |
Nantes 2008 | 20739 | 1653 | 3405 | 522 |
Grenoble 2010 | 34698 | 1848 | 3969 | 564 |
Bordeaux 2012 | 29848 | 1750 | 4454 | 485 |
Les 4454 syntagmes sont ordonnés suivant le tf-idf et seuls les 1762 plus pertinents sont retenus.
Pour
chaque syntagme on a calculé son tf-idf, sorte de probabilité tenant
compte du nombre d'occurences du syntagme et du nombre de textes
(fichiers) dans lequel il apparait. Le seuillage est fait en fonction
de la taille désirée du lexique.
Approche bibliométrique
La
base de références peut être interrogée de façon classique. Des tris
sont proposés (auteur, mots du titre, etc ) et permettent de construire
des LRA (Liste de Références d'Article) qui peuvent être combinées pour
identifier des équipes, des thèmes, etc et qui sont utilisées pour la
recherche de semblables.
Calcul des signatures et recherche de semblables
Le
calcul des signatures (liste des syntagmes appartenant à l'article et
au lexique) est fait pour chaque article. (environ 5 secondes par article)
On
peut alors calculer un degré de ressemblance entre un article donné et
tous ceux de la base et obtenir la
liste des articles de la base ordonnée par ressemblance décroissante. Le degré de ressemblance est
"simplement",
exprimé en pourcentage, le rapport du nombre de syntagmes communs entre les deux
articles, au nombre de syntagmes de la signature de l'article comparé. Pour des raisons d'édition seuls les 20%
articles les plus semblables sont listés.
Exemple
Etape1
: recherche des articles écrits par 'faure' dans la base JNGG. Cela
permet de connaître le id-ref (index généré par le machine) de chaque
fichier.(voir document)
Etape2 : recherche des "ressemblants" à l'article 479. (voir document)
Ce
même calcul peut être fait pour chaque combinaison des articles d'une
LRA. On obtient alors de degré de ressemblance (ressemblances croisées)
de tous les couples d'articles et la liste est ordonnée par
ressemblance décroissante. (voir document) Les combinaisons de n articles deux à deux,
conduisent à n(n-1)/2 calculs, ce qui peut être long. D'où la nécessité
d'avoir une LRA pertinente.
Détermination de thèmes à partir du lexique et classification
MKD facilite la partition du lexique en plusieurs ensembles de syntagmes qui correspondent à autant de sous-thèmes.
Une
interface permet la répartition facile des syntagmes dans les thèmes
choisis. Les noms des thèmes sont choisis dynamiquement parmi les
termes du lexique.
La
liste des syntagmes d'un thème peut servir à une classification des
articles de la base en fonction de leur représentativité du thème.
Une
autre possibilté pour obtenir une liste de syntagmes (LS) en vue d'une
classification, est de modifier par ajout ou suppression une LS
obtenue, par exemple, en éditant une signature.