congres_jngg

Traitement des articles présentés dans les congrès JNGG
à partir des CD-rom de ces congrès

Les congrès JOURNEES NATIONALES DE LA GEOLOGIE ET DE GEOTECHNIQUE sont organisées tous les deux ans depuis 2002. A partir des 6 CD-roms de ces congrès MKD construit une base de données pour aider les chercheurs à mieux connaître et utiliser les connaissances présentées dans ces journées.

Rappel des étapes de la construction de la base

Transformation des fichiers pdf en fichier txt
Construction des fichiers S1, S2, S3

S1: liste des articles du congrès
S2 : liste des références (multiples) des bibliographies
S3 : liste des syntagmes utilisés suivant les patrons pré-définis

Correction assistée de S1 et S2
Mise en base
Calcul des lexiques de chaque congrès puis sommation de ces lexiques
Détermination du lexique final (du domaine) par seuillage des valeurs tf-idf calculées pour chaque syntagme

Mise en base

Congrès	Fichiers initiaux txt : Nombre de lignes			Fichiers S1			Fichiers S2				Fichiers S3
	S1	S2	S3	Nb articles	Nb auteurs lus	Nb auteurs nouveaux	Nb ref lues	Nb ref nouvelles	Nb auteurs lus	Nb auteurs nouveaux	Nb syntagmes lus
Nancy 2002	675	2670	19445	87	184	158	584	570	1021	829	19444
Lille 2004	669	2081	18814	59	185	160	448	420	1034	732	18814
Lyon 2006	899	2813	25621	82	244	202	602	566	1032	927	25620
Nantes 2008	1099	3006	20739	97	307	196	631	601	1372	1008	20739
Grenoble 2010	1503	4541	34699	124	449	247	961	868	2364	1455	34698
Bordeaux 2012	1434	3178	29848	112	423	244	655	557	1694	971	29848
Totaux											149163

Aprés avoir traité les 12 fichiers (6 S1 et 6 S2) la base comporte 4123 références d'articles et 7092 auteurs identifiés. Les 6 fichiers S3 apportent 149163 syntagmes à la base pour permettre le calcul du lexique.

Construction du lexique

Congrès	Nb syntagmes lus	Nb de syntagmes retenus	Nb syntagmes sommés	Nb de syntagmes ajoutés
Nancy 2002	19444	1695	1695	1695
Lille 2004	18814	1394	2295	600
Lyon 2006	25620	1575	2862	587
Nantes 2008	20739	1653	3405	522
Grenoble 2010	34698	1848	3969	564
Bordeaux 2012	29848	1750	4454	485

Les 4454 syntagmes sont ordonnés suivant le tf-idf et seuls les 1762 plus pertinents sont retenus.
Pour chaque syntagme on a calculé son tf-idf, sorte de probabilité tenant compte du nombre d'occurences du syntagme et du nombre de textes (fichiers) dans lequel il apparait. Le seuillage est fait en fonction de la taille désirée du lexique.

Approche bibliométrique

La base de références peut être interrogée de façon classique. Des tris sont proposés (auteur, mots du titre, etc ) et permettent de construire des LRA (Liste de Références d'Article) qui peuvent être combinées pour identifier des équipes, des thèmes, etc et qui sont utilisées pour la recherche de semblables.

Calcul des signatures et recherche de semblables

Le calcul des signatures (liste des syntagmes appartenant à l'article et au lexique) est fait pour chaque article. (environ 5 secondes par article)
On peut alors calculer un degré de ressemblance entre un article donné et tous ceux de la base et obtenir la liste des articles de la base ordonnée par ressemblance décroissante. Le degré de ressemblance est "simplement", exprimé en pourcentage, le rapport du nombre de syntagmes communs entre les deux articles, au nombre de syntagmes de la signature de l'article comparé. Pour des raisons d'édition seuls les 20% articles les plus semblables sont listés.
Exemple
Etape1 : recherche des articles écrits par 'faure' dans la base JNGG. Cela permet de connaître le id-ref (index généré par le machine) de chaque fichier.(voir document)
Etape2 : recherche des "ressemblants" à l'article 479. (voir document)
Ce même calcul peut être fait pour chaque combinaison des articles d'une LRA. On obtient alors de degré de ressemblance (ressemblances croisées) de tous les couples d'articles et la liste est ordonnée par ressemblance décroissante. (voir document) Les combinaisons de n articles deux à deux, conduisent à n(n-1)/2 calculs, ce qui peut être long. D'où la nécessité d'avoir une LRA pertinente.

Détermination de thèmes à partir du lexique et classification

MKD facilite la partition du lexique en plusieurs ensembles de syntagmes qui correspondent à autant de sous-thèmes.
Une interface permet la répartition facile des syntagmes dans les thèmes choisis. Les noms des thèmes sont choisis dynamiquement parmi les termes du lexique.
La liste des syntagmes d'un thème peut servir à une classification des articles de la base en fonction de leur représentativité du thème.
Une autre possibilté pour obtenir une liste de syntagmes (LS) en vue d'une classification, est de modifier par ajout ou suppression une LS obtenue, par exemple, en éditant une signature.