Traitement des articles présentés dans les WTC (World Tunnel Congress)
à partir des CD-rom de ces congrès

Rappel des étapes
  • Transformation des fichiers pdf en fichier txt
  • Construction des fichiers S1, S2, S3
  • S1: liste des articles du congrès
  • S2 : liste des références (multiples) des bibliographies
  • S3 : liste des syntagmes utilisés suivant les patrons pré-définis
  • Correction assistée de S1 et S2
  • Mise en base
  • Calcul des lexiques de chaque congrès puis sommation de ces lexiques
  • Détermination du lexique final (du domaine) par seuillage des valeurs tf-idf calculées pour chaque syntagme

Mise en base

CongrèsEartFichiers initiaux txt : Nombre de lignes
S1S2S3Nb articlesNb ref luesNb ref nouvellesNb auteurs lusNb auteurs nouveauxNb syntagmes lus
Singapour 2004Ita_Singa1925343471123173722595150192869023
Istanbul 2005Ita_Ist2469457879542207894787191299278101
Séoul 2006Ita_Seoul228610318 (**)69316198107010152289177668305
Prague 2007Ita_Prague3443654858648305141110912840127257487
Aggra 2008Ita_Aggra21274497972682018547471844105195929
Budapest 2009Ita_Buda30445833108219266119586527101138106617
Vancouver 2010Ita_Vanc225947741030342078886711980779101758
Helsinski 2011 (*)Ita_HLK1491356487289134662531147667286183
Bangkok 2012Ita_BGK401379051407813551465119532752351198862
Genève 2013Ita_Gen343673661200952981404109132281928118444
Totaux

(*) du fait d'un fichier pdf unique pour tout le congrès, tous les fichiers d'articles n'ont pu être récupérés
(**) avec l'abstract

Bibliométrie
 
La page liée est un exemple d'une interrogation simple de bibliométrie (voir page biblio)

Construction du lexique

CongrèsNb syntagmes lusNb de syntagmes retenusNb syntagmes sommésNb syntagmes nouveaux
Singapour 2004
5669
5669
5669
Istanbul 2005781015444
8802
3140
Séoul 2006683055861119253125
Prague 2007574874537137991876
Aggra 2008959296648168573060
Budapest 20091066177286201273272
Vancouver 20101017586668226932568
Helsinski 2011861837244255942903
Bangkok 20121988629119294133821
Genève 20131184447730322102799

Les 32210 syntagmes sont ordonnés suivant le tf-idf et par seuillage des syntagmes les plus pertinents trois lexiques sont établis.(voir ces lexiques )
Pour chaque syntagme on a calculé son tf-idf, sorte de probabilité tenant compte du nombre d'occurences du syntagme et du nombre de textes (fichiers) dans lequel il apparait. Le seuillage est fait en fonction de la taille désirée du lexique.

Calcul des signatures et recherche de semblables

Le calcul des signatures (liste des syntagmes appartenant à l'article et au lexique) est fait pour chaque article. (durée de 4 secondes par article)
On peut alors calculer un degré de ressemblance entre un article donnée et tous ceux de la base et obtenir, classée de façon décroissante, la liste des articles de la base.
(voir résultats comparaisons) (voir interrogation sur le contenu)

Détermination de thèmes à partir du lexique et classification

MKD facilite la partition du lexique en un ensemble de syntagmes qui correspondent à autant de sous-thèmes.
Une interface permet la répartition facile des syntagmes dans les thèmes choisis.
Les noms des thèmes sont choisis dynamiquement parmi les termes du lexique.
La liste des syntagmes d'un thème peut servir à une classification des articles de la base en fonction de leur représentativité du thème.