Rappel des étapes
- Transformation des fichiers pdf en fichier txt
- Construction des fichiers S1, S2, S3
- S1: liste des articles du congrès
- S2 : liste des références (multiples) des bibliographies
- S3 : liste des syntagmes utilisés suivant les patrons pré-définis
- Correction assistée de S1 et S2
- Mise en base
- Calcul des lexiques de chaque congrès puis sommation de ces lexiques
- Détermination du lexique final (du domaine) par seuillage des valeurs tf-idf calculées pour chaque syntagme
Mise en base
Congrès | Eart | Fichiers initiaux txt : Nombre de lignes | | | | | | |
| | S1 | S2 | S3 | Nb articles | Nb ref lues | Nb ref nouvelles | Nb auteurs lus | Nb auteurs nouveaux | Nb syntagmes lus |
Singapour 2004 | Ita_Singa | 1925 | 3434 | 71123 | 173 | 722 | 595 | 1501 | 928 | 69023 |
Istanbul 2005 | Ita_Ist | 2469 | 4578 | 79542 | 207 | 894 | 787 | 1912 | 992 | 78101 |
Séoul 2006 | Ita_Seoul | 2286 | 10318 (**) | 69316 | 198 | 1070 | 1015 | 2289 | 1776 | 68305 |
Prague 2007 | Ita_Prague | 3443 | 6548 | 58648 | 305 | 1411 | 1091 | 2840 | 1272 | 57487 |
Aggra 2008 | Ita_Aggra | 2127 | 4497 | 97268 | 201 | 854 | 747 | 1844 | 1051 | 95929 |
Budapest 2009 | Ita_Buda | 3044 | 5833 | 108219 | 266 | 1195 | 865 | 2710 | 1138 | 106617 |
Vancouver 2010 | Ita_Vanc | 2259 | 4774 | 103034 | 207 | 888 | 671 | 1980 | 779 | 101758 |
Helsinski 2011 (*) | Ita_HLK | 1491 | 3564 | 87289 | 134 | 662 | 531 | 1476 | 672 | 86183 |
Bangkok 2012 | Ita_BGK | 4013 | 7905 | 140781 | 355 | 1465 | 1195 | 3275 | 2351 | 198862 |
Genève 2013 | Ita_Gen | 3436 | 7366 | 120095 | 298 | 1404 | 1091 | 3228 | 1928 | 118444 |
Totaux | | | | | | | | | | |
(*) du fait d'un fichier pdf unique pour tout le congrès, tous les fichiers d'articles n'ont pu être récupérés
(**) avec l'abstract
Bibliométrie
La page liée est un exemple d'une interrogation simple de bibliométrie (voir page biblio)
Construction du lexique
Congrès | Nb syntagmes lus | Nb de syntagmes retenus | Nb syntagmes sommés | Nb syntagmes nouveaux |
Singapour 2004 |
| 5669
| 5669
| 5669 |
Istanbul 2005 | 78101 | 5444
| 8802
| 3140 |
Séoul 2006 | 68305 | 5861 | 11925 | 3125 |
Prague 2007 | 57487 | 4537 | 13799 | 1876 |
Aggra 2008 | 95929 | 6648 | 16857 | 3060 |
Budapest 2009 | 106617 | 7286 | 20127 | 3272 |
Vancouver 2010 | 101758 | 6668 | 22693 | 2568 |
Helsinski 2011 | 86183 | 7244 | 25594 | 2903 |
Bangkok 2012 | 198862 | 9119 | 29413 | 3821 |
Genève 2013 | 118444 | 7730 | 32210 | 2799 |
Les 32210 syntagmes sont ordonnés suivant le tf-idf et par seuillage des syntagmes les plus pertinents trois lexiques sont établis.(voir ces lexiques )
Pour
chaque syntagme on a calculé son tf-idf, sorte de probabilité tenant
compte du nombre d'occurences du syntagme et du nombre de textes
(fichiers) dans lequel il apparait. Le seuillage est fait en fonction
de la taille désirée du lexique.
Calcul des signatures et recherche de semblables
Le
calcul des signatures (liste des syntagmes appartenant à l'article et
au lexique) est fait pour chaque article. (durée de 4 secondes par article)
On
peut alors calculer un degré de ressemblance entre un article donnée et
tous ceux de la base et obtenir, classée de façon décroissante, la
liste des articles de la base.
(voir résultats comparaisons) (voir interrogation sur le contenu)
Détermination de thèmes à partir du lexique et classification
MKD facilite la partition du lexique en un ensemble de syntagmes qui correspondent à autant de sous-thèmes.
Une interface permet la répartition facile des syntagmes dans les thèmes choisis.
Les noms des thèmes sont choisis dynamiquement parmi les termes du lexique.
La
liste des syntagmes d'un thème peut servir à une classification des
articles de la base en fonction de leur représentativité du thème.