Exemple des congrès ISL (International Slope Stability)
Ces congrès se déroulent tous les quatre ans et réunissent jusqu'à 1000 chercheurs. Les deux derniers congrès sont analysés ici.
Analyse des congrès de Xi’an (2008) et de Banff en 2012 par MKD.
Rappel des étapes
- Transformation des fichiers pdf en fichier txt
- Construction des fichiers S1, S2, S3
- S1: liste des articles du congrès
- S2 : liste des références (multiples) des bibliographies
- S3 : liste des syntagmes utilisés suivant les patrons pré-définis
- Correction assistée de S1 et S2
- Mise en base
- Calcul des lexiques de chaque congrès puis sommation de ces lexiques
- Détermination du lexique final (du domaine) par seuillage des valeurs tf-idf calculées pour chaque syntagme
Mise en base
Congrès | Eart | Fichiers initiaux txt : Nombre de lignes | | | | | | |
| | S1 | S2 | S3 | Nb articles | Nb ref lues | Nb ref nouvelles | Nb auteurs lus | Nb auteurs nouveaux | Nb syntagmes lus |
Xian 2008 | mkd_xian | 3106 | 16533 | 108710 | 270 | 2980 | 2771 | 7292 | 4859 | 106709 |
Banff 2012 | banff | 3443 | 17882 | 124912 | 271 | 1045 | 4128 | 11296 | 6465 | 123096 |
Totaux | | | | | | | | | | |
Construction du lexique
Congrès | Nb syntagmes lus | Nb de syntagmes retenus | Nb syntagmes sommés | Nb syntagmes nouveaux |
Xian 2008 | 106709 | 7831
| 7831
| 7831 |
Banff 2012 | 123096 | 8287
| 13032
| 5203 |
Total | | | | |
Les 13032 syntagmes
sont ordonnés suivant le tf-idf et par seuillage des syntagmes les plus
pertinents un lexique est construit avec 2055 syntagmes. (voir ce lexique )
Pour
chaque syntagme on a calculé son tf-idf, sorte de probabilité tenant
compte du nombre d'occurences du syntagme et du nombre de textes
(fichiers) dans lequel il apparait. Le seuillage est fait en fonction
de la taille désirée du lexique.
Le lexique choisi, le calcul des signatures est fait.
La base peut être interrogée. (voir les résultats)