Construire un lexique de domaine
Mais la recherche des mots et expressions d’un domaine est une tâche fastidieuse, aussi bien dans une première création du lexique que lors de la maintenance de ce lexique, car l’évolution des techniques s’accélérant apporte de nouvelles expressions de façon continue.
Comme corpus documentaires nous avons choisi les textes de congrès réguliers de différentes associations, rassemblés sur des CD. Les deux premiers exemples sont, les huit congrès annuels de l’association internationale des travaux en souterrains (AITES ou ITA : International Tunneling Association) et les six derniers congrès bi-annuels des géotechniciens de France, les JNGG (journées nationales de géologie et de géotechnique).
Pour les WTC (World Tunnel Congress) : articles en anglais
Nom |
Année |
Lieu |
Nb d’articles |
Nb de pages |
|
WTC 2004 |
2004 |
Singapour |
|||
WTC 2005 |
Istanbul |
||||
WTC 2006 |
Séoul |
||||
WTC 2007 |
Prague |
||||
WTC 2008 |
Aggra |
||||
WTC 2009 |
Budapest |
||||
WTC 2010 |
Vancouver |
||||
WTC 2011 |
Helsinki |
demanderait un traitement adapté, ce qui pose la question du respect des instructions éditoriales.
Pour les JNGG (journées nationales de géologie et de géotechnique) : articles en français
Nb de pages |
|||||
JNGG 02 |
2002 |
Nancy |
|||
JNGG 04 |
2004 |
Lille |
|||
JNGG 06 |
Lyon |
||||
JNGG 08 |
Nantes |
||||
JNGG 10 |
Grenoble |
||||
JNGG 12 |
Bordeaux |
Etapes de la recherche automatique
S1 contient les références des articles (noms des auteurs, titre, année, pagination ( si elle existe) et référence du congrès)
S2 contient les références bibliographiques, remises en forme, de chaque article.
S3 contient pour chaque article, le résultat de l’analyse morpho syntaxique, c'est-à-dire la liste des syntagmes contenus dans l’article, avec leurs occurrences, suivant les patrons morho-syntaxiques que nous avons choisis. Ces patrons sont au nombre de 7 et sont N, AN, NA, NPN, NPAN, NPNA, NPNPN et Nom Propre.
3. Pour chaque fichier, et par patron, trois jeux de seuils vont permettre la détermination de trois lexiques (long, moyen et court)
id_lexg |
Nom_paq |
Seuil |
Nb_article |
Nb_syntagme_lu
|
Nb_synt_ret |
L_global |
Lex_att |
4 |
lille_a |
10+8+4+8+6 |
59 |
11582 |
655 |
[4,2 Ko] |
[2,0 Ko] |
5 |
lille_b |
5+3+2+3+2 |
59 |
11582 |
1811 |
[11,0 Ko] |
[8,3 Ko] |
6 |
lille_c |
2+2+2+2+2 |
59 |
11582 |
5116 |
[23,6 Ko] |
[33 Octets] |
7 |
lyon_a |
10+8+4+8+6 |
81 |
15397 |
721 |
[4,4 Ko] |
[2,0 Ko] |
8 |
lyon_b |
5+3+2+3+2 |
81 |
15397 |
2215 |
[12,3 Ko] |
[8,8 Ko] |
9 |
lyon_c |
2+2+2+2+2 |
81 |
15397 |
6559 |
[26,4 Ko] |
[32 Octets] |
10 |
nantes_a |
10+8+4+8+6 |
97 |
16417 |
841 |
[5,3 Ko] |
[2,0 Ko] |
11 |
nantes_b |
5+3+2+3+2 |
97 |
16417 |
2463 |
[13,1 Ko] |
[10,0 Ko] |
12 |
nantes_c |
2+2+2+2+2 |
97 |
16417 |
7036 |
[28,0 Ko] |
[34 Octets] |
13 |
gre_a |
10+8+4+8+6 |
118 |
21368 |
1034 |
[5,6 Ko] |
[2,2 Ko] |
14 |
gre_b |
5+3+2+3+2 |
118 |
21368 |
2953 |
[14,3 Ko] |
[11,3 Ko] |
15 |
gre_c |
2+2+2+2+2 |
118 |
21368 |
9030 |
[31,7 Ko] |
[32 Octets] |
16 |
bdx_a |
10+8+4+8+6 |
112 |
18436 |
869 |
[4,9 Ko] |
[2,0 Ko] |
17 |
bdx_b |
5+3+2+3+2 |
112 |
18436 |
2634 |
[14,3 Ko] |
[10,3 Ko] |
18 |
bdx_c |
2+2+2+2+2 |
112 |
18436 |
7777 |
[29,8 Ko] |
[32 Octets] |
19 |
nancy_a |
10+8+4+8+6 |
136 |
29900 |
1628 |
[5,2 Ko] |
[2,0 Ko] |
20 |
nancy_b |
5+3+2+3+2 |
136 |
29900 |
4542 |
[13,1 Ko] |
[9,5 Ko] |
21 |
nancy_c |
2+2+2+2+2 |
136 |
29900 |
13032 |
[28,5 Ko] |
[34 Octets] |
Création des 3 lexiques (a, b, c) correspondant à la somme des 8 JNGG
Lexique avec les seuils les plus hauts : 767 termes
Lexique avec les seuils moyens : 1965 termes
Lexique avec les seuils les plus bas, lexique maximal : 4045 termes
Un tableau de comparaison des trois lexiques permet d’évaluer ce processus de construction par seuils.
Nous proposons une autre approche pour réduire la dimension du lexique, approche fondée sur une statistique simple, car les comptes (occurrences des termes et nombre de fichiers où apparaissent les termes existent). La fréquence d’un terme (syntagme) est le rapport entre le nombre d’occurrence du terme dans le corpus et la somme des occurrences des termes. Ce rapport est le TF (term frequency). Une seconde fréquence qui peut être calculée est celle du nombre de fichiers (document) ou apparaît le terme rapporté au nombre total de fichiers. Utilisé au dénominateur cette fréquence est appelée IDF (Inverse document frequency) et l’utilisation conjointe de ces deux fréquences est le TF-IDF. En seuillant les termes sur cette valeur, on peut déterminer un lexique par sa taille.
Partant du lexique maximal obtenu par le seuillage le plus bas, nous calculons le tf-idf de chacun des syntagmes, et nous ne retenons que les syntagmes dont le tf-idf est supérieur à une valeur donnée.
Dans le tableau suivant les tf-idf ont été multipliés par 10 000 000 et seuilés à 200, ce qui correspond à 142 syntagmes. (201 pour un seuil de 100 et 475 pour un seuil de 10 et 933 pour un seuil de 1)
Rang |
Rang ini |
Syntagme |
Occurence |
Patron |
Nb fich |
TF-IDF |
0 |
82 |
analyse |
329 |
N |
104 |
227 |
1 |
115 |
application |
342 |
N |
114 |
259 |
2 |
119 |
approche |
439 |
N |
114 |
332 |
3 |
134 |
argile |
672 |
N |
121 |
540 |
4 |
247 |
base |
1211 |
N |
242 |
1947 |
5 |
289 |
bloc |
939 |
N |
111 |
692 |
6 |
374 |
cadre |
468 |
N |
147 |
457 |
7 |
397 |
calcul |
1996 |
N |
259 |
3435 |
8 |
434 |
capteur |
623 |
N |
100 |
414 |
9 |
448 |
carte |
553 |
N |
84 |
308 |
10 |
467 |
cas |
2508 |
N |
396 |
6600 |
11 |
555 |
charge |
1231 |
N |
176 |
1439 |
12 |
560 |
chargement |
1176 |
N |
133 |
1039 |
13 |
622 |
cisaillement |
838 |
N |
132 |
735 |
14 |
672 |
coefficient |
1242 |
N |
210 |
1733 |
15 |
705 |
colonne |
646 |
N |
57 |
244 |
16 |
724 |
comparaison |
390 |
N |
133 |
344 |
17 |
740 |
comportement |
1979 |
N |
317 |
4169 |
18 |
750 |
compression |
634 |
N |
117 |
492 |
19 |
752 |
compte |
941 |
N |
250 |
1563 |
20 |
795 |
condition |
1295 |
N |
281 |
2418 |
21 |
835 |
construction |
949 |
N |
175 |
1103 |
22 |
838 |
contact |
357 |
N |
85 |
201 |
23 |
844 |
contexte |
423 |
N |
123 |
345 |
24 |
861 |
contrainte |
2850 |
N |
270 |
5113 |
25 |
931 |
couche |
1734 |
N |
224 |
2581 |
26 |
976 |
courbe |
866 |
N |
157 |
903 |
27 |
1032 |
cycle |
627 |
N |
56 |
233 |
28 |
1095 |
dimension |
310 |
N |
102 |
210 |
29 |
1096 |
dimensionnement |
447 |
N |
91 |
270 |
30 |
1107 |
direction |
564 |
N |
113 |
423 |
31 |
1132 |
dispositif |
714 |
N |
139 |
659 |
32 |
1141 |
distance |
493 |
N |
109 |
357 |
33 |
1171 |
domaine |
512 |
N |
123 |
418 |
34 |
1208 |
eau |
1321 |
N |
185 |
1624 |
35 |
1219 |
effet |
1367 |
N |
324 |
2943 |
36 |
1231 |
effort |
646 |
N |
104 |
446 |
37 |
1333 |
essai |
3048 |
N |
298 |
6036 |
38 |
1352 |
exemple |
813 |
N |
227 |
1226 |
39 |
1388 |
facteur |
696 |
N |
123 |
568 |
40 |
1398 |
fait |
463 |
N |
150 |
461 |
41 |
1431 |
figure |
1702 |
N |
385 |
4354 |
42 |
1444 |
fin |
345 |
N |
106 |
243 |
43 |
1453 |
fissure |
525 |
N |
63 |
219 |
44 |
1484 |
fonction |
1800 |
N |
364 |
4354 |
45 |
1494 |
fondation |
1276 |
N |
123 |
1043 |
46 |
1500 |
for |
740 |
N |
221 |
1086 |
47 |
1502 |
forage |
889 |
N |
121 |
714 |
48 |
1518 |
formation |
942 |
N |
164 |
1026 |
49 |
1528 |
forme |
836 |
N |
205 |
1138 |
50 |
1545 |
fracture |
719 |
N |
63 |
301 |
51 |
1566 |
frottement |
982 |
N |
155 |
1011 |
52 |
1592 |
galerie |
787 |
N |
88 |
460 |
53 |
1629 |
glissement |
952 |
N |
95 |
601 |
54 |
1706 |
hauteur |
974 |
N |
207 |
1339 |
55 |
1769 |
indice |
478 |
N |
86 |
273 |
56 |
1777 |
influence |
360 |
N |
104 |
248 |
57 |
1865 |
jour |
568 |
N |
110 |
415 |
58 |
1870 |
juillet |
1902 |
N |
242 |
3058 |
59 |
1871 |
juin |
1344 |
N |
174 |
1554 |
60 |
1883 |
laboratoire |
787 |
N |
183 |
957 |
61 |
1933 |
ligne |
385 |
N |
85 |
217 |
62 |
1948 |
limite |
1034 |
N |
232 |
1594 |
63 |
1994 |
loi |
719 |
N |
146 |
697 |
64 |
1996 |
long |
421 |
N |
115 |
321 |
65 |
2005 |
longueur |
604 |
N |
144 |
578 |
66 |
2085 |
masse |
597 |
N |
129 |
511 |
67 |
2096 |
massif |
1272 |
N |
176 |
1487 |
68 |
2149 |
mesure |
2988 |
N |
360 |
7148 |
69 |
2165 |
milieu |
622 |
N |
134 |
553 |
70 |
2203 |
mise |
967 |
N |
230 |
1478 |
71 |
2226 |
mode |
339 |
N |
89 |
200 |
72 |
2231 |
module |
782 |
N |
115 |
597 |
73 |
2238 |
moment |
499 |
N |
65 |
215 |
74 |
2248 |
monsieur |
774 |
N |
218 |
1121 |
75 |
2287 |
mouvement |
977 |
N |
144 |
934 |
76 |
2309 |
nappe |
880 |
N |
126 |
736 |
77 |
2311 |
nature |
413 |
N |
140 |
384 |
78 |
2346 |
niveau |
2077 |
N |
344 |
4748 |
79 |
2376 |
nombre |
760 |
N |
176 |
888 |
80 |
2404 |
observation |
367 |
N |
107 |
260 |
81 |
2468 |
ouvrage |
1455 |
N |
226 |
2185 |
82 |
2520 |
paroi |
1041 |
N |
108 |
747 |
83 |
2523 |
part |
692 |
N |
217 |
997 |
84 |
2534 |
partie |
1277 |
N |
315 |
2673 |
85 |
2569 |
pente |
811 |
N |
144 |
776 |
86 |
2625 |
phase |
1472 |
N |
231 |
2259 |
87 |
2643 |
pieu |
791 |
N |
40 |
210 |
88 |
2670 |
place |
1058 |
N |
247 |
1736 |
89 |
2689 |
plan |
748 |
N |
168 |
835 |
90 |
2721 |
poids |
403 |
N |
113 |
302 |
91 |
2732 |
point |
1483 |
N |
302 |
2976 |
92 |
2734 |
pointe |
605 |
N |
53 |
213 |
93 |
2824 |
pression |
1866 |
N |
205 |
2542 |
94 |
2835 |
principe |
381 |
N |
121 |
306 |
95 |
2842 |
prise |
424 |
N |
130 |
366 |
96 |
2887 |
profil |
1043 |
N |
160 |
1109 |
97 |
2894 |
profondeur |
1923 |
N |
284 |
3629 |
98 |
2920 |
projet |
1152 |
N |
182 |
1393 |
99 |
2953 |
puits |
575 |
N |
61 |
233 |
100 |
3025 |
rapport |
1365 |
N |
321 |
2911 |
101 |
3047 |
recherche |
449 |
N |
114 |
340 |
102 |
3057 |
reconnaissance |
619 |
N |
123 |
505 |
103 |
3084 |
relation |
499 |
N |
128 |
424 |
104 |
3093 |
remblai |
1004 |
N |
123 |
820 |
105 |
3109 |
renforcement |
499 |
N |
67 |
222 |
106 |
3158 |
risque |
1768 |
N |
203 |
2385 |
107 |
3166 |
roche |
603 |
N |
105 |
420 |
108 |
3169 |
rock |
427 |
N |
91 |
258 |
109 |
3208 |
rupture |
1414 |
N |
182 |
1710 |
110 |
3218 |
sable |
1314 |
N |
143 |
1248 |
111 |
3253 |
secteur |
424 |
N |
89 |
250 |
112 |
3255 |
section |
406 |
N |
85 |
229 |
113 |
3305 |
simulation |
602 |
N |
89 |
356 |
114 |
3314 |
site |
2299 |
N |
312 |
4766 |
115 |
3348 |
sol |
6403 |
N |
425 |
18085 |
116 |
3353 |
sollicitation |
436 |
N |
103 |
298 |
117 |
3368 |
solution |
786 |
N |
139 |
726 |
118 |
3380 |
sondage |
894 |
N |
122 |
724 |
119 |
3462 |
structure |
1617 |
N |
227 |
2439 |
120 |
3478 |
suite |
341 |
N |
118 |
267 |
121 |
3514 |
surface |
2576 |
N |
344 |
5889 |
122 |
3536 |
tableau |
1058 |
N |
232 |
1631 |
123 |
3545 |
taille |
395 |
N |
88 |
231 |
124 |
3563 |
tassement |
1396 |
N |
128 |
1187 |
125 |
3592 |
temps |
1398 |
N |
279 |
2592 |
126 |
3602 |
teneur en eau |
695 |
NPN |
87 |
401 |
127 |
3607 |
teneur |
994 |
N |
122 |
805 |
128 |
3624 |
terme |
807 |
N |
219 |
1174 |
129 |
3636 |
terrain |
1986 |
N |
286 |
3774 |
130 |
3648 |
test |
574 |
N |
130 |
495 |
131 |
3674 |
toit |
520 |
N |
67 |
231 |
132 |
3722 |
traitement |
831 |
N |
131 |
723 |
133 |
3767 |
travail |
1621 |
N |
287 |
3091 |
134 |
3795 |
tunnel |
802 |
N |
67 |
357 |
135 |
3838 |
type |
2103 |
N |
417 |
5828 |
136 |
3871 |
valeur |
3007 |
N |
408 |
8153 |
137 |
3894 |
variation |
1372 |
N |
246 |
2243 |
138 |
3916 |
versant |
631 |
N |
64 |
268 |
139 |
3968 |
vitesse |
1275 |
N |
176 |
1491 |
140 |
3996 |
volume |
912 |
N |
182 |
1103 |
141 |
4001 |
vue |
395 |
N |
135 |
354 |
142 |
4043 |
zone |
2112 |
N |
247 |
3466 |
Des interfaces de comparaison de lexiques permettent de choisir un lexique avec lequel le calcul des signatures de chaque article est réalisé.
Le choix du lexique est déterminant pour les ambitions de la recherche du contenu des documents. Il y a un compromis à trouver entre la taille du lexique, qui est directement lié à la précision de la recherche du contenu et le temps de recherche, bien que ce dernier soit très acceptable. (2 minutes pour comparer une signature issue d'un lexique de 2000 syntagmes avec 3000 autres signatures)
Pour MKD tous les syntagmes détectés par la recherche suivant les patrons, sont mis en base. Ceux sélectionnés pour faire partie du lexique sont simplement indicés. Une interface permet de basculer l'indice et le syntagme passe du lexique au "réservoir" de syntagme. Un expert peut donc facilement améliorer en fonction de ses desirs le lexique car des tris lui permettent de travailler sur des listes facilement maîtrisables.