Construire un lexique de domaine

La détermination d’un lexique pour un domaine de connaissance donné est une étape importante dans le management des connaissances. Sowa, un des fondateurs de ces techniques disait : « la connaissance commence par des mots ». En effet connaître les mots qui supportent les concepts d’un domaine technique est un préliminaire à la description de ce domaine.

Mais la recherche des mots et expressions d’un domaine est une tâche fastidieuse, aussi bien dans une première création du lexique que lors de la maintenance de ce lexique, car l’évolution des techniques s’accélérant apporte de nouvelles expressions de façon continue.

Nous présentons ci après, une automatisation de la création de lexiques à partir de corpus documentaire rassemblé pour un domaine donné.

Comme corpus documentaires nous avons choisi les textes de congrès réguliers de différentes associations, rassemblés sur des CD. Les deux premiers exemples sont, les huit congrès annuels de l’association internationale des travaux en souterrains (AITES ou ITA : International Tunneling Association) et les six derniers congrès bi-annuels des géotechniciens de France, les JNGG (journées nationales de géologie et de géotechnique).

Le nombre d'articles correspond au articles mis en base par le système. Pour Helsinki la codification utilisée

demanderait un traitement adapté, ce qui pose la question du respect des instructions éditoriales.

Pour les JNGG (journées nationales de géologie et de géotechnique) : articles en français

S1 contient les références des articles (noms des auteurs, titre, année, pagination ( si elle existe) et référence du congrès)

S2 contient les références bibliographiques, remises en forme, de chaque article.

S3 contient pour chaque article, le résultat de l’analyse morpho syntaxique, c'est-à-dire la liste des syntagmes contenus dans l’article, avec leurs occurrences, suivant les patrons morho-syntaxiques que nous avons choisis. Ces patrons sont au nombre de 7 et sont N, AN, NA, NPN, NPAN, NPNA, NPNPN et Nom Propre.

S1 et S2 servent à développer une approche bibliométrique (lien) et S3 sert à la détermination du lexique.

3. Pour chaque fichier, et par patron, trois jeux de seuils vont permettre la détermination de trois lexiques (long, moyen et court)

Un tableau de comparaison des trois lexiques permet d’évaluer ce processus de construction par seuils.

Nous proposons une autre approche pour réduire la dimension du lexique, approche fondée sur une statistique simple, car les comptes (occurrences des termes et nombre de fichiers où apparaissent les termes existent). La fréquence d’un terme (syntagme) est le rapport entre le nombre d’occurrence du terme dans le corpus et la somme des occurrences des termes. Ce rapport est le TF (term frequency). Une seconde fréquence qui peut être calculée est celle du nombre de fichiers (document) ou apparaît le terme rapporté au nombre total de fichiers. Utilisé au dénominateur cette fréquence est appelée IDF (Inverse document frequency) et l’utilisation conjointe de ces deux fréquences est le TF-IDF. En seuillant les termes sur cette valeur, on peut déterminer un lexique par sa taille.

Partant du lexique maximal obtenu par le seuillage le plus bas, nous calculons le tf-idf de chacun des syntagmes, et nous ne retenons que les syntagmes dont le tf-idf est supérieur à une valeur donnée.

Dans le tableau suivant les tf-idf ont été multipliés par 10 000 000 et seuilés à 200, ce qui correspond à 142 syntagmes. (201 pour un seuil de 100 et 475 pour un seuil de 10 et 933 pour un seuil de 1)

Rang	Rang ini	Syntagme	Occurence	Patron	Nb fich	TF-IDF
0	82	analyse	329	N	104	227
1	115	application	342	N	114	259
2	119	approche	439	N	114	332
3	134	argile	672	N	121	540
4	247	base	1211	N	242	1947
5	289	bloc	939	N	111	692
6	374	cadre	468	N	147	457
7	397	calcul	1996	N	259	3435
8	434	capteur	623	N	100	414
9	448	carte	553	N	84	308
10	467	cas	2508	N	396	6600
11	555	charge	1231	N	176	1439
12	560	chargement	1176	N	133	1039
13	622	cisaillement	838	N	132	735
14	672	coefficient	1242	N	210	1733
15	705	colonne	646	N	57	244
16	724	comparaison	390	N	133	344
17	740	comportement	1979	N	317	4169
18	750	compression	634	N	117	492
19	752	compte	941	N	250	1563
20	795	condition	1295	N	281	2418
21	835	construction	949	N	175	1103
22	838	contact	357	N	85	201
23	844	contexte	423	N	123	345
24	861	contrainte	2850	N	270	5113
25	931	couche	1734	N	224	2581
26	976	courbe	866	N	157	903
27	1032	cycle	627	N	56	233
28	1095	dimension	310	N	102	210
29	1096	dimensionnement	447	N	91	270
30	1107	direction	564	N	113	423
31	1132	dispositif	714	N	139	659
32	1141	distance	493	N	109	357
33	1171	domaine	512	N	123	418
34	1208	eau	1321	N	185	1624
35	1219	effet	1367	N	324	2943
36	1231	effort	646	N	104	446
37	1333	essai	3048	N	298	6036
38	1352	exemple	813	N	227	1226
39	1388	facteur	696	N	123	568
40	1398	fait	463	N	150	461
41	1431	figure	1702	N	385	4354
42	1444	fin	345	N	106	243
43	1453	fissure	525	N	63	219
44	1484	fonction	1800	N	364	4354
45	1494	fondation	1276	N	123	1043
46	1500	for	740	N	221	1086
47	1502	forage	889	N	121	714
48	1518	formation	942	N	164	1026
49	1528	forme	836	N	205	1138
50	1545	fracture	719	N	63	301
51	1566	frottement	982	N	155	1011
52	1592	galerie	787	N	88	460
53	1629	glissement	952	N	95	601
54	1706	hauteur	974	N	207	1339
55	1769	indice	478	N	86	273
56	1777	influence	360	N	104	248
57	1865	jour	568	N	110	415
58	1870	juillet	1902	N	242	3058
59	1871	juin	1344	N	174	1554
60	1883	laboratoire	787	N	183	957
61	1933	ligne	385	N	85	217
62	1948	limite	1034	N	232	1594
63	1994	loi	719	N	146	697
64	1996	long	421	N	115	321
65	2005	longueur	604	N	144	578
66	2085	masse	597	N	129	511
67	2096	massif	1272	N	176	1487
68	2149	mesure	2988	N	360	7148
69	2165	milieu	622	N	134	553
70	2203	mise	967	N	230	1478
71	2226	mode	339	N	89	200
72	2231	module	782	N	115	597
73	2238	moment	499	N	65	215
74	2248	monsieur	774	N	218	1121
75	2287	mouvement	977	N	144	934
76	2309	nappe	880	N	126	736
77	2311	nature	413	N	140	384
78	2346	niveau	2077	N	344	4748
79	2376	nombre	760	N	176	888
80	2404	observation	367	N	107	260
81	2468	ouvrage	1455	N	226	2185
82	2520	paroi	1041	N	108	747
83	2523	part	692	N	217	997
84	2534	partie	1277	N	315	2673
85	2569	pente	811	N	144	776
86	2625	phase	1472	N	231	2259
87	2643	pieu	791	N	40	210
88	2670	place	1058	N	247	1736
89	2689	plan	748	N	168	835
90	2721	poids	403	N	113	302
91	2732	point	1483	N	302	2976
92	2734	pointe	605	N	53	213
93	2824	pression	1866	N	205	2542
94	2835	principe	381	N	121	306
95	2842	prise	424	N	130	366
96	2887	profil	1043	N	160	1109
97	2894	profondeur	1923	N	284	3629
98	2920	projet	1152	N	182	1393
99	2953	puits	575	N	61	233
100	3025	rapport	1365	N	321	2911
101	3047	recherche	449	N	114	340
102	3057	reconnaissance	619	N	123	505
103	3084	relation	499	N	128	424
104	3093	remblai	1004	N	123	820
105	3109	renforcement	499	N	67	222
106	3158	risque	1768	N	203	2385
107	3166	roche	603	N	105	420
108	3169	rock	427	N	91	258
109	3208	rupture	1414	N	182	1710
110	3218	sable	1314	N	143	1248
111	3253	secteur	424	N	89	250
112	3255	section	406	N	85	229
113	3305	simulation	602	N	89	356
114	3314	site	2299	N	312	4766
115	3348	sol	6403	N	425	18085
116	3353	sollicitation	436	N	103	298
117	3368	solution	786	N	139	726
118	3380	sondage	894	N	122	724
119	3462	structure	1617	N	227	2439
120	3478	suite	341	N	118	267
121	3514	surface	2576	N	344	5889
122	3536	tableau	1058	N	232	1631
123	3545	taille	395	N	88	231
124	3563	tassement	1396	N	128	1187
125	3592	temps	1398	N	279	2592
126	3602	teneur en eau	695	NPN	87	401
127	3607	teneur	994	N	122	805
128	3624	terme	807	N	219	1174
129	3636	terrain	1986	N	286	3774
130	3648	test	574	N	130	495
131	3674	toit	520	N	67	231
132	3722	traitement	831	N	131	723
133	3767	travail	1621	N	287	3091
134	3795	tunnel	802	N	67	357
135	3838	type	2103	N	417	5828
136	3871	valeur	3007	N	408	8153
137	3894	variation	1372	N	246	2243
138	3916	versant	631	N	64	268
139	3968	vitesse	1275	N	176	1491
140	3996	volume	912	N	182	1103
141	4001	vue	395	N	135	354
142	4043	zone	2112	N	247	3466

Des interfaces de comparaison de lexiques permettent de choisir un lexique avec lequel le calcul des signatures de chaque article est réalisé.

Le choix du lexique est déterminant pour les ambitions de la recherche du contenu des documents. Il y a un compromis à trouver entre la taille du lexique, qui est directement lié à la précision de la recherche du contenu et le temps de recherche, bien que ce dernier soit très acceptable. (2 minutes pour comparer une signature issue d'un lexique de 2000 syntagmes avec 3000 autres signatures)

Pour MKD tous les syntagmes détectés par la recherche suivant les patrons, sont mis en base. Ceux sélectionnés pour faire partie du lexique sont simplement indicés. Une interface permet de basculer l'indice et le syntagme passe du lexique au "réservoir" de syntagme. Un expert peut donc facilement améliorer en fonction de ses desirs le lexique car des tris lui permettent de travailler sur des listes facilement maîtrisables.

Nom	Année	Lieu	Nb d’articles	Nb de pages	Nb synt lus
WTC 2004	2004	Singapour	199	~2000
WTC 2005	2005	Istanbul	208	~2000	78101
WTC 2006	2006	Séoul	199	~2000	68305
WTC 2007	2007	Prague	306	~3000	57487
WTC 2008	2008	Aggra	202	~2000	95929
WTC 2009	2009	Budapest	266	~2500	106617
WTC 2010	2010	Vancouver	208	~2000	101758
WTC 2011	2011	Helsinki	151	~1500	86183

Congrès	Année	Lieu	Nb d'articles	Nb de pages	Nb synt lus
JNGG 02	2002	Nancy	67	~500	19444
JNGG 04	2004	Lille	60	~500	18814
JNGG 06	2006	Lyon	81	~600	25620
JNGG 08	2008	Nantes	97	~800	20739
JNGG 10	2010	Grenoble	124	~1000	34698
JNGG 12	2012	Bordeaux	112	~1000	29848

id_lexg	Nom_paq	Seuil	Nb_article	Nb_syntagme_lu	Nb_synt_ret	L_global	Lex_att
4	lille_a	10+8+4+8+6	59	11582	655	[4,2 Ko]	[2,0 Ko]
5	lille_b	5+3+2+3+2	59	11582	1811	[11,0 Ko]	[8,3 Ko]
6	lille_c	2+2+2+2+2	59	11582	5116	[23,6 Ko]	[33 Octets]
7	lyon_a	10+8+4+8+6	81	15397	721	[4,4 Ko]	[2,0 Ko]
8	lyon_b	5+3+2+3+2	81	15397	2215	[12,3 Ko]	[8,8 Ko]
9	lyon_c	2+2+2+2+2	81	15397	6559	[26,4 Ko]	[32 Octets]
10	nantes_a	10+8+4+8+6	97	16417	841	[5,3 Ko]	[2,0 Ko]
11	nantes_b	5+3+2+3+2	97	16417	2463	[13,1 Ko]	[10,0 Ko]
12	nantes_c	2+2+2+2+2	97	16417	7036	[28,0 Ko]	[34 Octets]
13	gre_a	10+8+4+8+6	118	21368	1034	[5,6 Ko]	[2,2 Ko]
14	gre_b	5+3+2+3+2	118	21368	2953	[14,3 Ko]	[11,3 Ko]
15	gre_c	2+2+2+2+2	118	21368	9030	[31,7 Ko]	[32 Octets]
16	bdx_a	10+8+4+8+6	112	18436	869	[4,9 Ko]	[2,0 Ko]
17	bdx_b	5+3+2+3+2	112	18436	2634	[14,3 Ko]	[10,3 Ko]
18	bdx_c	2+2+2+2+2	112	18436	7777	[29,8 Ko]	[32 Octets]
19	nancy_a	10+8+4+8+6	136	29900	1628	[5,2 Ko]	[2,0 Ko]
20	nancy_b	5+3+2+3+2	136	29900	4542	[13,1 Ko]	[9,5 Ko]
21	nancy_c	2+2+2+2+2	136	29900	13032	[28,5 Ko]	[34 Octets]