Construire un lexique de domaine

 La détermination d’un lexique pour un domaine de connaissance donné est une étape importante dans le management des connaissances. Sowa, un des fondateurs de ces techniques disait : « la connaissance commence par des mots ». En effet connaître les mots qui supportent les concepts d’un domaine technique est un préliminaire à la description de ce domaine.

Mais la recherche des mots et expressions d’un domaine est une tâche fastidieuse, aussi bien dans une première création du lexique que lors de la maintenance de ce lexique, car l’évolution des techniques s’accélérant apporte de nouvelles expressions de façon continue.

 Nous présentons ci après, une automatisation de la création de lexiques à partir de corpus documentaire rassemblé pour un domaine donné.

Comme corpus documentaires nous avons choisi les textes de congrès réguliers de différentes associations, rassemblés sur des CD. Les deux premiers exemples sont, les huit congrès annuels de l’association internationale des travaux en souterrains (AITES ou ITA : International Tunneling Association) et les six derniers congrès bi-annuels des géotechniciens de France, les JNGG (journées nationales de géologie et de géotechnique).

 

Pour les WTC (World Tunnel Congress) : articles en anglais

 

Nom

Année

Lieu

Nb d’articles

Nb de pages

Nb synt lus 

WTC 2004

2004

Singapour

 199

 ~2000

 

WTC 2005

 2005

Istanbul

 208

 ~2000

78101 

WTC 2006

 2006

Séoul

 199

 ~2000

 68305

WTC 2007

 2007

Prague

 306

 ~3000

 57487

WTC 2008

2008 

Aggra

 202

 ~2000

 95929

WTC 2009

2009 

Budapest

 266

 ~2500

 106617

WTC 2010

 2010

Vancouver

 208

 ~2000

 101758

WTC 2011

 2011

Helsinki

 151

 ~1500

 86183

 Le nombre d'articles correspond au articles mis en base par le système. Pour Helsinki la codification utilisée

demanderait un traitement adapté, ce qui pose la question du respect des instructions éditoriales.

 

Pour les JNGG (journées nationales de géologie et de géotechnique) : articles en français

 

 Congrès

 Année

 Lieu

 Nb d'articles

Nb de pages 

Nb synt lus 

JNGG 02

2002

Nancy

 67

 ~500

19444 

JNGG 04

2004

Lille

 60

 ~500

 18814

JNGG 06

 2006

Lyon

 81

 ~600

 25620

JNGG 08

 2008

Nantes

 97

 ~800

 20739

JNGG 10

 2010

Grenoble

 124

 ~1000

 34698

JNGG 12

 2012

Bordeaux

 112

 ~1000

 29848

 

 

Etapes de la recherche automatique

 

  1. Les fichiers .pdf gravés sur les CD remis aux participants de chaque congrès, sont placés dans un répertoire et transformés en fichier .txt par un outil du commerce comme Omnipage.
  2. Notre outil (MKD : Modélisation de la Connaissance par Domaine) traite, répertoire par répertoire, ces fichiers pour en extraire les fichiers S1, S2 et S3.

S1 contient les références des articles (noms des auteurs, titre, année, pagination ( si elle existe) et référence du congrès)

S2 contient les références bibliographiques, remises en forme, de chaque article.

S3 contient pour chaque article, le résultat de l’analyse morpho syntaxique, c'est-à-dire la liste des syntagmes contenus dans l’article, avec leurs occurrences, suivant les patrons morho-syntaxiques que nous avons choisis. Ces patrons sont au nombre de 7 et sont N, AN, NA, NPN, NPAN, NPNA, NPNPN et Nom Propre.

 S1 et S2 servent à développer une approche bibliométrique (lien) et S3 sert à la détermination du lexique.

 

     3. Pour chaque fichier, et par patron, trois jeux de seuils vont permettre la détermination de trois lexiques (long, moyen et court)

 Création des 3 lexiques de chaque JNGG (a= court, b=moyen, c=long)

id_lexg

Nom_paq

Seuil

Nb_article

Nb_syntagme_lu

Nb_synt_ret

L_global

Lex_att

4

lille_a

10+8+4+8+6

59

11582

655

[4,2 Ko]

[2,0 Ko]

5

lille_b

5+3+2+3+2

59

11582

1811

[11,0 Ko]

[8,3 Ko]

6

lille_c

2+2+2+2+2

59

11582

5116

[23,6 Ko]

[33 Octets]

7

lyon_a

10+8+4+8+6

81

15397

721

[4,4 Ko]

[2,0 Ko]

8

lyon_b

5+3+2+3+2

81

               15397

2215

[12,3 Ko]

[8,8 Ko]

9

lyon_c

2+2+2+2+2

81

15397

6559

[26,4 Ko]

[32 Octets]

10

nantes_a

10+8+4+8+6

97

16417

841

[5,3 Ko]

[2,0 Ko]

11

nantes_b

5+3+2+3+2

97

16417

2463

[13,1 Ko]

[10,0 Ko]

12

nantes_c

2+2+2+2+2

97

16417

7036

[28,0 Ko]

[34 Octets]

13

gre_a

10+8+4+8+6

118

21368

1034

[5,6 Ko]

[2,2 Ko]

14

gre_b

5+3+2+3+2

118

21368

2953

[14,3 Ko]

[11,3 Ko]

15

gre_c

2+2+2+2+2

118

21368

9030

[31,7 Ko]

[32 Octets]

16

bdx_a

10+8+4+8+6

112

18436

869

[4,9 Ko]

[2,0 Ko]

17

bdx_b

5+3+2+3+2

112

18436

2634

[14,3 Ko]

[10,3 Ko]

18

bdx_c

2+2+2+2+2

112

18436

7777

[29,8 Ko]

[32 Octets]

19

nancy_a

10+8+4+8+6

136

29900

1628

[5,2 Ko]

[2,0 Ko]

20

nancy_b

5+3+2+3+2

136

29900

4542

[13,1 Ko]

[9,5 Ko]

21

nancy_c

2+2+2+2+2

136

29900

13032

[28,5 Ko]

[34 Octets]

 

Création des 3 lexiques (a, b, c) correspondant à la somme des 8 JNGG

 

Lexique avec les seuils les plus hauts : 767 termes

Lexique avec les seuils moyens : 1965 termes

Lexique avec les seuils les plus bas, lexique maximal : 4045 termes

 

Un tableau de comparaison des trois lexiques  permet d’évaluer ce processus de construction par seuils.

 

Nous proposons une autre approche pour réduire la dimension du lexique, approche fondée sur une statistique simple, car les comptes (occurrences des termes et nombre de fichiers où apparaissent les termes existent). La fréquence d’un terme (syntagme) est le rapport entre le nombre d’occurrence du terme dans le corpus et la somme des occurrences des termes. Ce rapport est le TF (term frequency). Une seconde fréquence qui peut être calculée est celle du nombre de fichiers (document) ou apparaît le terme rapporté au nombre total de fichiers. Utilisé au dénominateur cette fréquence est appelée IDF (Inverse document frequency) et l’utilisation conjointe de ces deux fréquences est le TF-IDF. En seuillant les termes sur cette valeur, on peut déterminer un lexique par sa taille.

 

Partant du lexique maximal obtenu par le seuillage le plus bas, nous calculons le tf-idf de chacun des syntagmes, et nous ne retenons que les syntagmes dont le tf-idf est supérieur à une valeur donnée.

Dans le tableau suivant les tf-idf ont été multipliés par 10 000 000 et seuilés à 200, ce qui correspond à 142 syntagmes. (201 pour un seuil de 100 et 475 pour un seuil de 10 et 933 pour un seuil de 1)

 

Rang

Rang ini

Syntagme

Occurence

Patron

Nb fich

TF-IDF

0

82

analyse

329

N

104

227

1

115

application

342

N

114

259

2

119

approche

439

N

114

332

3

134

argile

672

N

121

540

4

247

base

1211

N

242

1947

5

289

bloc

939

N

111

692

6

374

cadre

468

N

147

457

7

397

calcul

1996

N

259

3435

8

434

capteur

623

N

100

414

9

448

carte

553

N

84

308

10

467

cas

2508

N

396

6600

11

555

charge

1231

N

176

1439

12

560

chargement

1176

N

133

1039

13

622

cisaillement

838

N

132

735

14

672

coefficient

1242

N

210

1733

15

705

colonne

646

N

57

244

16

724

comparaison

390

N

133

344

17

740

comportement

1979

N

317

4169

18

750

compression

634

N

117

492

19

752

compte

941

N

250

1563

20

795

condition

1295

N

281

2418

21

835

construction

949

N

175

1103

22

838

contact

357

N

85

201

23

844

contexte

423

N

123

345

24

861

contrainte

2850

N

270

5113

25

931

couche

1734

N

224

2581

26

976

courbe

866

N

157

903

27

1032

cycle

627

N

56

233

28

1095

dimension

310

N

102

210

29

1096

dimensionnement

447

N

91

270

30

1107

direction

564

N

113

423

31

1132

dispositif

714

N

139

659

32

1141

distance

493

N

109

357

33

1171

domaine

512

N

123

418

34

1208

eau

1321

N

185

1624

35

1219

effet

1367

N

324

2943

36

1231

effort

646

N

104

446

37

1333

essai

3048

N

298

6036

38

1352

exemple

813

N

227

1226

39

1388

facteur

696

N

123

568

40

1398

fait

463

N

150

461

41

1431

figure

1702

N

385

4354

42

1444

fin

345

N

106

243

43

1453

fissure

525

N

63

219

44

1484

fonction

1800

N

364

4354

45

1494

fondation

1276

N

123

1043

46

1500

for

740

N

221

1086

47

1502

forage

889

N

121

714

48

1518

formation

942

N

164

1026

49

1528

forme

836

N

205

1138

50

1545

fracture

719

N

63

301

51

1566

frottement

982

N

155

1011

52

1592

galerie

787

N

88

460

53

1629

glissement

952

N

95

601

54

1706

hauteur

974

N

207

1339

55

1769

indice

478

N

86

273

56

1777

influence

360

N

104

248

57

1865

jour

568

N

110

415

58

1870

juillet

1902

N

242

3058

59

1871

juin

1344

N

174

1554

60

1883

laboratoire

787

N

183

957

61

1933

ligne

385

N

85

217

62

1948

limite

1034

N

232

1594

63

1994

loi

719

N

146

697

64

1996

long

421

N

115

321

65

2005

longueur

604

N

144

578

66

2085

masse

597

N

129

511

67

2096

massif

1272

N

176

1487

68

2149

mesure

2988

N

360

7148

69

2165

milieu

622

N

134

553

70

2203

mise

967

N

230

1478

71

2226

mode

339

N

89

200

72

2231

module

782

N

115

597

73

2238

moment

499

N

65

215

74

2248

monsieur

774

N

218

1121

75

2287

mouvement

977

N

144

934

76

2309

nappe

880

N

126

736

77

2311

nature

413

N

140

384

78

2346

niveau

2077

N

344

4748

79

2376

nombre

760

N

176

888

80

2404

observation

367

N

107

260

81

2468

ouvrage

1455

N

226

2185

82

2520

paroi

1041

N

108

747

83

2523

part

692

N

217

997

84

2534

partie

1277

N

315

2673

85

2569

pente

811

N

144

776

86

2625

phase

1472

N

231

2259

87

2643

pieu

791

N

40

210

88

2670

place

1058

N

247

1736

89

2689

plan

748

N

168

835

90

2721

poids

403

N

113

302

91

2732

point

1483

N

302

2976

92

2734

pointe

605

N

53

213

93

2824

pression

1866

N

205

2542

94

2835

principe

381

N

121

306

95

2842

prise

424

N

130

366

96

2887

profil

1043

N

160

1109

97

2894

profondeur

1923

N

284

3629

98

2920

projet

1152

N

182

1393

99

2953

puits

575

N

61

233

100

3025

rapport

1365

N

321

2911

101

3047

recherche

449

N

114

340

102

3057

reconnaissance

619

N

123

505

103

3084

relation

499

N

128

424

104

3093

remblai

1004

N

123

820

105

3109

renforcement

499

N

67

222

106

3158

risque

1768

N

203

2385

107

3166

roche

603

N

105

420

108

3169

rock

427

N

91

258

109

3208

rupture

1414

N

182

1710

110

3218

sable

1314

N

143

1248

111

3253

secteur

424

N

89

250

112

3255

section

406

N

85

229

113

3305

simulation

602

N

89

356

114

3314

site

2299

N

312

4766

115

3348

sol

6403

N

425

18085

116

3353

sollicitation

436

N

103

298

117

3368

solution

786

N

139

726

118

3380

sondage

894

N

122

724

119

3462

structure

1617

N

227

2439

120

3478

suite

341

N

118

267

121

3514

surface

2576

N

344

5889

122

3536

tableau

1058

N

232

1631

123

3545

taille

395

N

88

231

124

3563

tassement

1396

N

128

1187

125

3592

temps

1398

N

279

2592

126

3602

teneur en eau

695

NPN

87

401

127

3607

teneur

994

N

122

805

128

3624

terme

807

N

219

1174

129

3636

terrain

1986

N

286

3774

130

3648

test

574

N

130

495

131

3674

toit

520

N

67

231

132

3722

traitement

831

N

131

723

133

3767

travail

1621

N

287

3091

134

3795

tunnel

802

N

67

357

135

3838

type

2103

N

417

5828

136

3871

valeur

3007

N

408

8153

137

3894

variation

1372

N

246

2243

138

3916

versant

631

N

64

268

139

3968

vitesse

1275

N

176

1491

140

3996

volume

912

N

182

1103

141

4001

vue

395

N

135

354

142

4043

zone

2112

N

247

3466

 

Des interfaces de comparaison de lexiques permettent de choisir un lexique avec lequel le calcul des signatures de chaque article est réalisé.

Le choix du lexique est déterminant pour les ambitions de la recherche du contenu des documents. Il y a un compromis à trouver entre la taille du lexique, qui est directement lié à la précision de la recherche du contenu et le temps de recherche, bien que ce dernier soit très acceptable. (2 minutes pour comparer une signature issue d'un lexique de 2000 syntagmes avec 3000 autres signatures)

Pour MKD tous les syntagmes détectés par la recherche suivant les patrons, sont mis en base. Ceux sélectionnés pour faire partie du lexique sont simplement indicés. Une interface permet de basculer l'indice et le syntagme passe du lexique au "réservoir" de syntagme. Un expert peut donc facilement améliorer en fonction de ses desirs le lexique car des tris lui permettent de travailler sur des listes facilement maîtrisables.