MKD : Outil bibliométrique appliqué à des congrès 

 

L’ingénieur ou le chercheur possède une documentation composée essentiellement d’articles de son domaine d’intérêt ou de recherche. Pour manier cette documentation de nombreux outils existent, mais nécessitent un effort important de mise en œuvre, ou sont proposés onéreusement par des maisons d’édition aux domaines trop larges et mal définis. Le recherche du contenu est du type plein texte, à la « google ».

Nous proposons une approche centrée sur l’utilisateur et son domaine, à partir de textes au format ;pdf, soit sur son poste, soit en ligne.

 

Principe

Les documents sont regroupés par année et forment des « paquets ». Un paquet comporte entre 10 et 300 documents stockés dans un répertoire. (100 à 3000 pages).

 

  1. Les fichiers .pdf du répertoire sont transformés en fichier .txt par un outil du commerce comme Omnipage.
  2. Notre outil (MKD : Modélisation de la Connaissance par Domaine) traite, répertoire par répertoire, ces fichiers pour en extraire les fichiers S1, S2 et S3.

S1 contient les références des articles (noms des auteurs, titre, année, pagination ( si elle existe) et référence du congrès)

S2 contient les références bibliographiques, remises dans un format simple, de chaque article.

S3 contient pour chaque article, le résultat de l’analyse morpho syntaxique, c'est-à-dire la liste des syntagmes contenus dans l’article, avec leurs occurrences, suivant les patrons morho-syntaxiques que nous avons choisis. Ces patrons sont au nombre de 7 et sont N, AN, NA, NPN, NPAN, NPNA, NPNPN et Nom Propre. (S3 sert à construire un lexique de domaine et permet le calcul des signatures de chaque article)

 

S1 et S2 servent à développer une approche bibliométrique (lien) et S3 sert à la détermination du lexique.(lien vers lexique)

 

Du fait d’erreurs de frappe ou typographiques, S1 et S2 sont interprétés et facilement corrigeables avec l’aide d’une interface, les anomalies étant mises en évidence.

S1 et S2 étant corrigés, leur contenu est mis en base.

D’autres références provenant de sommaires de congrès, de bibliographies d’articles de synthèse, de thèse, peuvent être ajoutés à la base.

 

Cette base contient alors, les références des articles présentés et les références des articles cités dans leurs bibliographies.

Par interrogation nous pouvons obtenir des LRA, listes de références d’articles, comme

LRA des articles de tel(s) auteur(s)

LRA des articles contenant ce(s) mot(s) dans le titre

Etc, avec d’autres critères (date, revue,…)

 

En utilisant une LRA préalablement construite, stockée sous forme d’un petit fichier .txt d’autres questions comme

Quels sont les auteurs cités dans les articles de cette LRA ?

Etc…