Généralités

Le management des connaissances est devenu incontournable pour une entreprise qui veut s'affirmer dans le monde concurrentiel actuel.

Le flux de l'information devient chaque jour plus important. Comment s'y retrouver et retrouver l'information pertinente?

Nous avons créé un outil appelé MKD qui permet la gestion, par leurs titres et leurs contenus, des articles de revues ou de congrès concernant un domaine donné.

Le chemin suivi est le suivant:

    Pour chaque ensemble de documents (dans notre cas les centaines d'articles d'un congrès) une transformation des fichiers pdf en fichiers txt est d'abortd faite.

    Ces fichiers sont relus et MKD en extrait, rangé dans trois fichiers, la liste des titres, (auteurs et adresses des auteurs), la listes des références de chaque bibliographie, et la listes des termes et ensembles de termes utilisés par les auteurs. La recherche des syntagmes utilisés (termes et ensembles de termes) se fait suivant un ensemble de "patrons" morphosyntaxiques, c'est à dire des suites ordonnées de nom, adjectif  et proposition. Les trois fichiers, que l'on appelle S1, S2 et S3 vont être mis en base de données.

    Pour que la base de données puisse répondre aux questions, elle doit posséder un lexique rassemblant les mots les plus usités du domaine.

    La construction de ce lexique se fait par étapes car sa construction est cummulative,  ensemble de documents par ensemble de documents (ou congrès après congrès) et le seul paramètre démandé est celui de sa taille. (de 1000 à 2500 syntagmes).

    Ce lexique construit, la signature (ou les mots-clés) de chaque document est calculée. La signature est la liste des syntagmes présents dans l'article et dans le lexique. La taille des signatures, qui dépend de la taille du lexique, varie de 100 à 500 syntagmes.

    La base est alors prête à être interrogée. 

Outre les approches classique de bibliométrie, la définitin des signatures permet une approche plus directe. Partant du principe que deux articles contenant les mêmes syntagmes se ressemblent, la donnée de la référence d'un article, permet d'obtenir, par ordre décroissant, son degré de ressemblance avec tous les autres. Et ainsi d'obtenir des familles d'articles.