Mise en oeuvre de MKD



Les données sont:
Les données pour MKD sont des ensembles d'articles sous forme de .pdf dans un répertoire (1 à ~300 articles)
Ces ensembles sont appelés Eart. (Un congrès est typiquement un Eart.)
Il y a deux types d'Eart.
  1.         Eart homogène comme les articles de congrès ou d'une même revue. On connait pour ces Eart une Origine et une année d'édition.
  2.         Eart non homogène ou en vrac correspondant à une collection de documents rassemblés par un chercheur.
Ces fichiers sont fournis par le demandeur.Chaque fichier (article) comporte Un titre, un ou des auteurs, une date de présentation.
Les traitements sont:
  1. la transformation pdf ==> txt
  2. la construction des fichiers S1,S2,S3 (logiciel propriétaire)
  3. la vérification assistée de ces trois fichiers
  4. la mise en base des éléments représentant les articles.
  5. la détermination du lexique en donnant sa taille.
  6. le calcul des signatures des articles (logiciel propriétaire)
  7. la partition du lexique en thèmes par les mécaniciens des sols.
  8. Recherche des fragments de texte et création supervisée des granules.
Les questions
(voir l'interface)