Introduction

Creative Commons License
Cette création est mise à disposition sous un contrat Creative Commons.

La maîtrise de l’information est un enjeu majeur pour l’entreprise. Pour être efficace, celle-ci doit disposer de la bonne information au bon moment ; la réactivité de l’organisation en dépend. Avec la numérisation, et donc la dématérialisation des supports d’information, les mouvements s’intensifient. Il est d’autant plus nécessaire pour l’entreprise d’organiser une gestion du contenu afin d’agréger, dans une interface unique, toute l’information dont l’utilisateur a besoin pour prendre les bonnes décisions.
La profession de l’information et de la documentation se définit par la mission fondamentale qu’elle remplit : rechercher, traiter, produire, diffuser de l’information en y incorporant de la valeur ajoutée, en vue de satisfaire les besoins en informations d’une population cible. Répondre aux besoins en informations des usagers, malgré l’explosion documentaire à laquelle les entreprises sont confrontées, tel est l’objet principal de notre recherche.

L’utilisation des TIC (Technologies de l’Information et de la Communication) incite à repenser les procédures, la façon d’échanger l’information et de travailler. Ainsi, avec l’arrivée du numérique en entreprise, la gestion de l’information s’en trouve bouleversée. Alors que les documents textuels étaient uniquement référencés dans les bases de données, les documents textuels électroniques y sont quant à eux intégrés. La notion de document[1] est transformée, et avec elle son traitement. L’indexation est modifiée par la structure même du document. Désormais, les documents sont décrits non seulement en fonction de leur contenu, mais aussi en fonction de leur structure. La phase de recherche, quant à elle, portait sur le ou les thèmes abordés par le document (recherche par sujet). Avec la recherche en « plein texte »[2], portant sur tous les mots contenus dans le texte, la pertinence de la réponse est mise en cause. Les documents, non retrouvés, risquent alors de sombrer dans l’oubli. L’abondance d’information, liée elle aussi à l’entrée du numérique dans les entreprises, ne permet donc pas pour autant de parler de pérennisation.


Dès lors, comment gérer et organiser la masse de documents textuels circulant en entreprise ? Comment analyser, structurer, filtrer l’information pertinente parmi toutes celles que contiennent les documents stockés ? L’indexation, technique en évolution permanente, en est-elle aujourd’hui à une phase de transformation ? Le changement de support du document change-t-il la notion d’indexation ? Comment, à l’ère du document numérique, répondre aux besoins en informations dans l’entreprise ? Peut-on vraiment y répondre ?

En réaction à ces questions, stratégiques pour l’entreprise[3], de nouvelles techniques d’analyse de texte, d’extraction et de filtrage d’informations ont été établies[4]. Ensemble, elles visent à mieux exploiter des ressources électroniques multiples et non coordonnées afin d’apporter satisfaction à un public varié.


Afin d’étudier de façon rigoureuse l’objet de notre recherche, il conviendra tout d’abord de définir les termes d’information et de document textuel. Puis nous nous pencherons sur la chaîne du traitement documentaire de l’information, des étapes de classification et d’indexation à l’étape de recherche, en mettant en avant les difficultés et les changements dus à l’introduction du document électronique en entreprise. Enfin, nous présenterons les techniques visant à améliorer l’analyse des documents numériques textuels contenus dans les bases de données documentaires.


[1] La notion de document fait l’objet de la partie 1, nous ne la définirons donc pas dans l’introduction.
[2] Ces notions documentaires seront décrites dans la partie 2.
[3] En cherchant à anticiper les évolutions du marché par une mise en valeur des informations et des connaissances, l’entreprise accroît son adaptabilité au marché. C’est ce qu’on nomme la veille. Voir à ce sujet la partie 2.
[4] Ces techniques seront décrites dans la partie 3.