Chapitre 2 : Gestion automatisée de l’information en entreprise : pour des décisions stratégiques

Creative Commons License
Cette création est mise à disposition sous un contrat Creative Commons.


2.1 Évaluer les besoins en informations............................................................................ 23
2.2 L’analyse de l’information : de la classification au stockage de l’information - Les évolutions de la chaîne de traitement documentaire................................................................................................. 26
§ Information et information numérique: deux modes de gestion différents................................................ 26
§ Comment doit-on gérer l'information numérique?......................................................................................... 27
2.2.1 Les langages documentaires : de la représentation par des codes au langage naturel...................... 28
§ Les langages classificatoires............................................................................................................................ 28
§ Les langages d’indexation................................................................................................................................ 29
§ La notice bibliographique................................................................................................................................. 31
2.2.2 Le traitement automatique : les bases de données.................................................................................. 32
2.2.3 L’intranet, outil de capitalisation des connaissances en entreprise..................................................... 33
2.3 La recherche automatique d’informations : un « dialogue » homme – machine........ 35
§ La notion d’accueil existe aussi en informatique documentaire.................................................................. 36
§ Pertinence de l'information................................................................................................................................ 37
2.3.1 Les difficultés de compréhension liées au contenu................................................................................. 38
§ La reconnaissance tardive des particularités du matériau textuel............................................................... 39
§ Quelques paramètres relatifs aux corpus........................................................................................................ 39
2.3.2 Les solutions adoptées................................................................................................................................ 41
§ L’aide à l’analyse des textes............................................................................................................................. 41
§ L’aide à l’interaction avec la base de données.............................................................................................. 44
2.3.3 Le dialogue humain existe toujours



1 Gestion automatisée de l’information en entreprise : pour des décisions stratégiques


La gestion électronique de documents (GED) comporte quatre dimensions essentielles :
- la recherche : capacité à retrouver les documents recherchés,
- la sécurité : contrôle des accès aux documents en lecture / écriture,
- le contrôle des versions : conservation de la trace des originaux et des corrections,
- l’archivage : accessibilité des données archivées.
Si les quatre fonctionnalités sont stratégiques pour l’entreprise, il faudra investir dans un système de gestion documentaire.
La GED regroupe un ensemble de fonctions qui gèrent par ordinateur les sept étapes de la vie d’un document : les étapes d’archivage (l’acquisition, le traitement, le stockage, la recherche) et les étapes d’exploitation (l’organisation, la consultation, la transmission). La justification d’un système de GED doit être par conséquent liée à une volonté de mise à disposition des données et des informations qu’elles contiennent.
L’objectif du système de GED peut être :
- d’acquérir de nouvelles connaissances depuis des sources extérieures,
- d’organiser l’information interne à l’entreprise et d’en faciliter la consultation,
- de mettre en place une base documentaire destinée à assister les utilisateurs.

L’utilisateur est au centre de la réussite du projet de GED, c’est pourquoi il est important de se placer de son côté pour en comprendre ses besoins et adapter l’outil à son environnement de travail. Il faut aussi comprendre comment il peut intégrer l’outil dans le cadre de ses activités professionnelles.

1.1 Évaluer les besoins en informations

L’analyse (interpréter les pratiques, les demandes, les besoins et les attentes des usagers, développer leur culture de l’information en les aidant à faire le meilleur usage des ressources disponibles) et la satisfaction des besoins des usagers sont au cœur de la démarche des professionnels de l’information et de la documentation.
Leur travail consistera tout d’abord à définir leur cible prioritaire : s’ils travaillent pour leur directeur, ils privilégieront l’information immédiate, factuelle (dossier papier, contact par messagerie…) ; s’ils travaillent pour des chargés d’études, ils privilégieront les sources d’information, les actes de colloques, les études (banques de données en ligne, forums électroniques…). Effectivement, chaque individu appréhende les textes avec ses propres connaissances et intérêts. Pour augmenter la rentabilité de ces bases de données, il faudrait à la fois satisfaire une collectivité et permettre des traitements ad hoc pour répondre à des objectifs particuliers.
Les besoins réels des utilisateurs sont parfois difficiles à cerner : d’une part, les utilisateurs manifestent une sorte d’autocensure (ils modulent leurs attentes en fonction de ce qu’ils croient pouvoir demander à un système automatisé) ; d’autre part, ils font preuve d’un manque d’imagination (car ils n’ont pas l’habitude de l’interaction en ligne avec un texte, par exemple).

Cependant, afin d’évaluer les besoins en informations d’utilisateurs divers et dont les besoins sont variés, quelques paramètres entrent en ligne de compte :
- leur connaissance des systèmes automatisés en général, des systèmes de gestion textuelle en particulier : veulent-ils utiliser à leur guise toutes les commandes disponibles ou bien préfèrent-ils s’en remettre à quelques automatismes de repérage, quitte à se priver de certains traitements évolués, mais compliqués ?
- leur connaissance du domaine représenté par la base de données : il faudrait fournir aux non-spécialistes une carte conceptuelle du domaine afin de faciliter leur orientation et la mise au point de leurs stratégies de recherche, alors que les experts n’en auront cure,
- leur connaissance de la base de données elle-même, de son contenu, de sa structuration, des politiques ou algorithmes d’analyse et de classification, etc.,
- leur connaissance du type de textes gérés par le système : peuvent-ils localiser d’emblée les différents éléments de la macrostructure de ces textes, même si elle n’est pas explicitement marquée par la typographie ou la mise en page, ou bien faut-il la reconstituer pour eux, sous forme de table des matières ou de résumé indicatif ?
- les objectifs d’utilisation : les représentations les plus utiles varient en fonction de ce que l’on veut faire : on peut accéder à un corpus pour trouver ce qui est dit d’un thème donné, corriger des textes, en rédiger d’autres du même type, effectuer une analyse stylistique, étudier des tendances, préparer une synthèse, faire des recherches longitudinales, établir des corrélations, naviguer parmi les thèmes, les passages ou les textes qui s’appellent les uns les autres, etc. En principe, les utilisateurs ne devraient plus être limités par la recherche « sujet » qu’imposait l’indexation par mots-clés.
- les exigences du contexte de travail : si la rapidité d’accès aux données prime, une analyse sémantique approfondie est irréaliste, car elle nécessite une intervention humaine. Mais, en l’absence d’un contrôle des expressions synonymiques et d’une structuration hiérarchique des concepts, le taux de rappel risque, dans certains corpus, d’être faible, à moins que les utilisateurs ne soient très familiers avec le vocabulaire,
- le nombre des utilisateurs : plus la clientèle est importante et plus les interactions avec la base de données sont nombreuses, plus il vaut la peine d’investir dans un traitement préalable des textes, afin de minimiser le temps perdu par chacun pour élaborer des stratégies de recherche complexes et pour trier les résultats « bruyants » du repérage.[1]

Tous les paramètres énumérés peuvent se combiner pour donner une palette impressionnante de besoins si la clientèle est hétérogène. À cela, il faudrait encore ajouter d’autres problèmes comme :
- le caractère évolutif des besoins : même si les utilisateurs sont relativement homogènes, au fur et à mesure que se développe une certaine familiarisation avec le domaine, les documents, les outils, etc., leur besoin d'assistance diminue et ils risquent de se sentir limités par les possibilités offertes,
- le caractère individuel et collectif des besoins : il est dangereux de concevoir un système d’analyse et de repérage des données textuelles uniquement à partir d’un portrait-type des utilisateurs, car chaque individu appréhende les textes avec ses propres connaissances et intérêts.[2]

Les attentes des personnels d’une entreprise s’expriment finalement en six points : l’information doit être disponible, l’information doit être fiable, l’information doit être ouverte vers le monde externe, la présentation de l’information doit être unifiée, la performance technique doit être à la hauteur d’un usage professionnel et la sécurité de l’information doit être garantie.[3]


L’omniprésence du numérique dans le documentaire, sa performance et la rapidité de sa diffusion rendent d’autant plus nécessaire une fine et juste analyse de chaque entrée et de leur croisement.
Après une présentation des méthodes d’indexation et de classification usitées dans les centres de documentation, nous exposerons les outils et les moyens nouveaux palliant aux bouleversements intervenus dans la chaîne du traitement documentaire, liés à l’arrivée du document numérique dans l’entreprise.

1.2 L’analyse de l’information : de la classification au stockage de l’information - Les évolutions de la chaîne de traitement documentaire

L’analyse documentaire repose sur « [l’extraction des] informations d’un document en les réduisant à l’essentiel par une reformulation dans les termes d’un langage approprié, qui permet de retrouver le document avec son information primaire aussi rapidement et aussi sûrement que possible. »[4] L’analyse documentaire n’est pas un but en soi : ce n’est qu’une technique préalable à la recherche d’informations, il est donc important de relier les différentes méthodes d’indexation aux modes de recherche visés.
L’analyse documentaire doit faire appel à des langages documentaires, afin de normaliser l’expression des contenus. En effet, l’indexeur et l’usager ne parlent pas le même langage, et le langage documentaire fournit le lien entre leurs vocabulaires, notamment par l’importance des relations hiérarchiques dans le cas d’un thésaurus.

§ Information et information numérique: deux modes de gestion différents
L'information numérique comporte beaucoup d'avantages par rapport à l'information exclusivement sur papier, mais elle amène aussi son lot de problèmes particuliers.
D'abord, elle est "dématérialisée", en ce sens qu'un fichier informatique ne se voit pas directement comme une feuille de papier; il faut nécessairement un ordinateur et un logiciel approprié pour voir (ou entendre) l'information numérique. Ensuite, elle est facile à copier : c'est le problème des droits d'auteurs, qui culmine actuellement dans des querelles du genre de celle que se sont livrées Napster et les géants de la musique enregistrée. Elle est difficile à "signer" : comment, par exemple, être sûr que l'auteur d'une offre d'achat reçue électroniquement sur une disquette est bien la personne mentionnée comme acheteur éventuel dans le document ? Finalement, elle est plus difficile à conserver à long terme que l'information traditionnelle, car la durée de vie des supports de stockage, et même des logiciels pour y accéder, est beaucoup plus limitée que celle du papier.
Étant donné ces problèmes potentiels, toutes les méthodes que l'on a développées jusqu'à maintenant pour gérer systématiquement l'information sur papier doivent être revues et adaptées pour être applicables à l'information numérique.

§ Comment doit-on gérer l'information numérique?
L'information numérique est née de la technologie, et il est donc tout à fait naturel que les outils pour la gérer viennent aussi de la technologie. Ces outils sont habituellement des logiciels, mais parfois aussi des pièces d'équipement matériel, par exemple un scanner. Des outils existent pour :
- créer l'information numérique,
- convertir l'information numérique d'un format à un autre,
- entreposer l'information numérique,
- organiser l'information numérique,
- sécuriser l'information numérique,
- retrouver l'information numérique,
- publier l'information numérique tant sur papier que sur réseaux informatiques : réseaux locaux, intranets, extranets et Internet,
- diffuser l'information numérique par des moyens traditionnels ainsi que par courrier électronique, forums de discussion, moteurs de recherche, etc.,
- conserver à long terme l'information numérique.[5]

C'est en orchestrant judicieusement l'utilisation de ces différents types d'outils que l'on arrive à bien gérer l'information numérique dans une organisation.

1.2.1 Les langages documentaires : de la représentation par des codes au langage naturel
« Un langage documentaire est un système de signes destiné à la classification ou à l’indexation du contenu des documents et des questions des utilisateurs d’un fonds documentaire. »[6] Outils de recherche d’information, les langages documentaires permettent de recenser les documents par la constitution de fichiers, index, catalogues…
Avec le document numérique, ces techniques, en évolution permanente, en sont-elles à une phase de transformation ?

§ Les langages classificatoires
« Opérer une classification dans une collection d’objets, c’est reconnaître des apparentements, mettre en évidence des différences, c’est aussi effectuer une mise en ordre, une structuration des objets donnés. »

La classification, réalisée à partir d’une analyse globale du contenu du document, est utilisée pour ranger un document dans un nombre limité de rubriques. Elle peut également servir à le localiser dans un espace (rayonnage de bibliothèques par exemple). Ces rubriques, exprimées par des codes, donnent lieu à des catalogues, bulletins et index.
Les langages classificatoires sont plutôt utilisés pour les fonds documentaires encyclopédiques, bien que certaines rubriques aient fait l’objet de développements importants pour s’adapter à des fonds documentaires spécialisés.
Les évolutions
Le développement de systèmes d’organisation du savoir est relativement récent. La Classification décimale de Dewey (C.D.D.), publiée en 1876 par Melvil Dewey, établie sur une division hiérarchique de tous les domaines du savoir, représentée par des indices numériques, connaît encore de nos jours un vif succès. Le développement de certaines rubriques permet notamment le classement de fonds de livres spécialisés.
La Classification décimale universelle (C.D.U.), dérivée de la C.D.D., est publiée pour la première fois en 1910. Elle propose une description plus fine des informations et un enrichissement de la syntaxe par l’introduction de signes de mise en relation des indices. Elle est utilisée par les bibliothèques universitaires.

Les nombreuses traductions auxquelles ces deux langages ont donné lieu contribuent à leur usage dans le monde entier. Toutefois, un certain nombre de reproches d’ordre technique (lenteur des mises à jour, complexité d’utilisation, voire manque de logique), leur sont faits.

Parallèlement à ces langages classificatoires, dont la représentation par des codes et l’insuffisance des index ajoutent à la complexité d’appréhension, des travaux ont été menés pour développer des langages créés à partir du vocabulaire du langage naturel. « L’extension de l’information et la variété des supports désormais disponibles réclament une analyse plus fine en même temps qu’une recherche plus facile. Les langages d’indexation sont nés de ces exigences. »

§ Les langages d’indexation
L’indexation, obtenue après une analyse approfondie du contenu d’un document, a pour fonction de répertorier l’ensemble de ses concepts et d’aider à les retrouver quelle qu’en soit leur combinaison. Les concepts sont utilisés pour organiser alphabétiquement des fichiers, bulletins et index matières. Un index est une « liste ordonnée alphabétiquement des éléments ou données contenus dans un document ou un fichier, qui permet de les localiser. »
À l’inverse des langages classificatoires, les langages d’indexation sont destinés à la description du contenu de documents très spécialisés. Parmi les diverses approches qui se sont succédé dans le temps, il est courant de mettre en évidence plusieurs types d’oppositions : indexation humaine / automatique, indexation sur le texte intégral / indexation plein texte, indexation libre / indexation contrôlée (liste des termes fermée), indexation à plat (liste non organisée de descripteurs non pondérés) / indexation différenciée.
Les évolutions
En 1953, Mortimer Taube a mis au point un système de représentation du contenu des documents fondé sur le mot comme plus petite unité d’information. Il s’appelle uniterm. L’usage de ce système est très limité par le risque de fausses combinaisons qu’il engendre à l’interrogation.
Calvin Moers, à la fin des années cinquante, conçoit un lexique dans lequel l’unité d’information n’est plus le mot mais le descripteur, « concept d’un ou plusieurs termes représentant le contenu d’un document. » Les réponses apportées sont plus pertinentes.
Des normes françaises de constitution de vedettes matières publiées par l’AFNOR en 1957 (NF Z 44-070) permettent d’harmoniser les pratiques de constitution de catalogues alphabétiques matières. Utilisées conjointement avec les classifications C.D.D. ou C.D.U., elles en reprennent le modèle mais ont l’avantage d’exprimer les contenus en termes clairs.
Toujours en 1957, la dénomination de thésaurus est utilisée pour la première fois. « Instrument de contrôle de la terminologie utilisé dans un système d’information, dans les centres de documentation, il joue un rôle important dans l’exploitation d’un système de stockage et de recherche d’information, surtout dans un système informatisé où il peut servir de fichier de référence. C’est un répertoire de mots dont l’environnement sémantique est précisé par des relations hiérarchiques, associatives ou d’équivalence. C’est un langage contrôlé. » Jacques Chaumier[7] définit le thésaurus comme un « dictionnaire de mots ou expressions du langage naturel, normalisés et préférentiels, organisés d’une manière conceptuelle présentant les termes groupés par affinité sémantique et complété d’indications de relations. » Les unités lexicales sont reliées les unes aux autres par des relations sémantiques qui font l’objet de diverses représentations graphiques, facilitant la perception de l’environnement des termes tout en leur donnant du sens et en enrichissant les possibilités d’interrogation à divers degrés de hiérarchie. Les relations sémantiques (relations associative et synonymique) et les relations hiérarchiques (termes générique et spécifique) contribuent à lever la polysémie, permettent d’élargir une question trop précise ou encore définissent des profils documentaires d’une grande portée.

Bénéficiaire des expériences qui l’ont précédé, le thésaurus peut être organisé en domaines du savoir, disposer de lexique permuté, être complété par des codes pour faciliter l’utilisation simultanément en plusieurs langues. L’indexation manuelle par thésaurus représente l’aboutissement des techniques documentaires traditionnelles.
Les possibilités de gestion informatisée, d’usage pour l’indexation automatique, l’adaptation aux besoins particuliers des groupes d’usagers, ont contribué à la multiplication des thésaurus alors même que l’indexation libre en langage naturel gagne du terrain.

À travers toutes ces approches de l’indexation se dégagent des constantes. Philippe Lefèvre[8] nous donne la définition suivante : « l’indexation est la représentation formalisée et condensée du contenu thématique ou sémantique d’un document, à l’aide d’indicateurs sémantiques qui peuvent être des indices de classification ou des descripteurs, contrôlés ou non. Ces indicateurs appartiennent au langage naturel et / ou à un langage documentaire. »

§ La notice bibliographique
Dans tous les cas, les documents doivent être identifiés, classés et référencés. Les références de chaque document sont saisies dans une notice documentaire (le catalogage). Celle-ci contient donc des informations structurées dans des champs prédéfinis, leur existence permet de retrouver les documents par une recherche factuelle plus simple que la recherche sur le contenu. Pour un livre, on parle de notice bibliographique : « ensemble de données organisées sous forme de champs et qui décrivent un document (champ auteur / champ titre / champ année et lieu de publication / champ mot-clé ...). »[9]


Après la phase d’indexation / classification du document, le chemin de la gestion de l’information nous emmène logiquement vers son traitement, et plus particulièrement son traitement automatique.
Trois générations de systèmes et logiciels documentaires se sont succédé. La première génération correspond à des corpus de document papier, dont seules les références sont gérées par le logiciel documentaire. La deuxième génération est constituée de bases de documents stockés sous forme de fichier images sur des disques optiques numériques : le système gère à la fois les références et l’accès aux fichiers ; c’est la GED classique. La troisième génération correspond à des bases de documents en texte intégral, accessibles localement ou à distance à travers un réseau, dont les références et le contenu sont totalement gérés par le système : ce sont les logiciels de gestion des connaissances.[10]

Nous sommes aujourd’hui loin du plan de classement qui existait il y a une quinzaine d’années dans les entreprises. Les outils de traitement de l’information ont des qualités supérieures, ce qui rend possible une meilleure indexation et une meilleure signalisation du document. Intéressons-nous à l’un d’entre eux : la base de données.

1.2.2 Le traitement automatique : les bases de données
Dans cette partie nous montrons en quoi une base de données est une technologie intellectuelle.

Rappelons tout d’abord qu’une « technologie intellectuelle » est un « outil qui possède un dispositif de régulation qui permet de déterminer un effet d’ordre et d’organisation. »[11]
En outre, une base de données est un « ensemble de données évolutives, organisé ou structuré pour en faciliter l’utilisation via un programme spécialisé d’accès aux données de la base. »[12] La notion de programme d’exploitation ne préjuge pas de la technologie employée : la base de données peut tout aussi bien être exploitée manuellement (un fichier sur carton par exemple) qu’automatiquement (logiciel de documentation). Cependant, l’intérêt d’un logiciel informatique est de faciliter l’accès à l’information recherchée, de réaliser des tris selon différents critères, de combiner les mos clés pour éviter les silences (des documents pertinents ne sont pas retenus) et les bruits (des documents non pertinents sont retenus). Les informations peuvent être organisées de différentes manières, mais le modèle d’organisation hiérarchique (en arborescence) ou relationnel (tableau de lignes et de colonnes) sont les formes les plus courantes.
Nous en déduisons que les bases de données possèdent un dispositif de régulation (les modèles hiérarchique ou relationnel), qui permet de déterminer un effet d’ordre et d’organisation (les données sont organisées et structurées en arborescence ou en tableau).

La définition même de la technologie intellectuelle renseigne de sa fonction. Si nous reprenons la définition établie par Pierre Lévy, dans Les Technologies de l'intelligence (La Découverte, 1990), nous voyons qu’elle a pour objet direct « le traitement de l’information, l’enregistrement ou la transmission des représentations. »[13] La base de données, quant à elle, organise et structure les données (traitement), stockées dans la base (enregistrement), et facilite l’accès à l’information (transmission).

Une même définition, une même fonction : la base de données est bien une technologie intellectuelle, mettant à disposition de l’entreprise l’information stratégique recherchée.


Les bases de données exécutent le traitement automatique des données, soit l’« ensemble des opérations réalisées par des moyens automatiques, relatif à la collecte, l’enregistrement, l’élaboration, la modification, la conservation, la destruction, l’édition de données et, d’une façon générale, leur exploitation. »[14] En entreprise, leur travail est relayé par un outil de capitalisation et de communication de l’information : l’intranet.

1.2.3 L’intranet, outil de capitalisation des connaissances en entreprise
L’intranet est le vecteur privilégié pour toutes les informations internes de l’entreprise. Il est également un outil de capitalisation des connaissances (endogènes ou exogènes à l’entreprise), de la circulation de l'information, mais aussi un outil de communication.

Le concept d’intranet est apparu en 1996 dans un rapport de Forrester Research sous le nom de « Full service Intranet », en référence à l’utilisation, à l’intérieur d’entreprises privées, de technologies conçues pour la communication informatique entre entités. En d’autres termes, un intranet est un réseau informatique privé basé sur les standards de communication de données de l’Internet public.
Autant dire que c’est un tout nouvel outil dont les entreprises ne maîtrisent pas encore tous les paramètres. L’offre développée sur un intranet varie d'une entreprise à l'autre en nombre de sujets traités ou de services proposés. Si certaines tendances générales se dessinent, l’intranet est d’abord utilisé par les entreprises pour publier des informations à destination de leurs employés. Des services de messagerie, d’agenda, des forums de discussion, des news, des formulaires de commerce électronique et des abonnements personnalisés à des sources d’information ont ainsi été mis en place, favorisant le développement du travail de collaboration au sein de l’entreprise.
Un intranet est strictement limité dans ses possibilités. Il peut connecter un groupe de travail, un service ou une entreprise entière, mais il dessert une communauté d’utilisateurs aux liens bien définis. Le contenu du trafic d’un intranet est limité aux besoins d’information de sa communauté d’utilisateurs.

Favorisant le stockage des données, l’intranet gère des informations à valeur patrimoniale et opérationnelle. L’information patrimoniale permet à l’entreprise de s’inscrire dans la durée, en se constituant ainsi des mémoires (mémoire de son histoire, séries chronologiques retraçant l’évolution des ventes ou du chiffre d’affaires sur une période donnée, par exemple, mémoire liée au savoir-faire, mémoire procédurière). L’information opérationnelle, quant à elle, est liée à l’activité ponctuelle de l’entreprise, en fonction des contrats et des missions qu’elle effectue à un moment donné.
L’intranet délivre des informations relevant de la communication interne. Il peut être étendu avec un logiciel de gestion électronique de documents, visant à gérer (échanger, diffuser, archiver : constitution d’une mémoire) l’ensemble des documents produits par l’entreprise. Il prend alors la fonction d’intranet documentaire.
L’intranet documentaire permet de rassembler sous un accès unique les sources d’information de l’entreprise, afin de garantir l’unicité des documents et leur intégrité. Sa qualité réside dans un référencement efficace des documents et dans l’offre de modes de recherche multiples (recherche guidée, en texte intégral ou multicritères). Il a pour objectif essentiel de répondre aux besoins des utilisateurs, en terme d’information pertinente. L’utilisateur doit appréhender l’outil mis à sa disposition comme une aide dans sa recherche d’information, qu’elle soit formulée ou non. Ainsi, toute la problématique d’un intranet documentaire est de savoir quelle information, ou type d’information, doit figurer et sous quelle forme.

À terme, l’enjeu de l’intranet est d’être au centre de tout système d’information en entreprise. Il ne s’agit plus seulement de diffuser de l’information vers le bas, par le biais de ce réseau, mais de repenser entièrement l’organisation du travail autour de l’activité d’information.[15]
Les intranets, utilisés hier comme moyen de communication interne à l’entreprise (agenda, revue de presse), sont aujourd’hui agrémentés de moteurs de recherche, de bases de données documentaires.

Les rapports entre le service documentaire et ses usagers évoluent constamment. Les recherches demandées doivent s’effectuer plus rapidement. Support d’information, l’intranet documentaire facilite pour ses usagers l’accès en ligne aux services du centre de documentation.

1.3 La recherche automatique d’informations : un « dialogue » homme – machine

Un document n’existe pas si on ne peut pas le retrouver.

Dernier volet de notre chapitre consacré à la gestion documentaire : la recherche d’informations. Nous nous intéressons particulièrement au « dialogue » homme – machine qui existe avec la recherche automatique d’informations.

Du fait de l’ambiguïté et de la redondance du langage, une recherche d’informations donne rarement des résultats corrects et complets en une seule fois. En effet, une recherche complète se présente comme un véritable processus incrémental, mettant en œuvre plusieurs requêtes successives, qui affinent progressivement les réponses données par le système.
Les documents sont présentés à l’utilisateur après un classement par pertinence, établi par le système. L’utilisateur, après une analyse des documents jugés les meilleurs, peut utiliser ces informations pour générer une nouvelle requête mieux adaptée. C’est l’action de relevance feedback, ou rétroaction (dans un système documentaire traditionnel, la rétroaction est réalisable en listant les descripteurs associés aux documents trouvés suite à la première requête), désignant « l’ensemble des procédés qui permettent de prendre en compte l’évaluation des résultats par l’utilisateur, en vue d’émettre une requête mieux adaptée à son besoin. »[16]
Le « dialogue » entre l’utilisateur et la machine est entamé.

§ La notion d’accueil existe aussi en informatique documentaire
L’expansion des bases de données en ligne a modifié l’objectif fondamental de l’interrogation : le repérage de l’information pertinente avec le maximum d’exhaustivité et de précision et le minimum d’effort, ainsi qu’une communication plus naturelle entre les utilisateurs et l’ordinateur est plus que jamais nécessaire.

La communication entre les auteurs des documents et les interrogateurs s’effectue grâce à une série d’intermédiaires, êtres humains ou machines. Les énoncés des auteurs et les questions des utilisateurs sont donc modifiés à plusieurs reprises avant d’être mis en relation, en recourant à plusieurs langages (langage naturel et langages artificiels). La communication est différée : les auteurs des énoncés primaires et secondaires ne sont pas présents lorsque l’utilisateur final en prend connaissance.
Pour que l’interaction soit réussie, il faut la rendre la plus « naturelle » possible ; cela supposerait que la machine soit dotée des mêmes connaissances que celles que possèdent les humains pour comprendre les textes et les questions en langage naturel, pour adapter les analyses et les réponses aux différents utilisateurs.[17]
Les professionnels de la documentation (indexeurs, bibliothécaires de référence, gestionnaires de documents, archivistes, etc.) jouent le rôle d’intermédiaires entre les systèmes et toute sorte d’utilisateurs finals, pouvant être à la fois producteurs et consommateurs de textes. Quel genre d’assistance assurent-ils désormais dans l’interaction avec les bases de données ?

La qualité de l’interaction entre les bases de données et leurs utilisateurs dépend, d’une part, de la nature des deux éléments en présence, d’autre part, du contenu de la base de données. Nous avons spécifié au début de cette partie comment évaluer les besoins particuliers des utilisateurs. Nous listons maintenant les difficultés de compréhension liées au contenu même de la base.

§ Pertinence de l'information[18]
La nécessité d’identifier, d’évaluer la qualité et la pertinence de l’information n'est pas nouvelle, elle est au fondement de la recherche documentaire. Nous rappelons la définition de la recherche documentaire : "action, méthodes et procédures ayant pour objet de retrouver dans des fonds documentaires les références des documents pertinents."[19]
La pertinence est le "degré de corrélation entre une question et la réponse apportée."[20]
En général, la notion de pertinence vise le document et son adéquation à une requête : - généralement définie par le croisement de deux notions transversales de la recherche d'information et de la RDI : le bruit et le silence documentaires (bruit : documents retrouvés non pertinents ; silence : documents pertinents non retrouvés),
- l’élimination ou la réduction de ces deux indices définit la pertinence (relevance) d'un système documentaire.
Mais il s'agit là d'une vision restrictive de la pertinence, centrée uniquement sur les systèmes documentaires classiques (de type bases de données).
Selon Sylvie Dalbin, la pertinence concerne plusieurs aspects de la recherche d'information :
- la pertinence de la représentation du document par rapport à la requête,
- la pertinence de la représentation du document par rapport au thème,
- la pertinence du document lui-même par rapport à la requête,
- la pertinence du document par rapport au thème,
- la pertinence de la requête par rapport au système documentaire,
- la pertinence de l'information trouvée par rapport au besoin initial.
Toutes ces catégories de la pertinence ne sont pas concernées par l'évaluation de l'information et il importe de bien caractériser la pertinence que l'on veut mesurer, évaluer. Schématiquement, trois grandes catégories de pertinences relevées par plusieurs chercheurs :
La pertinence du système
Elle concerne la capacité du système documentaire (logiciel, base de données...) à indexer le document et surtout à le retrouver, en réponse à une requête. Elle vise surtout la pertinence de la représentation du document (son indexation...) et, en conséquence, la pertinence de la recherche d'information elle-même. La pertinence-système ne concerne pas l'évaluation de l'information mais plutôt les outils de recherche.
La pertinence vue sous l'angle de l'utilisateur
Elle concerne la tâche elle-même de recherche, le besoin d'information, la formulation de la requête, etc. On en dénombre plusieurs types :
- la pertinence de la formulation de la requête : comment l'utilisateur traduit sa question en une requête d'interrogation, comment le système facilite ou non la formulation des requêtes, etc. Cela renvoie encore à l'évaluation des outils (des interfaces de recherche...),
- la pertinence de la présentation des résultats : concerne encore exclusivement les outils de recherche. Par exemple, quelle pertinence des représentations cartographiques dans certains outils (Kartoo...). Ce type de pertinence est encore mal mesuré,
- la pertinence du document par rapport au besoin : c'est la plus importante du point de vue de l'utilisateur. Un document pertinent par rapport à sa représentation dans le système (bien indexé), pertinent par rapport à la requête, ou au thème, n'est pas forcément pertinent par rapport au besoin d'information de l'utilisateur. Ce type de pertinence est la plus difficile à mesurer : elle est à apprécier par l'utilisateur lui-même et ne peut faire l'objet d'une évaluation "objective" et critériée.
La pertinence lié au thème
Elle concerne la pertinence de la valeur d'un document ou d’une information, par rapport au thème traité. Il s'agit du type principal de pertinence visé dans les problématiques d'évaluation de l'information sur Internet.

1.3.1 Les difficultés de compréhension liées au contenu
Cette partie s’inspire notamment des travaux menés par Suzanne Bertrand-Gastaldy, dont elle expose une synthèse dans les articles suivants : « Comment les logiciels de bases de données bibliographiques et textuelles peuvent-ils répondre aux différents besoins de leurs utilisateurs ? », « Le traitement de l'information : de la description à l'analyse automatisée, de l'analyse automatisée à... » et « L'évolution de la gestion de l'information documentaire sous l'impulsion des nouvelles technologies ».[21]

§ La reconnaissance tardive des particularités du matériau textuel
Pendant longtemps l’indexation et le repérage par mots clés ou par chaînes de caractères extraites des titres et des résumés ont été privilégiés. Les mêmes méthodes appliquées au texte intégral ont engendré des résultats catastrophiques et l’on a reconnu un peu tardivement les diverses connaissances à mettre en œuvre pour la compréhension et la production d’un texte. Il a fallu admettre l’incapacité des descripteurs isolés à rendre compte du sens des textes, bien qu’ils demeurent utiles pour les classifier rapidement et grossièrement.

§ Quelques paramètres relatifs aux corpus
La quantité de textes à traiter
Plus la quantité de textes à traiter est importante, plus la représentation devrait permettre la discrimination au repérage, mais plus il est difficile de mettre en œuvre des traitements automatiques affinés. On doit bien souvent se contenter de méthodes statistiques, beaucoup plus grossières.
L’étendue des domaines couverts par ces documents
Une représentation des connaissances du domaine nécessaires pour une interprétation automatique des textes n’est possible que pour des univers restreints. On peut considérer qu’en entreprise, l’univers est restreint et la question de l’étendue des domaines ne se pose pas, cependant elle mérite que l’on y prête attention (en cas de l’évolution de l’univers de l’entreprise).
Le taux d’accroissement de la base de données
Un apport fréquent de documents limite le travail à des traitements rapides, et, par conséquent, assez rudimentaires. Le fait que le corpus soit ouvert peut entraîner des changements de thématiques, un apport de connaissances nouvelles et nécessiter des mises à jour du vocabulaire contrôlé ou de la base des connaissances. C’est un problème qui ne se pose pas lorsqu’on veut représenter des corpus fermés, comme les monographies ou certains fonds d'archives.
La stabilité des documents
Alors que dans les bases de données bibliographiques, on est habitué à traiter des documents qui sont écrits une fois pour toutes, dans les organisations, il faut composer avec des textes qui sont modifiés constamment. Il ne sera sans doute pas rentable d’investir dans des traitements très fins, s’il faut les recommencer périodiquement.
L’hétérogénéité des textes
Depuis que la saisie des textes s’est généralisée, le contenu des bases de données s’est diversifié. On ne recense plus seulement les articles scientifiques ou les rapports de recherche, mais à l’intérieur d’une organisation, par exemple, on peut retrouver de la correspondance, des mémos, des contrats, des décisions administratives, des textes réglementaires, des directives, des conventions collectives, des lois, des griefs, des règlements de griefs, etc.
La normalisation du contenu
Si chacun de ces types de textes répond à des normes explicites ou implicites de rédaction, celles-ci sont extrêmement différentes les unes des autres et les stratégies à mettre en œuvre pour les analyser sont multiples. Il reste encore beaucoup de recherches à faire d’abord pour découvrir la « grammaire » des différents types de textes, ensuite pour l’appliquer à l’analyse et au repérage. Bien d’autres éléments que la structure textuelle entrent en ligne de compte. Selon que le vocabulaire est répétitif ou varié, spontanément contrôlé ou au contraire mal fixé, les besoins de contrôle et de structuration a posteriori seront différents. Des énoncés fortement nominalisés seront traités beaucoup plus facilement que des textes où les propositions subordonnées et incidentes sont courantes. [22]

Un langage de spécialité, parce qu’il représente un sous-ensemble de la syntaxe et du vocabulaire de la langue naturelle, se prêtera plus facilement à un traitement automatique. En général il est destiné à un groupe d’usagers qui partagent une même approche du réel et les mêmes habitudes de communication écrite (politiques de gestion, manuels d’entretien, rapports boursiers).


Face à toute cette complexité, il n’est pas étonnant que les logiciels n’offrent pas tous les mêmes solutions pour la représentation du contenu de chaque texte pris individuellement ou de l’ensemble de la base de données. Un compromis doit être trouvé entre qualité des représentations et quantité / hétérogénéité des informations à traiter.

1.3.2 Les solutions adoptées
§ L’aide à l’analyse des textes
L’inadéquation des chaînes de caractères
Les chaînes de caractères sont tout à fait inadaptées pour la représentation du sens, puisqu’elles constituent soit des termes simples, soit des éléments de termes composés et sont ambiguës hors contexte. Les logiciels occultent donc la plupart des phénomènes morphologiques, lexicaux, syntaxiques et sémantiques à l’œuvre dans un texte. Si les chaînes de caractère ont pu constituer un pis-aller pour la recherche dans les textes réduits, comme les titres et les résumés, elles génèrent dans les textes pleins beaucoup de bruit à cause de la polysémie et de l’homographie et beaucoup de silence à cause de la synonymie lexicale et syntaxique. Alors que la plupart des systèmes de repérage fonctionnent encore ainsi, il est à prévoir qu’ils seront de plus en plus réservés aux systèmes d’information situés aux deux extrémités de l’éventail : ou bien les systèmes d’information personnels, avec peu de fichiers (dans ce cas, l’utilisateur connaît bien les textes qu’il a lui-même produits, et il utilise l’ordinateur essentiellement pour repérer rapidement un mot ou un passage à corriger), ou bien les serveurs de grandes bases de données multidisciplinaires contenant des millions de références dans lesquelles on veut sélectionner celles qui risquent de correspondre le mieux à une thématique donnée. Mais le fardeau de l’analyse repose entièrement sur l’utilisateur final.

La représentation des concepts par des termes simples ou composés
Une des nécessités premières de l’analyse consiste à extraire non pas les chaînes de caractères, mais les termes, simples ou composés, susceptibles de représenter les concepts du domaine, dont on peut vouloir expliciter l’organisation dans un thésaurus ou que l’on doit lier en énoncés complexes pour former des propositions. Les méthodes de reconnaissance des termes composés offertes dans les différents logiciels sont multiples. Elles peuvent tenir plus ou moins compte de la nature linguistique du texte et faire intervenir à des degrés divers les traitements automatiques ou humains.
Alors que les logiciels d’interrogation sur les chaînes de caractères laissent à l’interrogateur le soin de reconstituer tant bien que mal des unités complexes à l’aide des opérateurs d’adjacence et de distance, les traitements situés en amont incluent, selon les cas :
- la reconnaissance des segments répétés par des méthodes purement statistiques de cooccurrences,
- le marquage en contexte avec ajout de caractérisations aux chaînes de caractères,
- la catégorisation lexicale des entrées du lexique et recherche de séquences dans le texte,
- une analyse syntaxique partielle,
- une analyse morphosyntaxique complète des phrases.[23]

Certains corpus, parce qu’ils sont fortement stéréotypés, ne requièrent pas la mise en œuvre d’analyseurs susceptibles de traiter toutes les particularités de la langue. Inversement, même un excellent analyseur syntaxique du français serait impuissant à traiter la plupart des tournures de certains langages de spécialité, comme celui des rapports médicaux.
Les évaluations de l’efficacité des différentes méthodes[24] concluent, comme il fallait s’y attendre, à l’insuffisance des analyses syntaxiques, à la nécessité de traitements lexico-sémantiques portant sur le contexte d’énonciation et d’utilisation des textes.
La représentation des relations lexico-sémantiques
Si les logiciels de repérage traditionnels permettent, grâce à la troncature et au masque, de pallier les silences importants dus aux variantes orthographiques, ils exigent de la part des interrogateurs une certaine dextérité et compliquent les stratégies de recherche. Ils sont impuissants à régler les problèmes de synonymie ; en outre, l’absence d’indications sur les relations hiérarchiques peut empêcher un utilisateur peu familier avec le domaine de modifier les taux de rappel et de précision. Les homographes et polysèmes peuvent être détectés facilement par l'affichage du contexte, mais la manipulation d’opérateurs comme le SAUF n’est pas évidente pour tous. Les textes intégraux, parce qu’ils peuvent contenir des tournures beaucoup plus variées que les résumés qui passent par le filtre préalable d’un analyste, rendent plus nécessaires que jamais le contrôle et la structuration a posteriori du vocabulaire, du moins pour certains types d’utilisateurs et de corpus.

Il existe une panoplie de solutions qui nécessitent plus ou moins d’intervention humaine :
- classification automatique des termes (sans indication de la nature des liens),
- construction d’une « pseudo classification » à partir des stratégies de recherche des utilisateurs,
- construction a posteriori d’un thésaurus (à l’aide de l’ordinateur) à partir du dépistage de certains marqueurs de relations dans les corpus. Ainsi, les définitions contenues dans les lois ou les recueils de politiques administratives permettent de représenter fidèlement, sans distorsion, l’acception de termes pour le micro-monde des auteurs et des utilisateurs. Il faut prendre garde cependant au grand nombre de connaissances non explicitées dans les textes, parce que supposées connues des lecteurs. Donc, on ne peut espérer extraire automatiquement d’un corpus tout ce qui serait nécessaire à un novice.[25]
La représentation des relations syntaxico-sémantiques et la prise en compte de la sémantique phrastique
Pour représenter le sens des propositions, l’ordre d’énumération des termes n’est efficace que dans de rares domaines où il n’y a aucune ambiguïté possible, pour un expert, sur le sens de la relation implicite qui les unit. Dans ce cas, les opérateurs de proximité peuvent, lors de l’interrogation, être suffisants, surtout si on recourt en même temps à la troncature pour récupérer à la fois les expressions nominales et verbales. La plupart du temps, cependant, il faut représenter la nature des liens pour éviter le bruit. Des systèmes d’indexation humaine ou assistée par ordinateur introduisent autour de la représentation de l’action des relations syntaxico-sémantiques entre les termes. Le problème est d’arriver à les déduire automatiquement des différentes structures de surface des discours en langue naturelle, et ce malgré les nombreux cas d'ambiguïtés. Comme certaines ambiguïtés ne peuvent être levées qu’au prix d’une connaissance d’un contexte pouvant s’étendre jusqu’au texte tout entier, il est irréaliste d’éliminer toute intervention humaine, que ce soit à l’étape de l'analyse ou à celle du repérage.
La prise en compte de la sémantique textuelle
Les représentations du contenu textuel devraient permettre de discriminer entre le thème central et les thèmes accessoires. Aussi les recherches sur le thème principal et les thèmes secondaires qui ont été entreprises timidement dans la décennie 1970, se poursuivent-elles actuellement. Plusieurs travaux ont été effectués sur les phénomènes de cohésion, notamment les phénomènes de cohérence, comme dans TOPIC (Hahn, 1990)[26] qui permet d’envisager, outre le repérage de passages pertinents basés sur la cohérence interne plutôt que sur l’occurrence de tel ou tel mot, la condensation des textes à des niveaux variés de généralité, selon les besoins.
Les évaluations sur l’efficacité de tels traitements sont rares, car ils sont récents. Comme la plupart des recherches se concentrent sur la résolution d’un problème à la fois, il est difficile d’obtenir une amélioration sensible. Tout dépend aussi de la structure d’information des corpus choisis. Certains textes administratifs, par exemple, sont pauvres en anaphores et un système de résolution n’est pas nécessaire.
L’expertise des indexeurs
De nombreuses connaissances doivent être prises en compte, en dehors des connaissances linguistiques. Très peu de recherches ont été effectuées sur les processus cognitifs de l’analyse par un intermédiaire, si bien que les systèmes experts d’aide à l’indexation sont encore rares. Il faut, entre autres, modéliser les stratégies de résolution de problèmes mises en œuvre par les indexeurs ainsi que les connaissances extra-linguistiques qu’ils utilisent, comme celles du domaine, des contextes de production des textes, des besoins des utilisateurs, etc.

§ L’aide à l’interaction avec la base de données
L’interrogation n’est pas immanente au système ; elle dépend des connaissances et des préférences des utilisateurs. L’interaction peut consister en l’exécution d’une séquence d’opérations mécaniques comme le branchement à un serveur, mais aussi en des tâches plus complexes de consultation du thésaurus, d’ajustement de la question en fonction des jugements de pertinence posés sur les documents repérés, ou encore d’interprétation du problème de l’utilisateur. Elle nécessite un « dialogue » de clarification avec ce dernier pour aboutir au choix de la meilleure base de données ou pour établir la stratégie de recherche la plus appropriée.
Les utilisateurs ont de la difficulté à formuler leurs stratégies de recherche, à sélectionner les termes acceptés par le système, à élargir ou à rétrécir leurs stratégies.

Dans le cas de l’interrogation en langue naturelle, les problèmes d’analyse des questions sont à peu près du même ordre que ceux que l’on rencontre pour les textes, avec des nuances importantes toutefois : l’étendue du vocabulaire risque d’être moindre, de même que la variété des constructions syntaxiques. Les énoncés sont plus courts, moins structurés aussi, puisque, contrairement à ceux des auteurs de documents, ils expriment un manque dans la structure cognitive des interrogateurs. Par contre, l’interface devra être plus tolérante pour les fautes d’orthographe, les erreurs grammaticales et les phrases incomplètes ; idéalement, l’interface devrait être dotée de mécanismes d’inférences et se construire un modèle de l’interlocuteur.
Les documents pertinents repérés peuvent constituer à leur tour une question et servir à trouver d’autres documents par un calcul de similarité. L’intérêt de l’interface consiste dans la prise en compte de la nature linguistique des éléments manipulés et de la quantité des données à traiter. Cela contraste avec les logiciels documentaires les plus répandus.


Dans les systèmes les plus élaborés de recherche d’information, la réponse ne consiste pas en un affichage de passages pertinents, mais en la génération d’un énoncé synthétique adapté au niveau de connaissances et aux motivations de l’utilisateur, respectant les principes des actes de langage. On voit bien qu’alors les bases de données textuelles deviennent de véritables bases de connaissances mais cela ne peut être envisagé que dans des domaines et des corpus très restreints.
Certains systèmes modélisent les connaissances des intermédiaires, spécialistes de l’interrogation. Une tâche relativement complexe, au premier abord, comme l’appariement de la structure cognitive de l’usager et de la structure de la base de données ne recourt pas obligatoirement à des analyses linguistiques et des connaissances poussées pour venir en aide à l’utilisateur. Joanna Pomian (1990)[27] a montré, avec LEXIQUEST, la faisabilité d’un système expert qui modélise les utilisateurs et leur fournit une aide adaptée en exploitant les correspondances de structures d’association du vocabulaire contenu dans les questions des utilisateurs et la base de données, sans ajout de connaissances relatives au domaine, ce qui assure la transportabilité du système.

La nature des solutions offertes est très diversifiée : elle dépend beaucoup du contexte, de la quantité, de la couverture du domaine, de la nature plus ou moins stéréotypée des textes à représenter, de la nature des questions auxquelles il faut répondre, de l’habileté des interrogateurs, etc. Avec ces solutions, il s’agit d’aider les utilisateurs à interagir avec les textes, non de supprimer ces interactions. La richesse des textes étant inépuisable, il serait dommage de créer des systèmes qui en limitent l’exploration.
L’idéal serait de mettre au point de nouveaux modes d’indexation qui utilisent les mots, et atteignent en même temps une dimension sémantique, mais non figée à l’avance : une sorte d’ « indexation sémantique libre » [28]. Comme le dit si bien Philippe Lefèvre, « le problème est ardu, mais certainement pas insoluble ». Cette avancée serait capitale, car l’indexation conditionne la plupart des autres traitements : elle sert de base à la mise en correspondance des textes, à la recherche, au classement, au filtrage.

1.3.3 Le dialogue humain existe toujours
Les commentaires des professionnels vont tous dans le même sens : dans un contexte de surabondance de l’information, le gestionnaire de l’information devra faire un tri afin que les utilisateurs ne soient pas noyés sous le flot. L’évaluation de la pertinence de l’information, la capacité à retenir la bonne information (au meilleur coût), à indiquer des sources fiables, porteuses de valeur ajoutée, deviennent prépondérantes.
D’où l’optimisme de la plupart des intéressés : on aura de plus en plus besoin des documentalistes, qui assurent aussi le rôle de conseil auprès des utilisateurs.
L’information est aujourd’hui au centre de l’économie et toutes les activités qui s’y rapportent sont prises dans un mouvement qui déstabilise leurs responsables en déplaçant les repères.

Les services d’information sont aussi pris dans un second mouvement : le recentrage sur l’usager. La numérisation renvoie les documentalistes aux origines de leur métier, à savoir l’importance de la recherche et de la fourniture d’informations pertinentes pour aider à résoudre des problèmes. En effet, les sources d’information sont inépuisables, il faut savoir les observer en permanence (intelligence économique[29]) et les solliciter de façon simple.
Les documentalistes doivent donc redéfinir leur rôle de médiateur dans l’accès à l’information, redevenir des spécialistes de l’orientation.



Avec la recherche en « plein texte », liée à l’introduction des documents numériques et à l’automatisation des tâches documentaires, les besoins en informations, individuels ou collectif, ne sont pas pleinement satisfaits, aux yeux des professionnels de l’information en tout cas. En effet, quelle que soit leur requête, les utilisateurs obtiennent des réponses intéressantes qu’ils n’auraient pas pu trouver en consultant manuellement les documents. Bien entendu, ils ne se rendent pas compte que la réalité qui leur est présentée est très partielle. Cela pourrait avoir des conséquences graves s’ils s’appuyaient sur ces seuls résultats pour prendre une décision stratégique.
Pour tenter de remédier à cette faiblesse dans la recherche documentaire, les professionnels de l’information et les informaticiens ont mis au point des outils et langages d’analyse et de structuration des documents électroniques. Nous les exposons à présent.



[1] Cf. BERTRAND-GASTALDY, Suzanne, Comment les logiciels de bases de données bibliographiques et textuelles peuvent-ils répondre aux différents besoins de leurs utilisateurs ? [en ligne], Disponible à l’adresse :
<HTTP://www.ling.uqam.ca/sato/publications/bibliographie/Ind_lang.htm>.
[2] Ibid. faisant référence à : BERTRAND-GASTALDY, Suzanne, « L'indexation assistée par ordinateur : un moyen de satisfaire les besoins collectifs et individuels des utilisateurs de bases de données textuelles dans les organisations », In : ICO, intelligence artificielle et sciences cognitives au Québec ; 2(3); septembre 1990: 71-91.
[3] BIGUET, Serge, L'irruption de l'intranet dans l'entreprise et son impact sur la fonction information, 1998.
[4] Source : LAMIZET, Bernard ; SILEM, Ahmed, Dictionnaire encyclopédique des sciences de l’information et de la communication, Ellipses, 1997.
[5] Université de Montréal, École de bibliothéconomie et des sciences de l'information, Guide de l'étudiant - Certificat en gestion de l'information numérique - 2004-2005 [en ligne], Disponible sur <HTTP://www.ebsi.umontreal.ca/guidegin/guide-gin-0405.pdf>
[6] Sauf indication contraire, les citations de cette partie sont issues du Dictionnaire des Sciences de l’information et de la communication, de LAMIZET et SILEM.
[7] CHAUMIER, Jacques, Les techniques documentaires, Paris, PUF, 2000, coll. "Que sais-je ?", n°1419.
[8] In : LEFÈVRE, Philippe, La recherche d’informations, du texte intégral au thésaurus, Hermès Science Europe, 2000.
[9] Source : <HTTP://mist.univ-paris1.fr/logiciel/def.htm>
[10] LEFÈVRE, Philippe, La recherche d’informations, du texte intégral au thésaurus, Hermès Science Europe, 2000.
[11] ROBERT, Pascal, « Qu’est-ce qu’une technologie intellectuelle ? », In : Communication et langages, 123, premier trimestre 2000, Armand Colin éditeur. Nous rappelons que l’auteur définit la technologie intellectuelle comme « un outil régulé de gestion du nombre (de la complexité) opérant une traduction de l’événement en document par la conversion des dimensions. » La notion a été plus amplement décrite dans la partie précédente.
[12] Source : LAMIZET, Bernard ; SILEM, Ahmed, Dictionnaire encyclopédique des sciences de l’information et de la communication, Ellipses, 1997.
[13] Cité dans le même article de Pascal Robert.
[14] Source : <HTTP://mist.univ-paris1.fr/logiciel/def.htm>.
[15] « Quel intranet pour vous simplifier l'entreprise ? », In : Internet Professionnel, Novembre 1999, n° 36, p. 50-63.
[16] LEFÈVRE, Philippe, La recherche d’informations, du texte intégral au thésaurus, Hermès Science Europe, 2000.
[17] Ibid.
[18] Cette partie s'inspire notamment des travaux menés par : URFIST, Le problème de la qualité et de la pertinence de l'information [en ligne], Disponible sur
<HTTP://www.uhb.fr/urfist/Supports/StageEvalInfo/EvalInfo_cadre.htm> (consulté le 25 septembre 2004).
[19] AFNOR,Vocabulaire de la documentation, 1987.
[20] URFIST, Le problème de la qualité et de la pertinence de l'information [en ligne], Disponible sur <HTTP://www.uhb.fr/urfist/Supports/StageEvalInfo/EvalInfo_cadre.htm> (consulté le 25 septembre 2004).
[21] BERTRAND-GASTALDY, Suzanne, Comment les logiciels de bases de données bibliographiques et textuelles peuvent-ils répondre aux différents besoins de leurs utilisateurs ? [en ligne], Disponible à l’adresse : <HTTP://www.ling.uqam.ca/sato/publications/bibliographie/Ind_lang.htm>.
BERTRAND-GASTALDY, Suzanne, Le traitement de l'information : de la description à l'analyse automatisée, de l'analyse automatisée à... [en ligne], Disponible à l’adresse : <HTTP://www.ling.uqam.ca/sato/publications/bibliographie/Asted93.htm>.
BERTRAND-GASTALDY, Suzanne, L'évolution de la gestion de l'information documentaire sous l'impulsion des nouvelles technologies [en ligne], Disponible à l’adresse : <HTTP://www.ling.uqam.ca/sato/publications/bibliographie/Termino.htm>.
Suzanne Bertrand-Gastaldy est Professeur agrégée de l'École de bibliothéconomie et des sciences de l'information de l'Université de Montréal. Son enseignement, ses travaux de recherche et ses publications portent sur l'analyse de l'information, l'indexation et les langages documentaires.
[22] Ibid.
[23] Ibid.
[24] Ibid. faisant référence à : SALTON, G.; BUCKLEY, C ; SMITH, M., « On the application of syntactic methodologies in automatic text analysis », In : Information Processing & Management, 26(1), 1990, p.73-92.
[25] Ibid.
[26] Ibid.
[27] Ibid. se référant à : POMIAN, Joanna, Statistiques et connaissances de structure; application à la reformulation des requêtes documentaires, Thèse de doctorat nouveau régime, Paris : Université Pierre et Marie Curie-Paris VI: 1990. 281 p.
[28] Source de cette citation et la suivante : LEFÈVRE, Philippe, La recherche d’informations, du texte intégral au thésaurus, Hermès Science Europe, 2000.
[29] Nous développons ce point dans la partie 3.