Chapitre 3 : D’un traitement de l’information a priori à un traitement a posteriori

Cette création est mise à disposition sous un contrat Creative Commons.

3.1 La description du document numérique : métadonnées, langages de description et ontologies 48
3.1.1 Les métadonnées.......................................................................................................................................... 49
§ La normalisation des ressources numériques................................................................................................ 50
3.1.2 Les langages de description du document............................................................................................... 51
§ Les langages à balise : XML, RDF, DAML.................................................................................................... 51
§ Les ontologies.................................................................................................................................................... 52
3.2 Le text-mining : une nouvelle façon de traiter le document....................................... 53
3.2.1 Catégorisation et extraction de l’information............................................................................................ 53
§ Le data-mining : l’exploration de données.................................................................................................... 53
§ Le découpage de l’information......................................................................................................................... 54
§ Les résumés dynamiques.................................................................................................................................. 54
3.2.2 L’introduction de la sémantique : le filtrage de l’information................................................................. 56
§ L’exploration contextuelle................................................................................................................................. 57
§ Les liens contextuels.......................................................................................................................................... 58
3.2.3 Les moteurs « intelligents »........................................................................................................................ 59
§ Les agents intelligents....................................................................................................................................... 59
3.3 Un accès à l’information personnalisé......................................................................... 60
3.3.1 Confidentialité de l’information.................................................................................................................. 60
3.3.2 Détermination d’un profil de l'utilisateur................................................................................................... 61
3.3.3 L’information personnalisée........................................................................................................................ 62
§ Les portails d’information................................................................................................................................. 62
§ La technologie push........................................................................................................................................... 63
§ Intelligence économique................................................................................................................................... 64

1 D’un traitement de l’information a priori à un traitement a posteriori

À la différence des documents textuels au format papier, qui sont seulement référencés dans les bases de données, les documents textuels électroniques y sont intégrés. Le traitement en est modifié : il ne porte plus sur les « mots clés », mais sur le « plein texte ».
Dans un premier temps, l’informatique n’était utilisée par les documentalistes que comme un outil performant de classement des items des langages documentaires sous forme de bases de données bibliographiques. Le traitement de la langue naturelle puis la production et la gestion directe de documents électroniques, enfin la modélisation du raisonnement ont changé la donne.
L’inscription sur un support est remplacée par l’attachement à une structure.

« Le document traditionnel repose sur un support, un texte et une légitimité. Une première phase de numérisation a fait ressortir ses structures internes, l’importance des métadonnées pour son traitement. (…) [Une deuxième phase] insiste sur le format XML, qui intègre la structure mais la détache de la mise en forme par les feuilles de style, voudrait s’appuyer sur des ˝ontologies˝ pour retrouver et reconstruire les textes, et met en avant l’accès personnalisé. »[1]

1.1 La description du document numérique : métadonnées, langages de description et ontologies

« Plus un document numérique est riche, plus il a besoin de structuration pour faciliter le repérage de l’information. Or, contrairement à l’écrit traditionnel ou aux enregistrements analogiques dont l’articulation est visible et peut être relevée et détaillée après coup, posément, lors d’une lecture ou d’un visionnage du document, le document numérique, lui, exige d’être structuré dès sa création, faute de quoi l’information ne peut même pas être enregistrée. C’est pourquoi les logiciels associent de plus en plus l’auteur du document à la formulation de ces éléments de structuration qui constituent dès lors également des éléments de description. »[2]

1.1.1 Les métadonnées
Le terme de métadonnées (des données sur des données) est utilisé pour définir « l’ensemble des informations techniques et descriptives ajoutées aux documents pour mieux les qualifier. »[3] Ce terme est surtout utilisé pour désigner l’information lisible par la machine concernant des fichiers de données.
Les métadonnées sont des outils importants pour le développement de la description de documents électroniques. Leurs usages portent sur la description du document lui-même (usage spécifique) ou sur l’affichage et l’indexation des documents par les moteurs de recherche (usage générique), tout en permettant une normalisation de la description des ressources électroniques dans un contexte « réseaux ».[4]

Les métadonnées, par leur définition même, apportent des informations de nature sémantique sur les documents qu’elles décrivent. En les prenant en compte, les moteurs peuvent améliorer leurs méthodes de recherche et donner des réponses plus pertinentes. Ils peuvent juger qu’un document répond particulièrement bien à une requête si le mot recherché se trouve dans le résumé ou dans la liste des mots-clés figurant dans les métadonnées.
En ce sens, la description des documents numériques par ces éléments n’est pas un objectif final, mais un moyen de faciliter l’usage de ces documents dans une perspective de recherche d’informations.

L'intérêt des métadonnées :
- faciliter la recherche d'information : décrire et classer le contenu et les relations entre les fichiers d'un site, référencer un site,
- faciliter l'interopérabilité : partager et échanger des informations,
- faciliter la gestion et l'archivage : informer sur le cycle de vie des documents, gérer des collections et des archives électroniques,
- gérer et protéger les droits : de propriété intellectuelle, d'accès à des pages Web (restriction de consultation),
- authentifier un texte : encoder une signature électronique pour valider un texte sur Internet.

§ La normalisation des ressources numériques
En outre, les informaticiens ont insisté sur le caractère essentiel de la normalisation afin qu’un document soit lisible sur tout type d’ordinateur et déchiffrable par des applications variées. Les métadonnées s’appuient donc sur les normes du Dublin Core. La norme[5] est un ensemble d’éléments simples mais efficaces pour décrire une grande variété de ressources en réseau. Elle comprend quinze éléments dont la sémantique a été établie par un consensus international de professionnels provenant de diverses disciplines telles que la bibliothéconomie, l’informatique, le balisage de textes, la communauté muséologique et d’autres domaines connexes.

L'enjeu central se résume à cinq défis de base :
- l'accessibilité : permettre la recherche, l'identification, l'accès et la livraison de contenus et composantes de formation en ligne de façon distribuée,
- l'interopérabilité : permettre l'utilisation de contenus et composantes développés par une organisation sur une plate-forme donnée par d'autres organisations sur d'autres plate-formes,
- réutilisabilité : permettre aux contenus et composantes à différentes fins, dans différents produits, dans différents contextes et par différents modes d'accès,
- durabilité : permettre aux contenus et composantes d'affronter les changements technologiques sans la nécessité d'une réingénierie ou d'un développement,
- adaptabilité : permettre la modulation sur mesure des contenus et des composantes.[6]

1.1.2 Les langages de description du document
§ Les langages à balise : XML, RDF, DAML
Les langages à balises renseignent les métadonnées. Avec eux, on retrouve nécessairement le principe des notices bibliographiques (informations sur l’auteur, le titre, la date de publication, etc.) : le document est étendu, on insiste sur sa structure.
XML : la structure formalisée des documents
Le langage XML fournit le vocabulaire et les principes pour la description et l’échange de tout type d’informations numériques. En tant que métalangage, XML permet de définir un modèle de codage propre à chaque application. Mais le risque de voir se multiplier des descriptions hétérogènes est limité par les principes mêmes de XML qui distingue les documents « bien formés » des documents « valides ». La définition d’une DTD (définition de type de document) offre ainsi à l’utilisateur rigoureux la possibilité d’éditer un document « valide » qui respecte le modèle de la DTD et ensuite de diffuser un document « bien formé » dans la communauté.
La norme XML et ses nombreux dérivés intègrent dans un même fichier structure et contenu par un balisage normalisé du texte, permettant de « retrouver et de dépasser très largement la plasticité et la complexité des feuilles reliées dont on avait perdu quelques fonctionnalités en route. »[7]
RDF : insiste sur l’indexation du document
Le langage XML permet de créer une description structurée d’un document. La signification de ce contenu peut être spécifiée par un protocole de description de ressources appelé RDF (Ressource Description Framework). Celui-ci représente les connaissances sous la forme de triplets, lesquels peuvent être rédigés en langage XML.
RDF est un métalangage développé par le W3C (World Wide Web Consortium), servant à encadrer la description de ressources. Il s’agit d’un mécanisme de description à facettes qui se veut neutre et extensible. Ces qualités sont ce qui le distingue par exemple des métadonnées HTML ou Dublin Core. Avec RDF, il est possible de décrire pratiquement tout, peu importe le domaine, la langue ou la culture rattachés à la ou les ressources décrites.
RDF permet de préciser à la machine la nature d’un objet et ses relations avec les autres. En somme, RDF facilite le traitement automatique des documents puisqu’il situe l’information, la met en relation.
L’utilisation à grande échelle de RDF permettra une plus grande efficacité des moteurs de recherche, le traitement des relations entre les ressources de plusieurs sites, l’échange de connaissances par des « agents intelligents », le filtrage de contenu, etc.[8]
DAML : une extension de XML et de RDF
Même si les ressources informationnelles sont « compréhensibles », elles sont difficilement traitables puisque la machine a besoin de « confronter » l’information reçue avec ses bases de « connaissances » afin d’en tirer un sens. Le langage DAML (DARPA Agent Markup Language), qui est une extension du XML et du RDF, semble être la solution. Il permettra de créer des ontologies (en Intelligence Artificielle, « document définissant de façon formelle des termes et des relations entre eux »[9]) et de les rendre « compréhensibles » par la machine.

§ Les ontologies
Les ontologies, sortes de langages documentaires construits pour le Web sémantique, sont les héritières des thésaurus, elles se focalisent sur l’essence d’un domaine, sur son vocabulaire et sur le sens dont il est porteur. Ce sens a deux facettes, celui compris par l’être humain et celui « compris » par la machine. Une des principales richesses des ontologies est donc leur formalisation qui permet leur usage par un programme informatique là où un thésaurus est en échec. Les ontologies améliorent la précision de la recherche d’informations.

L’ontologie est une forme particulière de « modèle des connaissances »[10], elle suit les cinq processus de base de la modélisation comme suit :
identifier les composantes de l’ontologie (les concepts, les relations, les axiomes qui doivent figurer dans le modèle) et construire une ontologie initiale,
prioriser les connaissances de l’ontologie initiale pour lesquelles on construit l’ontologie,
décomposer l’ontologie en niveaux par des sous-modèles, notamment la taxonomie de base, les principaux concepts, les relations et les axiomes,
coréférencer les connaissances s’il y a plusieurs domaines ou types de concepts qui doivent être associés,
valider et documenter l’ontologie.

Les techniques automatiques de recherche d’informations ne sont pas toujours très satisfaisantes et ne répondent qu’imparfaitement aux besoins des utilisateurs dans la mesure où elles sont souvent bruitées. Dans ce contexte, il est intéressant d’offrir des outils de visualisation rapide des textes sélectionnés afin que l’utilisateur puisse évaluer leur pertinence par rapport à sa requête : produire un résumé du texte statique ou dynamique (visualisation des points intéressants par navigation interactive dans le résumé). Ce dernier est construit en interaction avec l’utilisateur.
Le filtrage et la sélection de l’information ne se font plus a priori comme dans les médias traditionnels, mais a posteriori. Les documents les plus pertinents sont progressivement repérés et mis en valeur.

1.2 Le text-mining : une nouvelle façon de traiter le document

Le data-mining (littéralement fouille de données) est « la découverte et l’extraction, à partir de bases de données, de l’information implicite, non triviale, préalablement non connue et potentiellement utile pour l’utilisateur. » Le text-mining (fouille de texte) est un « prolongement du data-mining ; il analyse de grands volumes de données textuelles. » [11]

1.2.1 Catégorisation et extraction de l’information
§ Le data-mining : l’exploration de données
L’exploration de données ou data-mining est l’extraction d’informations à partir de gros corpus de données accumulés pour des buts différents. Il met en évidence des informations statistiques, non accessibles sans un examen global des données. Enfin, il est à la recherche de relations et de modèles génériques qui existent dans des grosses bases de données mais qui sont cachés dans la masse d’information.

§ Le découpage de l’information
La première opération à réaliser pour analyser un texte consiste à le segmenter en ses unités élémentaires : les mots ou les phrases.
Les séparateurs sont en principe les espaces et les signes de ponctuation, mais l’existence de mots composés indissociables (aujourd’hui, après-demain) ne facilite pas la tâche. Pour une opération si simple, les logiciels se trouvent déjà confrontés à des ambiguïtés.

Nous pouvons voir dans les résumés une application de ces techniques de découpage du texte en unité textuelle.
Les résumés statique ou dynamique reposent sur une analyse du contenu des documents afin d’en extraire les thèmes abordés (structuration), dans le but de fournir des résumés structurés en fonction des besoins et objectifs d’un utilisateur et de ses préférences.
L’élaboration de résumés dynamiques repose sur une meilleure prise en compte de l’utilisateur, en se focalisant sur les thèmes ou segments textuels qui contiendront les informations recherchées, et sur le lien qui unit le résumé au texte original.[12]

§ Les résumés dynamiques
Les méthodes de résumé automatique sont classées en deux groupes : les approches par extraction et les approches par compréhension.
Les approches par extraction
Les méthodes par extraction mobilisent des ressources linguistiques légères, ce qui leur permet de traiter, avec une certaine efficacité opérationnelle, des textes longs, de différents domaines et avec des temps de traitement acceptables.
Elles sont fondées sur l’hypothèse qu’il existe, dans tout texte, des unités textuelles saillantes, comme la phrase ou le paragraphe. Elles utilisent un algorithme de sélection fondé sur des connaissances statistiques, linguistiques, ou sur des heuristiques combinant différents types de connaissances, qui consiste à extraire du texte source une liste ordonnée d’unités textuelles.
Elles construisent un résumé à partir de cette liste, en respectant l’ordre dans lequel les unités apparaissent dans le texte source tout en veillant à ne pas dépasser un nombre total d’unités textuelles, appelé « seuil de réduction » (de l’ordre de 20%).

Les méthodes par apprentissage, elles aussi basées sur l’extraction d’unités textuelles, comportent deux phases.
La première phase est la phase d’apprentissage dans laquelle un corpus étiqueté, c’est-à-dire composé de textes et de leur résumé respectif, est utilisé pour entraîner un classifieur, ce qui permet de construire un modèle d’apprentissage.
Ce modèle est ensuite utilisé pour construire les résumés. On peut lui reprocher de ne pas tenir compte de l’apparition de nouveaux termes, rendant aléatoire toute tentative de figer la pondération entre les critères d’apprentissage, ou de l’évolution des normes de production des textes, ce qui entraîne une modification de l’importance de certains critères structurels appris par un système supervisé.

Ces approches, s’appuyant sur l’hypothèse que les phrases qui contiennent les mots les plus fréquents sont représentatives de la thématique du texte, posent le problème de la cohérence et de la cohésion du résumé. Il n’y a pas d’analyse syntaxique du texte. Les approches par compréhension tentent d’y remédier.
Les approches par compréhension : un repérage d’informations factuelles
L’étude de la compréhension automatique s’inspire des méthodes de l’intelligence artificielle, définie par le Dictionnaire des Sciences de l’information et de la communication comme une « discipline de l’informatique dont le but est l’étude et la conception de systèmes dont le comportement se rapproche de ce que nous qualifions d’intelligence chez l’homme. »

La première étape vise à construire une représentation du texte à traiter. Cette représentation est le résultat d’une analyse syntaxique. Le résultat obtenu est une représentation réduite aux parties les plus importantes de la représentation du texte initial.
L’étape suivante consiste à engendrer un texte à partir de la représentation résultante. Ce texte est considéré comme le résumé du texte initial.

Ce type d’approche est très lié à un domaine particulier, ce qui nécessite la construction de représentations, devant refléter les relations importantes et celles qui le sont moins, et une possibilité effective de faire appel à des connaissances relatives aux domaines traités. Construire une représentation sémantique d’un texte est un travail qui exige un développement de modèles conceptuels, de faire appel à des ressources linguistiques et à des outils informatiques qui, même si certains d’entre eux sont disponibles dans les laboratoires de recherche, n’ont pas encore atteint le stade d’une industrialisation.[13]

Le résumé recherche finalement une adéquation entre l’expression d’une requête d’un lecteur et l’identification d’informations dans un texte. L’information doit correspondre aux besoins d’un utilisateur. Cette recherche d’adéquation entre les besoins d’un utilisateur et l’extraction d’informations pertinentes correspond au filtrage sémantique.
La prise en compte, dès la modélisation, des utilisateurs, a conduit progressivement à une conception élargie du résumé synthétique. Il s’agit maintenant de proposer des systèmes informatiques capables de fouiller, avec des points de vue différents, le contenu de textes.

1.2.2 L’introduction de la sémantique : le filtrage de l’information
« La sémantique s’intéresse aux sens des mots, à leur variation, et plus généralement à l’analyse et à la construction de sens à partir du langage. »[14]

Le filtrage sémantique d’informations est une des réponses qui est proposée face aux limites constatées des systèmes de résumé automatique. Les systèmes automatiques de filtrage sémantique visent à répondre aux besoins spécifiques d’un utilisateur pour une tâche d’identification ou de recherche d’informations. Ces systèmes s’appuient sur une modélisation des connaissances linguistiques propres à la tâche d’identification et exigent le développement d’interfaces adaptées à la fouille de textes. Afin d’éviter le développement de systèmes spécifiques à une tâche, il est nécessaire de développer des plates-formes d’ingénierie linguistique suffisamment ouvertes pour accueillir des nouvelles tâches d’identification. Mais il est tout aussi nécessaire que le langage de description des connaissances linguistiques qu’elles proposent soit suffisamment formalisé pour qu’il soit possible de capitaliser ces connaissances pour construire de véritables ressources linguistiques réutilisables.
En d’autres termes, il s’agit de repérer dans les textes des unités textuelles, en général des phrases. Ce repérage nécessite l’acquisition et l’organisation en classes, sur des critères sémantiques, de formes lexicales qui vont constituer des ressources linguistiques. C’est là toute la différence avec le résumé dynamique, qui ne s’appuyait en aucune façon sur le sens du texte.

La première étape de l’analyse du sens d’un texte consiste à trouver le sens de chaque phrase, isolée de son contexte. On parle de sémantique lexicale (le sens des mots séparés, avec les problèmes de polysémie, de sens propre ou figuré… que cela comporte) et de sémantique grammaticale (la compréhension des relations entre les mots est aussi nécessaire que l’identification du sens des mots isolés).
La deuxième étape donne la possibilité de relier les phrases successives les unes aux autres, de façon à construire un sens global, cohérent en soi et par rapport à la situation d’ensemble et aux conditions d’énonciation du discours. On fait référence dans ce cas à la sémantique contextuelle (la phrase particulière analysée s’insère dans un contexte préalable qui évolue ensuite et se construit au fur et à mesure du texte, du fait des phrases précédentes) et à l’implicite (les lecteurs possèdent un nombre de connaissances générales sur l’univers, indispensable pour construire le sens complet des textes à partir des informations que ceux-ci contiennent).

§ L’exploration contextuelle
Le contexte représente l’« environnement global, les conditions générales d’expression d’un discours qui donne un sens aux éléments linguistiques isolés »[15] ; il joue un rôle essentiel pour la connotation du document.

Une technique particulière du filtrage sémantique, la méthode d’exploration contextuelle, vise à se donner les moyens d’accéder au contenu sémantique des textes pour mieux les cibler et en extraire des séquences particulièrement pertinentes. Elle tient compte des informations présentes dans le contexte textuel pour un calcul des valeurs sémantiques relevant de différentes tâches.
Elle propose de déterminer d’abord la carte sémantique correspondant à la tâche de traitement que l’on désire automatiser. Le travail linguistique de construction de cette carte sémantique consiste à identifier l’ensemble des valeurs sémantiques et à organiser ces valeurs sémantiques dans un réseau organisé.[16]
Un important travail théorique est donc à réaliser en amont de tout projet d’automatisation de la tâche. Une voie intermédiaire consiste alors à se limiter à identifier des valeurs sémantiques, sans prétendre que ces valeurs couvrent exhaustivement le domaine et sans chercher à construire un réseau entre les concepts identifiés.

§ Les liens contextuels
Une nouvelle génération de logiciels apparaît aujourd’hui sur le marché, qui vise à mieux exploiter des ressources électroniques multiples et non coordonnées en générant des liens contextuels entre elles. Ces outils permettent de prolonger la consultation d’une banque de données documentaires par l’affichage de documents associés (résumé, analyse critique, sommaire…).
La technique de la génération de liens contextuels autorise trois types principaux d’application : la construction d’un portail documentaire, la collecte systématique sur le Web d’informations apparentées à une référence, le rebond automatisé avec collecte du type de document demandé par l’usager. Intégrés au module de recherche documentaire ou au catalogue en ligne d’un centre de documentation, ces nouveaux logiciels améliorent sensiblement la lisibilité de leur offre de services en ligne.[17]

Le filtrage aboutit donc à la création d’un réseau sémantique : « formalisme de représentation des connaissances tenant compte de leur sens, sous forme de graphes. Les nœuds du graphe représentent des concepts (objets ou événements) et les arcs, des relations entre ces concepts. »[18]

Afin d’améliorer la performance des outils de résumé automatique ou de filtrage sémantique, on peut imaginer un système reposant sur des indicateurs linguistiques indépendants des sujets abordés dans les textes traités, l’intégration de connaissances du domaine demeurant cependant possible. D’autre part, le système de fouille et de filtrage doit pouvoir fournir des extraits de texte en rapport avec la thématique intéressant l’utilisateur et donc tenir compte de la structure thématique du texte original.

1.2.3 Les moteurs « intelligents »
Le fait de rechercher des informations dans les textes amène implicitement à envisager la possibilité de compréhension de leur contenu. Déjà, les traitements dits sémantiques ont l’ambition de prendre en compte leur sens, c’est-à-dire de les comprendre.[19] Il est donc licite de se demander si les ordinateurs pourront un jour « comprendre » le langage des hommes.
La difficulté de la compréhension automatique des textes provient en premier lieu de la pauvreté de la représentation interne d’un ordinateur et des informations disponibles, par rapport à la richesse de l’être humain. Il est par exemple inconcevable qu’une machine puisse elle-même repérer ou abstraire un concept nouveau, encore moins élaborer un nouveau modèle et être capable de l’ « expliquer » clairement à un interlocuteur.[20]
Tout ce qu’il est possible d’obtenir pour l’instant, c’est la mise en évidence d’associations nouvelles de concepts déjà introduits dans le système.

§ Les agents intelligents
Avec les agents de recherche, nous entrons dans une catégorie de logiciels qui vont au-delà de la simple fonction de recherche, et que l’on désigne parfois sous le terme d’ »agents intelligents ». « On parle d’agents intelligents lorsqu’on désigne des systèmes qui opèrent dans un environnement qui évolue de manière constante et à propos duquel ces systèmes possèdent une information partielle ou incorrecte ».[21]
Les agents intelligents sont à la fois capables d’interroger plusieurs moteurs de recherche en parallèle, de réindexer les résultats obtenus en utilisant parfois des traitements sémantiques, dans un but de filtrage, et de charger de nouvelles pages en suivant les liens de pages résultats jugées intéressantes.[22]
Ces logiciels, aux fonctions multiples, sont d’une utilisation assez complexe. Ils ne règlent pas encore tous les problèmes liés à la recherche d’informations.

Le recours à la sémantique semble encore rebuter la plupart des informaticiens. Toutes les promesses de l’intelligence artificielle qui recouraient à des représentations universelles des connaissances n’ont pas été tenues.[23] Bien des questions sur la performance des outils restent encore non résolues, les meilleurs outils ont dû intégrer une part de travail humain, se présentant plus comme des outils d’aide que comme des outils automatiques.
Le problème principal est de construire des modèles permettant de traiter le contenu des documents, afin de les retrouver, et éventuellement les réagencer pour en produire de nouveaux, adaptés à la demande du lecteur.
C’est dans la personnalisation de la recherche d’informations que les besoins de toute une collectivité seront satisfaits.

1.3 Un accès à l’information personnalisé
1.3.1 Confidentialité de l’information
Les choix stratégiques de l’entreprise consistent à créer, exploiter et maintenir un « portefeuille de savoirs »[24] qui assurent à celle-ci certains avantages sur les entreprises concurrentes. Pour que les savoirs fournissent des avantages durables, il faut qu’ils ne se diffusent pas, ou de façon très lente, qu’ils ne soient pas imitables ou accessibles sur le marché. Ainsi, certaines informations ne seront pas divulguées, même en interne.

1.3.2 Détermination d’un profil de l'utilisateur
Prenons pour exemple le service de criticité SEC (unité fonctionnant au sein du CEA), de l’Institut de protection et de sûreté nucléaire (IPSN). Les caractéristiques à prendre en compte pour chaque utilisateur sont résumées dans le tableau suivant :

Utilisateur
Caractéristiques
Expert ingénieur
Bonne connaissance des paramètres et des mécanismes utilisés dans les calculs de criticité
Bonne connaissance des outils mis à sa disposition
Connaissance moyenne des phénomènes physiques liés à la criticité
Connaissance de la terminologie technique et des références les plus utilisées
Expert chercheur
Bonne connaissance des paramètres et des mécanismes utilisés dans les calculs de criticité
Bonne connaissance des phénomènes physiques liés à la criticité
Utilisation détournée des outils
Connaissance des domaines connexes
Apprenant
Connaissance des phénomènes physiques de base liés à la criticité
Faible connaissance des méthodes de neutronique utilisées par les criticiens
Peu ou pas de connaissance sur les outils de calcul de criticité
Peu ou pas de connaissance des activités du SEC
Novice
Aucune connaissance des phénomènes physiques liés à la criticité
Aucune connaissance des méthodes de neutronique utilisées par les criticiens
Aucune connaissance des activités du SEC
Tableau 1 : Caractéristiques des différents types d’utilisateurs en sûreté – criticité [25]

Alors que l’expert connaît la totalité des outils et mécanismes couverts par l’entreprise, le novice n’en a aucune connaissance. Dès lors, voyons quelles informations, en fonction de leurs besoins, leur sont diffusées :

Domaines
Novice
Apprenant
Expert
Études de criticité (Ingénierie)

Navigation dans les diagrammes et les documents du système d’information les plus proches par des liens statiques

Accès limité aux informations de type ingénierie

Accès aux options standard des codes
Accès orienté études à l’ensemble du système d’information

Accès à toutes les applications

Expertises pour les transports (ingénierie)
Accès orienté expertises à l’ensemble du système d’information
Codes de calcul (recherche)
Accès limité aux informations de type recherche

Accès aux options standard des codes
Accès orienté codes à l’ensemble du système d’information
Expériences critiques (recherche)
Accès orienté expériences à l’ensemble du système d’information
Tableau 2 : Fonctionnalités offertes aux différents types d’utilisateurs [26]

En fonction des différents profils d’utilisation, le système d’expression du besoin d’information doit se comporter différemment. Ainsi, l’expert aura accès à toutes les applications, alors que le novice ne bénéficiera que d’un accès limité aux documents.

Avec l’évolution probable des niveaux de confidentialité de l’information, ainsi que du profil des utilisateurs, les critères d’accès aux documents changeront. La numérisation rendra cette tâche particulièrement réalisable.

1.3.3 L’information personnalisée
Développer autant d’applications que l’on compte de profils de clients, d’employés ou de partenaires relève de l’impossible. C’est précisément là qu’interviennent les portails, chargés d’agréger l’information à la volée en fonction du profil de la personne qui l’utilise. Les utilisateurs, dépassés par le nombre d’outils en tout genre qui foisonnent actuellement, n’ont plus le temps d’apprendre à les manipuler, et souhaitent une approche plus simple et unifiée.

§ Les portails d’information
Les portails constituent de nouveaux espaces de travail et d’accès à l’information. Le concept de portail répond à des principes simples : une interface unique, le navigateur, dans lequel on agrège à la volée différentes sources d’information selon des règles préétablies par l’administrateur du système et / ou les utilisateurs eux-mêmes. Tirant parti des organisations en réseau des entreprises, le portail ne crée pas l’information ; il la récupère dans les applications internes de la société, sur Internet ou dans les systèmes d’information des partenaires.
Le portail simplifie considérablement la publication du contenu. Point d’entrée unique, il s’appuie sur un moteur de règles ou sur des agents pour personnaliser l’information et simplifier les procédures d’authentification des utilisateurs. Il suffit en effet de saisir son login (nom d'utilisateur) et son mot de passe une seule fois pour accéder à l’ensemble des données et des applications. Le portail est une véritable passerelle entre l’utilisateur et le système d’information. Initialement dédiés à la diffusion de contenu, les portails sont destinés à fédérer l’ensemble des composantes des systèmes d’information et à proposer un point d’entrée unique, personnalisé et sécurisé, vers de multiples ressources.[27]
Les portails d’information semblent la forme la plus aboutie de l’intranet.

Un aspect négatif des portails réside néanmoins dans la concentration : seuls les logiciels capables d’apporter des solutions dans une majorité de registres survivront. La qualité en pâtira, car aucun produit ne peut être le meilleur en tout. La largeur de leur couverture fonctionnelle risque donc de se faire au détriment de la qualité de certaines de leurs fonctions, en particulier celles d’indexation et de recherche, qui sont parfois considérées comme secondaires dans ce genre de produits.[28]

Autre solution apportée à la personnalisation de l’information : la technologie push.

§ La technologie push
Le push, c’est la diffusion sélective de l’information. Elle s’oppose à la technologie pull, consistant pour sa part à aspirer l’information à partir du poste client.

Ces technologies de diffusion à la demande poussent l’information vers le demandeur et offrent un service de distribution d’informations qui se fonde sur les notions de chaînes d’informations thématiques.
Les exigences des entreprises à l’égard des solutions de push sont les suivantes :
- l’information saisie, filtrée et disséminée doit être gérée,
- le contenu doit être compréhensible et approprié au travail,
- la performance humaine doit être renforcée par la livraison automatique et en temps réel de l’information.

Un danger est de recevoir périodiquement plus de mails que l’internaute ne peut en lire. L’utilisateur doit sélectionner les abonnements de push correspondant à son besoin réel.

§ Intelligence économique
Dans l’entreprise, la qualité des décisions entraîne directement le succès ou l’échec. Même dans une entreprise à but non lucratif, la qualité des décisions influe sur l’efficacité de l’organisation. Mais les gens ne peuvent prendre des décisions qu’à hauteur de l’information dont ils disposent. Les centres de documentation ont donc créé des services de « veille », s’intégrant dans une logique d’intelligence économique.

L’intelligence économique est « l’ensemble des actions coordonnées de recherche, de traitement et de distribution de l’information utile, en vue de son exploitation, aux acteurs économiques. Elle s'intéresse à tous types de signaux, et notamment à ceux touchant aux coopérations, aux alliances, aux contextes culturels et sociaux. » [29] La finalité de l’activité d’intelligence économique est d’informer utilement, c’est-à-dire « contribuer à l’amélioration des prises de décisions et à l’élaboration des stratégies des acteurs économiques, quelque soit leur position », nous dit le Dictionnaire encyclopédique des sciences de l’information et de la communication. Les professionnels se préoccupent de plus en plus de la pertinence de l’information, la valeur de l’information, l’attente en matière d’information et, au-delà, ils s’intéressent aux processus d’interprétation, de conception et de décision des acteurs. Il faut veiller à une utilisation la plus poussée possible de l’information, donc à une forte individualisation du service rendu à l’usager.

La veille désigne la « pratique qui englobe les actions de collecte, d’analyse et de diffusion des informations en vue de rendre plus intelligible l’environnement de l’entreprise. En cherchant à anticiper les évolutions du marché par une mise en valeur des informations et des connaissances, la veille a pour objectif d’accroître l’adaptabilité de l’entreprise à son marché. Selon les entreprises et leur(s) secteur(s) d'activité, les domaines à surveiller varient. »[30]

Faire de la veille, c’est aussi savoir ce qui se passe partout dans l’entreprise. Les informations pertinentes ne sont pas toujours à l’extérieur mais au sein même de l’entreprise. Avec l’arrivée de l’information électronique, les gros systèmes de GED, les entreprises se sont mises à leurs archives. Elles s’aperçoivent alors qu’il y a une accumulation des connaissances.
Citons J.-F. THONIN, chargé de la veille concurrentielle à Chronopost. Il définit la documentation interne et ses origines : « par interne, on fait référence à toutes les personnes qui sont en contact avec le terrain, les clients en particulier. De ces personnes provient une remontée d’informations, notamment concurrentielles. Dans certaines entreprises, on essaie même de placer auprès d’elles un correspondant qui est payé pour avoir un réflexe « remontée d'informations ». Autrement, on mise sur le volontariat et le bénévolat, dans une sorte de marché tacite. Chacun est conscient que l’information sur la concurrence lui est utile dans son travail, surtout les commerciaux…»[31]
Pour Roger MOIROUD, président de SCIP France, « il ne suffit pas d’attendre que l'information se présente, mais il faut aller la chercher. Le rôle de l’intelligence économique est de reconnecter les décideurs et les cueilleurs d’informations. »

Pour assurer leur compétitivité, les entreprises sont obligées d’évaluer leur environnement mondial, ainsi que l’évolution des marchés et des nouvelles technologies. D’où l’importance de la veille, qui les conduit à prendre le plus tôt possible les bonnes décisions d’orientation de leur activité, à s’adapter aux changements et à tenir compte des politiques de leurs concurrents.

Créer une structure permanente de sensibilisation aux attentes des utilisateurs en matière de mise à disposition d’informations est une priorité dans l’entreprise. Il va sans dire que la place des outils informatiques, et leur performance en terme de recherche documentaire, est prépondérante. On peut regretter que la performance des outils de recherche, d’un point de vue documentaire, soit bien inférieure à leur puissance informatique. Lorsque les nouvelles générations de ces outils exploiteront pleinement les formats XML, RDF ou DAML, il sera possible d’exprimer le besoin en informations à partir des structures des documents. Dès lors, les producteurs d’information auront à concevoir des DTD qui faciliteront cette expression du besoin.

[1] SALAÜN, Jean-Michel, Chronique inachevée d’une réflexion collective sur le document [en ligne], Disponible sur
<HTTP://rtp-doc.enssib.fr/fichiers/DefinitionDocument/Bibliotheque_documnt/Com-et-lang-09-01-2004.doc>.
[2] JOLION, Jean-Michel, Dir., « L’indexation », In : Document numérique, vol. 4, n°1-2, 2000, Hermès Science Publications, 2001, COTTE, Dominique, Représentation des connaissances et convergence numérique, p. 167-182, citant CHABIN, M.-A., « Exigences numériques et besoins documentaires », In : Solaris, déc. 1999 - janv. 2000.
[3] Source : CNDP, Les métadonnées : où en est-on ? [en ligne], Disponible sur <HTTP://www.cndp.fr/standards/metadonnees/>
[4] OUERFELLI, Tarek, « La description des documents électroniques diffusés sur le Web : pour une recherche pertinente », In : CIFSIC 2003 [en ligne], Disponible sur <HTTP://archivesic.ccsd.cnrs.fr/documents/archives0/00/00/07/73/sic_00000773_01/sic_00000773.pdf
[5] Nous présentons en annexe un document intitulé « Les 15 éléments du Dublin Core ».
[6] <http://amerique-nord.auf.org/>, cité par : Educnet, Vers le Web sémantique, In : Métadonnées, normes et standards [en ligne], Disponible sur <http://www.educnet.education.fr/dossier/metadata/edu1.htm>.
[7] SALAÜN, Jean-Michel, Document : forme, signe et médium, les re-formulations du numérique [en ligne], Disponible sur <HTTP://archivesic.ccsd.cnrs.fr/sic_00000511.HTML>.
[8] BERTRAND-GASTALDY, Suzanne, Le Web sémantique [en ligne],
Disponible sur <HTTP://mapageweb.umontreal.ca/gastaldy/BLT-6134/Travaux/Travail_final/Beaulieu>.
[9] PAQUETTE, G., Modélisation des connaissances et des compétences, Presse Universitaire du Québec, 2002.
[10] Ibid.
[11] Source : <HTTP://mist.univ-paris1.fr/logiciel/def.htm>
[12] Cette partie se réfère notamment aux travaux de : MINEL, Jean-Luc, Filtrage sémantique, du résumé automatique à la fouille de textes, Lavoisier éditeur, 2002 (Hermès Science Publications).
[13] Ibid.
[14] LEFÈVRE, Philippe, La recherche d’informations, du texte intégral au thésaurus, Hermès Science Europe, 2000.
[15] Source : LAMIZET, Bernard ; SILEM, Ahmed, Dictionnaire encyclopédique des sciences de l’information et de la communication, Ellipses, 1997.
[16] MINEL, Jean-Luc, Filtrage sémantique, du résumé automatique à la fouille de textes, Lavoisier éditeur, 2002 (Hermès Science Publications).
[17] MAISONNEUVE, Marc, LENEPVEU, Philippe, Du catalogue de la bibliothèque aux ressources du Web. Applications documentaires de la génération de liens contextuels, ADBS éditions, 2003 (Sciences et techniques de l’information).
[18] Source : <HTTP://mist.univ-paris1.fr/logiciel/def.htm>.
[19] LEFÈVRE, Philippe, La recherche d’informations, du texte intégral au thésaurus, Hermès Science Europe, 2000.
[20] Ibid.
[21] Source : <HTTP://mist.univ-paris1.fr/logiciel/def.htm>.
[22] LEFÈVRE, Philippe, La recherche d’informations, du texte intégral au thésaurus, Hermès Science Europe, 2000.
[23] Jean-Pierre Desclés, Professeur à l’université de Paris-Sorbonne, dans la préface de : MINEL, Jean-Luc, Filtrage sémantique, du résumé automatique à la fouille de textes, Lavoisier éditeur, 2002 (Hermès Science Publications).
[24] Cf. TARONDEAU, Jean-Claude, Le management des savoirs, Que sais-je ? ; PUF éditions, 2003. Pour l’auteur, les savoirs définissent la « frontière entre ce qu’une entreprise peut produire et ce qu’elle ne peut pas produire. » Les savoirs constituent donc des « actifs stratégiques » pour l’entreprise.
[25] JOLION, Jean-Michel, Dir. ; MÉDINI, Lionel et al. « Intégration de l’indexation conceptuelle dans l’expression du besoin d’information », In : Document numérique – L’indexation, vol. 4, n°1-2, 2000, Hermès Science Publications, 2001, p.85-108.
[26] Ibid.
[27] Les clés du portail du système d'information. LÉVY-ABÉGNOL, Thierry. 01 Informatique, 19 Mai 2000, n°1589, p.18-19.
[28] LEFÈVRE, Philippe, La recherche d’informations, du texte intégral au thésaurus, Hermès Science Europe, 2000.
[29] Source : MARTRE, H., « Intelligence économique et stratégie des entreprises », La Documentation Française, 1994, p. 65, In : MIST [en ligne], Disponible à l’adresse : <HTTP://mist.univ-paris1.fr/logiciel/def.htm>.
[30] Ibid.
[31] Source de cette citation et suivante : ALEXANDRE, Hélène ; NAUDIN, Nathalie, Les métiers de la documentation. APEC - Editions d'organisation, 1998.

Marion Consalvi - Mémoire de DEA - Septembre 2004

Chapitre 3 : D’un traitement de l’information a priori à un traitement a posteriori

Profil

Liens

Contenu