Perspectives : le web sémantique

Creative Commons License
Cette création est mise à disposition sous un contrat Creative Commons.


5 Perspectives : le Web sémantique................................................................................... 68
5.1 Définition du Web sémantique..................................................................................... 68
§ Le Web sémantique se construit autour d'une succession de langages intermédiaires entre la machine et l'Homme 70
5.2 L'indexation du Web.................................................................................................... 71
5.2.1 Le mot clé....................................................................................................................................................... 72
§ Le « mot clé », les métadonnées et le web...................................................................................................... 72
§ Le « mot clé » et la recherche web................................................................................................................... 73
§ Mot clé, page web, XML et les champs interrogeables............................................................................... 73
5.2.2 Le "Google Bombing".................................................................................................................................. 74
5.2.3 RDF................................................................................................................................................................. 74
5.3 Les moteurs de recherche du Web............................................................................. 75
5.3.1 Qu'est-ce qu'un moteur de recherche ?...................................................................................................... 75
§ Les robots............................................................................................................................................................ 75
§ La base de données........................................................................................................................................... 76
§ Les agents........................................................................................................................................................... 76
5.3.2 Les différentes catégories de moteurs de recherche............................................................................... 77
§ Les catalogues matières.................................................................................................................................... 77
§ Les robots automatiques................................................................................................................................... 78
5.3.3 Les stratégies de recherche......................................................................................................................... 78
§ Les obstacles à la recherche d'information..................................................................................................... 78
5.4 Analyses de sites Web................................................................................................. 79



1 Perspectives : le Web sémantique


Pour autant, peut-on établir un corollaire entre le monde de l'entreprise et l'Internet, dans les différentes phases de traitement du document textuel numérique ?
L'hypothèse de départ est la suivante : au contraire des pages institutionnelles, les pages personnelles sont indexées par des non professionnels du référencement (ou de l'indexation). Dès lors, ces derniers, non formés et non qualifiés, ne peuvent pas prétendre répondre aux exigences du Web sémantique. Celui-ci sera réservé aux institutions (appliquant les principes de l'indexation électronique décrits dans les parties 2 et 3), "offrant" au Web leur bases de données. Nous nous dirigeons finalement vers deux webs distincts, l'un contenant des pages institutionnelles (entreprises, gouvernement...), constituant le Web sémantique, une fois les problèmes techniques surmontés et les normes mises en place, l'autre des pages personnelles, faiblement indexées. Le corollaire peut donc s'établir si l'on ne prend en compte que les pages des entreprises.

1.1 Définition du Web sémantique[1]

Tim Berners-Lee, il y a quatre ans, a mis en branle un ambitieux projet pour tenter d'insuffler un peu d'intelligence dans la Toile. Sous les auspices du World Wide Web Consortium, l'organisme à but non lucratif dont il est le directeur depuis 1994, il travaille à la réalisation d'une extension (et non d'un remplacement) du Web actuel, qu'il a baptisée le "Web sémantique" (ou Semantic Web en anglais).
La manière dont fonctionnent aujourd'hui les moteurs de recherche est intimement liée à l'histoire d'Internet. C'est en 1989 que le Web voit officiellement le jour dans les laboratoires du Conseil européen pour la recherche nucléaire (CERN) en Suisse. Tim Berners-Lee cherche alors un système pour faciliter l'accès aux documents scientifiques stockés dans les ordinateurs des multiples universités et instituts de recherche qui collaborent avec le CERN. Avec son collègue Robert Cailliau, il développe les deux normes à la base du Web: l'Hypertext Transfer Protocol (HTTP) et l'Hypertext Markup Language (HTML). Ces outils permettent à l'utilisateur de "naviguer" grâce à un réseau de "noeuds" et de "liens" reliant les documents entre eux pour former une immense "toile" - d'où le nom de "Web". D'un clic de souris, on peut consulter aisément des documents aux quatre coins du globe - d'où le qualificatif de "World Wide".
Pour des raisons pratiques, le langage HTML sert principalement à définir l'affichage des données: ce bout-ci de texte doit être en gras, celui-là est de couleur rouge et en italique, cette image est alignée à droite, etc. Cependant, HTML ne dit rien sur le contenu lui-même des pages. Pour user d'une métaphore, le Web, en fait, ne sait pas ce qu'il contient. C'est ce que Tim Berners-Lee veut changer. Dans le futur Web sémantique, différentes technologies doivent permettre de mieux structurer les documents et d'identifier les données qu'ils contiennent. Cela sera notamment effectué grâce au langage XML - alias eXtensible Markup Language. Émanant du W3C, cette norme permet de créer son propre jeu d'étiquettes afin d'identifier les différentes parties de ses documents (voir l'encadré). Depuis environ un an, XML a le vent en poupe comme norme de prédilection pour l'échange de données entre logiciels, sur le Net comme ailleurs. Il remplace progressivement les anciens formats de données dits "propriétaires", créés à l'origine par les éditeurs de logiciels.
Une autre technologie, baptisée RDF, ou Resource Description Framework, servira à donner du sens à la structure XML des documents ; comme dans le langage humain où le sens n'émane pas seulement de phrases composées d'un sujet, d'un verbe et de compléments, RDF servira à décrire les relations entre les différents éléments XML.
Cependant, différents concepteurs de sites peuvent employer différents termes ou étiquettes pour exprimer le même concept. Et c'est là qu'intervient le rouage le plus ambitieux du Web sémantique. De vastes dictionnaires appelés des "ontologies" seront chargés de répertorier les équivalences entre termes, de manière à ce que l'on sache que le terme X sur tel site exprime le même concept que le terme Y sur tel autre site. En principe, ce mécanisme devrait grandement améliorer la précision des moteurs de recherche car, grâce aux ontologies, ils pourront rechercher les pages qui correspondent à un concept donné plutôt que, comme ils le font actuellement, celles qui contiennent simplement les mots clés particuliers. Une autre norme, OWL pour Ontology Web Language, servira à codifier les futurs dictionnaires ou encyclopédies ontologiques.
Enfin, une recherche sur le Web sémantique ne s'exécutera plus nécessairement à l'aide d'un gigantesque moteur de recherche, mais plutôt par un réseau de dizaines, voire de centaines, de petits agents intelligents spécialisés. DARPA, l'organisme états-unien à l'origine d'Internet, s'intéresse beaucoup à ces agents et finance même le développement de leur futur langage: le DAML, ou DARPA Agent Markup Language.

L'élaboration d'un Web sémantique permettra de faciliter l'ensemble des opérations de traitement de l'information textuelle que ce soit la recherche, l'indexation, la condensation, la traduction, etc. Concentrant ses énergies sur le début du cycle de vie documentaire, le Web sémantique apparaît comme complémentaire aux efforts effectués pour le traitement de l'information textuelle peu ou pas structurée.
Pour résumer :

§ Le Web sémantique se construit autour d'une succession de langages intermédiaires entre la machine et l'Homme
Le terme sémantique implique que la machine ne se contentera plus de présenter visuellement les données du Web, mais, en les reliant, elle pourra conserver les significations qui leur sont attribuables. Ainsi, le dialogue avec les moteurs de recherche devient possible. Cette "compréhension" des ressources du Web par la machine exige que le document conserve toute sa valeur informationnelle explicite et implicite. Des préalables sont nécessaires :
1. L'ordinateur ne comprenant à la base que le langage binaire, il faut d'abord représenter la plus petite unité informationnelle humaine, soit le caractère. Universels, les jeux de caractères tels l'ASCII ou l'Unicode permettent cette première représentation. L'information est lisible ou plutôt visible. C'est le Web d'aujourd'hui.
2. L'être humain attribue à des blocs d'informations (mots ou groupe de mots) des significations particulières (titre, auteur, etc.). Or, il est nécessaire de transmettre cette information à la machine si l'on désire conserver toute l'intelligence du document. Le XML permet de répondre à ce besoin en clarifiant pour la machine la structure du document. L'information devient structurée. C'est le Web de demain.
3. Finalement, il existe des relations entre les diverses ressources informationnelles (pages Web, répertoires, etc.). Or, ces relations contiennent des informations implicites qui méritent d'être conservées et exploitées par la machine. RDF (Ressource Description Framework) permet d'établir pour la machine des liens entre les diverses ressources. L'information est maintenant en contexte.[2]
4. Ultime étape nécessaire à la compréhension de l'information, la confrontation de celle-ci à une base de connaissance, liée à un domaine. Elle correspond à la constitution d'ontologies, créées grâce au langage OWL, et lues par des agents intelligents, grâce au langage DAML. C'est le Web d'après-demain.

Sous l'expression Web sémantique se regroupe donc "un ensemble de programmes de recherche et de travaux variés. Leur objectif commun est de permettre aux machines d'exploiter automatiquement les contenus de sources d'information accessibles par le Web pour réaliser des tâches variées. La réalisation de cet objectif repose sur l'existence de données, accessibles par le Web, structurées ou semi-structurées, représentées dans un formalisme autorisant des traitements automatisés allant au-delà des traitements liés à la présentation des données et mettant en œuvre des mécanismes d'inférence puissants."[3]
Le Web sémantique se décline suivant trois couches : les ressources, les métadonnées et les outils de recherches de données.


La plupart des référenceurs du Web, contrairement aux professionnels de la gestion de l'information (documentalistes et bibliothécaires), ignorent l'analyse documentaire. Contrairement aux outils de conception HTML qui sont quasiment à la portée de tous aujourd'hui, ceux qui serviront à mettre en place le Web sémantique sont surtout conçus pour des spécialistes.

1.2 L'indexation du Web

Sur le Web, nous devrons mettre au point un langage universel afin de décrire les données et les rendre inter opérables. Comme le précise avec beaucoup de justesse Karl Dubost, [4] "l'humain sait très bien faire des relations avec les objets, nous le faisons tous inconsciemment, mais la machine elle, ne possède pas cette intelligence."
1.2.1 Le mot clé
Le Grand dictionnaire terminologique de l'Office de la langue française donne cette définition : "mot ou groupe de mots, éventuellement dans une forme lexicographique normalisée, choisi dans le titre ou le texte d'un document, caractérisant le contenu et permettant la recherche de ce document."
En bibliothéconomie, le mot clé est un terme connu provenant d'une fiche décrivant un document. Le mot clé est réparti dans des zones ou champs «titre», «auteur», «sujet» et «description» ou «note». Le mot clé qui décrit un document se nomme «descripteur» ou vedette-matière.

§ Le « mot clé », les métadonnées et le web
Le terme « mot clé » s'est imposé sur le web par l'intermédiaire des fureteurs comme Netscape. Il est une composante appelée «méta balise» placée dans l'en-tête invisible d'une page HTML. Il a été introduit dans les propriétés de la page comme attribut avec le champ « classification ». Ces deux attributs proviennent du vocabulaire bibliothéconomique, donnant à penser qu'ils ont été choisis pour un usage professionnel. Utilisés par des néophytes de la documentation, ces mots ont été pris dans leur sens général sans aucun repère, donc en vocabulaire libre. C'est ainsi que «mot clé» réfère à une page et n'a de référence qu'à cette page rédigée par un auteur ayant décrit le contenu en ses propres mots. Ceux-ci ne réfèrent pas à un ensemble de pages de plusieurs auteurs ayant le même mot en commun. Ce mot clé n'est pas un mot normalisé. La majorité des auteurs ne sont pas des indexeurs professionnels et n'utilisent pas de thésaurus. Lorsqu'ils en utilisent un, celui-ci est analogue mais primaire, aléatoire et en perpétuelle évolution : le web par le truchement des logiciels de recherche.

§ Le « mot clé » et la recherche web
Plusieurs nomment le « mot clé », le mot utilisé pour la recherche. Or ce mot fait partie du vocabulaire libre et non normalisé. Parce qu'il est libre, il y a rarement adéquation entre le « mot clé » indexé comme attribut ou méta-balise dans les propriétés de la page web et le mot de la recherche. Qui plus est, des moteurs de recherche ne tiennent pas compte de cet attribut. Ainsi, le « mot clé » ne réfère plus à l'attribut, mais aux mots du texte.
Les « mots clés » en tant que mot générant un corpus de pages pertinentes sont donc :
- des noms de personne,
- des noms géographiques,
- des noms d'entreprises,
- des marques de commerce,
- des mots spécialisés ou rares,
- des mots de titre connu d'un document (livre, article, rapport, chansons.. ), d'une expression ou citation connue.[5]
Pour qu’une recherche arrive à terme, il faut qu’il y ait un langage commun entre le chercheur et l’auteur. Ce langage peut être puisé dans des répertoires (comme Yahoo) qui ont développé une classification.

§ Mot clé, page web, XML et les champs interrogeables
Cela dit, une page web contient des champs de recherche comme dans une notice bibliographique. Ces champs ont deux formes : les champs fixes et les champs flottants.
Les champs fixes sont définis comme des champs communs à toutes les pages : l'adresse URL, le nom de domaine, le titre de la page, la description, le texte, le nom du serveur.
Les champs flottants sont définis comme des champs pouvant être ajoutés lors de la rédaction d'une page web : la date de création, l'hyperlien, le nom de l'hyperlien, l'image, le son, l'applet. [6]

Les auteurs n'ont pas compris la nature du web dans laquelle chaque page est considérée par les logiciels de recherche comme un document unique. Ce sont ces pages inappropriées, entre autres, qui augmentent le nombre de réponses non pertinentes dans une requête, ce qui est appelé le «bruit». Afin de contrer ce phénomène, il est impératif qu'une page ait un sujet et au moins un qualificatif ou un déterminatif. Par exemple, donner la requête «automobile» à un index de recherche est inutile, il faut ajouter un qualificatif comme « ancienne », ou un déterminatif comme «d'occasion». Pour un commerce, le déterminatif de lieu peut être déterminant. En termes linguistiques, il faut rédiger un syntagme descriptif.

1.2.2 Le "Google Bombing"
Nombres d'usagers ayant connaissance des grands principes de l'algorithmie de Google (pages pivot et pages d'autorités, pertinence d'une page liée au nombre de liens pointant vers elle), se servent de cette connaissance pour fausser ces résultats. Le "Google Bombing" désigne ainsi le fait de créer une page dans laquelle on va associer le nom d'une personnalité à une expression visant à la discréditer. Il suffit alors de faire référencer cette page par des sites disposant d'un bon PageRank (indice de classement de Google) pour qu'en quelques jours l'entrée de l'expression associée à la personnalité en question soit considérée comme allant de fait par ce moteur de recherche et renvoie sur des pages officielles de la personne.[7]
Au-delà de la logique subversive qui sous-tend ces pratiques à l'échelle individuelle, il faut s'interroger sur la position de leader de Google, le constituant de fait comme une formidable machine à façonner l'opinion internationale.


1.2.3 RDF
Pour le Web sémantique, RDF est primordial, puisqu'il permet de préciser à la machine la nature d'un objet et ses relations avec les autres. RDF facilite le traitement automatique des ressources Web puisqu'il "situe" l'information, la met en relation. L'utilisation à grande échelle de RDF permettra :
- le traitement des relations entre les ressources d'un site Web,
- l'échange de connaissances par des agents intelligents,
- le filtrage de contenu inappropiré et la protection de la vie privée,
- la description d'une série de pages constituant une seule ressource logique,
- la description des droits relations à la propriété intellectuelle,
- un Web multilingue, etc.,
- une plus grande efficacité des moteurs de recherche.[8]

1.3 Les moteurs de recherche du Web[9]
1.3.1 Qu'est-ce qu'un moteur de recherche ?
Un moteur de recherche est composé d'un robot, d'une base de données, d'un agent. On l'utilise pour rechercher de l'information spécifique dans les pages HTML (hypertext mark up language) du Web rassemblées par un robot.

§ Les robots
Ils sont appelés des "wanderers" (du verbe to wander : vagabonder, errer), des "crawlers" (du verbe to crawl : ramper, se traîner) et aussi des "spiders" (de l'anglais araignées). Ce sont des programmes informatiques qui parcourent le Web pour référencer les liens qui existent dans les pages. Un robot se comporte comme un visiteur, pas comme un virus. Il démarre d'une page d'une page de liens et suivra de façon récursive tous les liens qu'il trouvera à partir de cette page initiale.
Ces robots utilisent le protocole HTTP (hypertext transfer protocole) pour repérer les documents chez les serveurs (les nouveaux sites), indexer l'espace pour la recherche par mots - clés, rechercher les liens morts pour la maintenance des sites jour. Leur fonction est d'indexer, de valider le texte en HTML, les liens, les nouveautés, de créer des sites miroirs. Ils font une liste chronologique des URL (Uniform Ressource Locator), repèrent les documents qui ont des liens, les listes, les annuaires de nouveautés, les best of. Ils parcourent Internet constamment de façon automatique, ils suppriment les doublons.
Chaque robot travaille à sa manière, certains travaillent sur des ressources plus nombreuses que d'autres.

C'est la qualité de la démarche du robot lorsqu'il parcourt la toile qui détermine la qualité et la quantité des informations ramenées pour alimenter sa base de données.

§ La base de données
Les données apportées par les robots sont indexées dans des catalogues qui contiennent les listes de notion repérées : adresse, titres, sous-titres, mots des premières lignes des textes, résumés, éventuellement texte intégral. Ces données sont stockées dans la base de données du moteur avec une adresse qui localise les documents. Par des techniques heuristiques d'auto apprentissage, le robot recherche, trouve et indexe les meilleurs sites. La taille de la base de données détermine la couverture de la recherche. Lycos, par exemple, a plusieurs bases de données : plus un moteur de recherche a de liens, plus il obtient de réponses et devient populaire.

§ Les agents
Le véritable potentiel du Web sémantique se révèle vraiment grâce à de petits programmes connus sous le nom d'"agents intelligents". Programmés par l'utilisateur, ils effectuent la recherche et proposent une liste de réponses classées, dans un certain ordre de pertinence. Les moteurs de recherche affichent les adresses des documents qui mentionnent le plus fréquemment le mot clé recherché.
Les agents sur le Web agissent de manière autonome dans le but de réaliser une tâche donnée pour un utilisateur. Parmi ces systèmes, on citera Telescript de General Magic ou Topic de Verity (tous deux en perte de vitesse à cause de problèmes commerciaux), mais aussi des systèmes universitaires tels Softbot, SIMS, ou KSE qui proposent un modèle agent pour la recherche d'informations. Autonomy, très inspiré de l'intelligence artificielle, développé par l'université de Cambridge) est un moteur à raisonnement dynamique, qui suggère des notions voisines afin d'être le plus précis possible.
Ces agents ne coopèrent pas, on peut opter pour la solution "multi-agents".

Les multi-agents ont une capacité à agir, à décider. Leur principe de travail : la coopération et l'interaction, la résolution de conflits. Leur capacité : les croyances et la capacité à raisonner sur autrui, la capacité à apprendre de manière dynamique. La distribution est un des aspects essentiels des systèmes multi-agents.
Parmi les agents coopératifs, on peut citer InfoSleuth, basé sur la technologie Carnot, qui développe une modélisation sémantique permettant de décrire les ressources d'information et de promouvoir l'utilisation des agents. Avec Infosleuth, on utilise des agents sémantiques pour effectuer des recherches coordonnées; ils coopèrent pour transformer les données trouvées en données compréhensibles.
L'utilisation des agents nécessite une base de connaissance, à laquelle sera confrontée l'information reçue, afin d'en tirer un sens. Cette base de connaissance, c'est l'ontologie (ou plutôt les ontologies, puisqu'il y aura nécessairement plusieurs domaines abordés), qui présente, par sa sémantique, une vision d'un domaine.[10]

1.3.2 Les différentes catégories de moteurs de recherche
§ Les catalogues matières
Ce sont des index hiérarchiques dans lesquels on peut faire des recherches. Ils sont faits par des individus qui les sélectionnent et les annotent. Ils sont interrogeables par sujet matière et constituent une table des matières géante, un répertoire par sujet, permettant de combiner la classification hiérarchique à des mots clés : Yahoo, Infoseek sont ainsi faits. CUI W3, répertoire sujet unique est entièrement fait à partir de listes faites à la main et réalise une banque de données à partir de neuf catalogues matières.
On peut citer parmi les plus intéressants : World Wide Web Virtual Library Subject Headings, Clearinghouse for Subject-Oriented Internet Ressources Guides ou des listes spécialisées comme Information Ressources : the Internet and Computer-Mediated Communication : informations présélectionnées en catégories. Mieux organisés, plus faciles à interroger, ces moteurs ont malgré tout des limites telles que la fréquence des mises à jour, une couverture moins large.

§ Les robots automatiques
Ils parcourent le Web de façon autonome et réagissent en fonction des artefacts rencontrés. Ils examinent les URL et en extraient les éléments importants. Ils sont tous différents, c'est pourquoi on conseille toujours d'en essayer plusieurs.

1.3.3 Les stratégies de recherche
Les moteurs de recherche permettent différentes manières pour rechercher l'information. Nous proposons en Annexe un tableau récapitulatif des différentes stratégies de recherche d'information.[11]

§ Les obstacles à la recherche d'information
L'absence de neutralité du moteur de recherche
Quand nous consultons une page de résultat de Google ou de tout autre moteur utilisant un algorithme semblable, nous ne disposons pas simplement du résultat d’un croisement combinatoire binaire entre des pages répondant à la requête et d’autres n’y répondant pas ou moins (matching). Nous disposons d’une vue sur le monde (watching) dont la neutralité est clairement absente. Derrière la liste de ce résultat se donnent à lire des principes de classification du savoir et d'autres encore plus implicites d'organisation des connaissance.
La "marchandisation" du Web
Google, introduit en bourse il y a peu, remet en cause la recherche pertinente de l'information. Ainsi, devant l'ampleur de la toile mondiale et la difficulté de recensement de l'ensemble des informations disponibles, de plus en plus d'acteurs majeurs de la recherche d'information sur le Web fusionnent et se regroupent, ce qui donne lieu à un échange ou à une vente de tout ou partie de leurs bases d'index et de leurs bases de données. Par exemple, la partie "annuaire" de Google est fournie par Open Directory. Les requêtes sur les deux moteurs donneront donc les mêmes résultats, ce qui constitue un danger pour l'usager qui n'en a pas conscience.

De plus, l'arrivée de l'indexation payante s'affirme comme le seul modèle économiquement viable pour les différents outils de recherche. Cette logique et les pratiques qui lui sont associées (achat de mots clés auprès de certains moteurs, garanties de "positionnement" dans la liste des résultats, etc.) constitue un biais évident pour l'objectivation du déroulement d'une procédure de recherche d'information.
L'évolution des langages
Pourra-t-on encore lire les documents dans quelques années ?

1.4 Analyses de sites Web

Le but de l'analyse est de rendre compte qu'il existe deux types de sites, que l'on pourra classer dans deux catégories de Web différents.
Le corpus reste à définir, il s'agira cependant d'analyser deux catégories de sites Web : les pages "personnelles" et les pages "institutionnelles".
L'analyse portera notamment sur :
- l'indexation des sites : l'utilisation des métadonnées et leur référencement (et par voie de conséquence la recherche de ces sites),
- la valeur et l'objectivation de l'information contenue dans ces sites.


Le Web, conçu d’abord comme un outil de communication, est aussi un outil documentaire (fonctions de publication, stockage, classement, recherche). À terme, on peut donc imaginer la généralisation de ce qui se fait en entreprise au Web.
Il faut d'abord constituer les fameux dictionnaires ontologiques pour, idéalement, tous les domaines du savoir humain et dans toutes les langues. Ensuite, il faudra convaincre la communauté du Web de bien vouloir inoculer un peu de XML, de RDF et autres nouveaux langages dans les quelque milliards de pages du Web actuel...
En effet, le champ sémantique du Web est actuellement trop large (alors qu’en entreprise, le champ sémantique est restreint par son activité), pour permettre une recherche fine en langage naturel. Les données sont trop volumineuses, hétérogènes et les profils des utilisateurs variés. Devant l'ampleur de ce chantier, l'une des possibilités envisagées est - logiquement - de déléguer cette corvée à des agents intelligents. Ceux-ci pourraient adapter dynamiquement les pages Web, y insérer des balises sémantiques et aussi y ajouter des liens vers d'autres pages au contenu similaire.
Le Web sémantique s’adressera à un contenu de valeur, issu des entreprises et des grandes organisations. Ce Web, deuxième génération, prendra alors la forme de la tant attendue base de données aux allures de bibliothèque virtuelle.

Pour l'heure, le Web sémantique trace son chemin dans les laboratoires de recherche et au sein de quelques entreprises. Ses applications sont pour l'instant réservées à des domaines spécialisés, bien définis, où il est plus aisé de constituer des ontologies. Chez le constructeur aéronautique Airbus, par exemple, on regarde comment améliorer l'archivage des connaissances des ingénieurs spécialisés en conception d'avions grâce aux possibilités qu'offrirait ce "super-Web". [12]



[1] Cf. l'article : CHARTIER, Philippe, Un Web plus intelligent [en ligne], Disponible sur <http://www.cybersciences.com/cyber/4.0/2004/09/web.asp >.
consulté le 20 septembre 2004)
[2] BERTRAND-GASTALDY, Suzanne, Le Web sémantique [en ligne],
Disponible sur <HTTP://mapageweb.umontreal.ca/gastaldy/BLT-6134/Travaux/Travail_final/Beaulieu>.
[3] <http://www.lalic.paris4.sorbonne.fr/stic/presentation5.html>, cité par : Educnet, Vers le Web sémantique, In : Métadonnées, normes et standards [en ligne], Disponible sur <http://www.educnet.education.fr/dossier/metadata/quoi4.htm>.
[4] Cité par : DUVAL, Marc, Le mot clé [en ligne], Disponible sur <HTTP://www.dsi-info.ca/mot-cle.HTML> (consulté le 25 septembre 2004).
[5] Source : DUVAL, Marc, Le mot clé [en ligne], Disponible sur : <HTTP://www.dsi-info.ca/mot-cle.HTML> (consulté le 25 septembre 2004).
[6] Source : DUVAL, Marc, Le mot clé [en ligne], Disponible sur : <HTTP://www.dsi-info.ca/mot-cle.HTML> (consulté le 25 septembre 2004).
[7] Ainsi, la requête "miserable failure" renvoyait sur le site officiel de Georges W. Bush. In : ERTZSCHEID, Olivier ; GALLEZOT, Gabriel, « Des machines pour chercher au hasard : moteurs de recherche et recherche d'information », In : XIVe congrès SFSIC, Béziers 2004, Questionner l'internationalisation : cultures, acteurs, organisations, machines [en ligne], Disponible sur <HTTP://archivesic.ccsd.cnrs.fr/sic_00000989.HTML>
[8] BERTRAND-GASTALDY, Suzanne, Le Web sémantique [en ligne],
Disponible sur <HTTP://mapageweb.umontreal.ca/gastaldy/BLT-6134/Travaux/Travail_final/Beaulieu>.
[9] Cette partie s'inspire notamment des travaux menés par : URFIST, Moteurs de recherche : un petit récapitulatif [en ligne], Disponible sur <HTTP://www.urfist.cict.fr/moteurbis.HTML> (consulté le 25 septembre 2004).
[10] Voir à ce sujet la partie 3.1.2., sur les langages de description du document.
[11] Source du tableau : URFIST, Moteurs de recherche : un petit récapitulatif [en ligne], Disponible sur <HTTP://www.urfist.cict.fr/moteurbis.HTML> (consulté le 25 septembre 2004).
[12] CHARTIER, Philippe, Un Web plus intelligent [en ligne], Disponible sur <http://www.cybersciences.com/cyber/4.0/2004/09/web.asp> (consulté le 20 septembre 2004).