Archives de catégorie : Web de données

Être humain pleinement

L’importance de l’acquis et de l’environnement dans l’édification de l’être.

 

Un chapitre qui m’a interpellé sur l’être à l’heure des big data. Le titre du chapitre s’intitule « Penser ». Axel Khan y parle des GAFA, de l’intelligence artificielle et de la nécessité de garder le contrôle de nos pensées dans un monde si électronique.

 

 

Penser – pages 132 à 138 (« Être humain pleinement », Axel Khan, 2016)

Les femmes et les hommes de notre temps sont connectés en permanence, aux grands médias et par l’intermédiaire des ordinateurs, téléphones portables et autres tablettes. Ils sont bombardés sans répit d’informations et de sollicitations auxquelles ils sont amenés à réagir. Après nous être justement félicités d’être passés d’un stade de l’impuissance à celui de l’action, n’en sommes-nous pas plutôt aujourd’hui à celui de la réaction ? Certes, celle-ci recèle aussi des potentialités créatives, mais qui ne dispensent pas, cependant, de donner le temps nécessaire au déploiement d’une pensée moins sollicitée, plus intérieure et libre.

Or ce temps n’est le plus souvent pas saisi même lorsque la possibilité en est offerte. Les voyages sont en principe propices à une certaine divagation de l’esprit, auquel on laisse les rênes longues. Pourtant, dès qu’ils sont assis sur les sièges des trains et avions qui les conduisent en mission ou en vacances, les femmes et les hommes de notre temps sortent bien vite, dans les pays dits développés, leurs appareils portables et pianotent sans repos jusqu’à l’arrivée. Je leur trouve des circonstances atténuantes ; les standards de l’entreprise exigent une pareille disponibilité de tous les instants, l’offre exubérante d’information rencontre mécaniquement un marché croissant, et enfin, les « machines à penser » deviennent jour après jour plus intimidants.

Personne ne doute de ce que les outils informatiques jouent dans l’évolution humaine le même rôle qu’en son temps l’écriture, voire l’acquisition du langage. Longtemps, cela est apparu constituer une aide inestimable à la pensée, libérée d’avoir à retenir des masses de données maintenant accessibles d’un clic, d’aller les consulter à travers la ville ou le monde, dans les grandes bibliothèques, les musées, etc. Le penseur, le scientifique, l’écrivain n’ont-ils pas toutes les raisons de se féliciter d’avoir accès à la plupart de ces informations depuis leurs ordinateurs et autres appareils mobiles ?

Cependant, les progrès de cette « société de l’information et de la communication », selon le terme consacré, sont si rapides, la croissance exponentielle de la performance de ses machines est si vertigineuse, que la question a émergé : la pensée humaine y gardera-t-elle une place ?

Cette question est d’abord apparue saugrenue, décalée par rapport à l’évidence que ce qui se créait était fruit de l’intelligence humaine et devait contribuer à le nourrir. Pourtant, il n’est maintenant plus possible de s’en tenir à ces considérations rassurantes, la combinaison de la quantité presque illimitée de données qu’il est possible de stocker, l’utilisation d’algorithmes de plus en plus performants et les développements de l’intelligence artificielle peuvent à raison intimider même les intellectuels les plus confiants en leurs capacités.

Le plus vexant pour l’esprit humain est la puissance du nombre en lui-même, la prise de pouvoir du quantitatif sur le qualitatif. C’est déjà une telle notion qui explique les capacités en principe sans limite du langage informatique.

(…)

Jusqu’il y a peu, la supériorité en tout de la créativité intellectuelle du cerveau humain sur la force brutale de calcul d’un appareil ne faisait de doute pour personne dès qu’il s’agissait d’opérations requérant quelque subtilité.Tel n’est plus le cas, le big data est en passe de l’emporter dans un nombre croissant de domaines sur la plus souple et brillante des réflexions stratégiques.

(…)

Au moins, pensera-t-on, les mystères de l’âme humaine échapperont-ils toujours à la force brutale du nombre. Fatale illusion, hélas la stratégie totalitaire des groupes majeurs qui offrent des services informatiques, Google et Facebook, en témoigne. Par l’intermédiaire des réseaux sociaux, des messageries, des agendas électroniques, de Google Earth capable de détecter les aménagements des propriétés, de la mémoire conservée de l’utilisation du commerce en ligne et de la consultation des sites innombrables à l’aide des moteurs de recherche dont ces groupes détiennent la quasi-exclusivité, de la localisation permanente de tous les détenteurs de portables, de leurs appels téléphoniques et SMS, de l’informatisation des données médicales, ceux qui savent stocker des milliards de milliards de ces données et, grâce à l’emploi d’algorithmes puissants, sont capables de réaliser les recoupements pertinents et de les extraire à volonté acquièrent sur chacun un pouvoir formidable.

Sans recourir à des moyens illégaux, à l’espionnage individuel généralisé envisagé par Orwell dans son 1984, bien plus efficacement en fait que le Big Borther imaginé par l’auteur, les maîtres modernes du big data, des réseaux sociaux et de l’informatique en ligne savent ce que sont les gens, ce que veut individuellement chaque consommateur, ses opinions et préférences sexuelles, ses loisirs et hobbies, habitudes et fantasmes, son état de santé, tout, en somme, au-delà même de  ce qu’il sait sur lui-même. Cette espèce de sport numérique d’un nouveau genre porte un nom : l’analyse prospective. Or, bien entendu, quiconque sait tout d’un autre, peut prévoir ses actions et réactions, les orienter et manipuler a largement pris le pouvoir sur lui. Parallèlement, les perspectives offertes par l’intelligence artificielle font entrevoir un usage de mieux en mieux adapté de ces données massives, les erreurs ou simples hésitations initiales étant peu à peu améliorées grâce à la capacité qu’ont ces dispositifs d’apprendre de leurs expériences passées, d’interagir entre eux pour échanger ces savoirs nouveaux.

(…)

En définitive, privés du temps nécessaire à la réflexion non contrainte par des sollicitations incessantes, intimidés par la puissance phénoménale des outils modernes de l’informatique, nos concitoyens pourraient bien être de plus en plus empêchés et dissuadés de penser.

Et pourtant, comme Dewi et même si je ne partage pas sa quiétude sur ce point, je n’imagine pas une humanité sans espace suffisant préservé pour le vol libre de la pensée, tout d’abord au plan de la construction de soi, et aussi de la vie sociale. En effet, l’échange entre humains recourt pour une part à une pensée originale, ou bien est insignifiant et perd ses vertus édificatrices. Les algorithmes fondés sur les statistiques à l’heure des big data permettront sans aucun doute de prévoir à terme plus de quatre-vingt-quinze pour cent des  comportements individuels déjà évoqués.

(…)

Par ailleurs, le plus original de la créativité doit sans doute beaucoup à ce grain de fantaisie, de folie, au coeur de nous-mêmes et sera probablement bien difficile à modéliser dans la machine. Il nous faut donc continuer à penser, s’en donner le temps et en créer les circonstances les plus favorables. (…)

Le modèle de données RDF

Voici la suite de mes articles sur le Web sémantique où j’aborde ici le modèle RDF.

RDF, le standard du Web sémantique pour la description de ressources :

RDF signifie Ressource Description Framework. On entend par « Ressource » tout ce qui peut être identifié sur le web par un URI : une voiture, une personne..

On entend par « Description » les attributs, les caractéristiques des ressources ainsi que les relations qui existent entre elles.

Enfin, « Framework » désigne le modèle RDF dans son ensemble, une sémantique.

Décrire des ressources sur le Web :

Prenons par exemple les éléments clés du langage d’une tablette de chocolat :

RDF
Source : MOOC Web sémantique

 

  • rdf:about : permet d’identifier la ressource décrite.
  • rdf:type : permet de typer cette ressource et d’exprimer ainsi qu’il s’agit d’une tablette de chocolat de la marque Villars. Même principe que le codebarres en somme.
  • rdf:label : permet d’exprimer pour un consommateur à la recherche de chocolat qu’il s’agit bien de « chocolat noir » dans cet emballage.

Le modèle RDF permet également d’enrichir les descriptions. Pour cette tablette de chocolat, on indiquera ainsi son producteur, son poids, ses ingrédients…

Principe du modèle RDF : un modèle de triplets

Le modèle RDF est un modèle dans lequel on décrit des ressources par des triplets :

(sujet, prédicat, objet)

Prenons un exemple avec la question suivante : Comment modéliser en RDF l’énoncé que doc.html a pour auteur Stéphanie, Yannick, Juliette et Antoine et a pour thème la veille stratégique ?

On décompose ainsi les descriptions en triplets :

sujet.html a pour auteur Stéphanie

sujet.html a pour auteur Yannick

sujet.html a pour auteur Juliette

sujet.html a pour auteur Antoine

sujet.html a pour thème veille stratégique

On obtient alors 4 triplets qui ont tous pour sujet « doc.html ». 3 triplets ont la même propriété « auteur » avec des valeurs différents et le 4ème triplet à pour propriété « thème » et pour valeur « veille stratégique ».

sujet.html a pour auteur,  Stéphanie

sujet.html a pour auteur Yannick

sujet.html a pour auteur Juliette

sujet.html a pour auteur Antoine

sujet.html a pour thème veille stratégique

d’où :

(sujet.html , auteur,  Stéphanie)

(sujet.html , auteur , Yannick)

(sujet.html , auteur , Juliette)

(sujet.html , auteur , Antoine)

(sujet.html , thème , veille stratégique)

Principe du modèle RDF : un modèle de graphes

Un triplet RDF peut également être vu comme un arc entre deux sommets d’un graphe. Deux triplets ayant un même sujet ou objet seront ainsi connectés dans ce graphe.

Exemple ci-joint avec la Tour Eiffel :

RDF
Source : https://jplu.developpez.com/tutoriels/web-semantique/introduction-donnees-liees-et-rdf/#LII-A

On dit que le modèle RDF est un modèle de multi-graphe orienté et étiqueté.

Exemple ici ou « doc » a pour thème « Web sémantique » et il présente ce sujet.

Source : MOOC Web sémantique

 

Syntaxe de sérialisation :

Voici un schéma extrait de la recommandation du W3C qui montre les 7 syntaxes recommandées à ce jour pour RDF.

La syntaxe historique de RDF est XML. Différentes autres syntaxes ont ensuite proposées au fil des années. Premièrement, N-Triples qui permet une sérialisation simple ligne à ligne des triplets RDF, puis Turtle qui étend N-Triples. Enfin, TriG qui est en Turtle et aussi N-Quads qui est en N-Triples.

Voici l’exemple d’une sérialisation en XML : (cliquez sur l’image pour l’agrandir)

XML
Source : MOOC Web sémantique

 

Premièrement, on déclare à la racine les namespaces des URI qui étiquettent les propriétés du graphe RDF à sérialiser :

 

Ensuite, un graphe RDF est représenté par un élément « rdf:description » avec un attribut « about » dont la valeur est le point d’entrée dans le graphe, c’est-à-dire le sujet d’un ou plusieurs triplets RDF :

 

XML
Source : MOOC Web sémantique

 

Alors, la propriété d’un triplet est représentée par un élément fils de l’élément « description » dans lequel est déclaré le sujet. La valeur de la propriété (dans le cas où il s’agit d’une ressource) peut-être ainsi représentée par la valeur « rdf:ressource » sur l’exemple ci-dessous qui désigne Catherine :

 

XML
Source : MOOC Web sémantique

 

Enfin, vous trouverez ci-dessous des ressources pour en savoir plus sur le modèle RDF :

RDF Primer sur le site du W3C

Spécification du modèle et la syntaxe du cadre de description des ressources (Resource Description Framework ou RDF) : http://www.la-grange.net/w3c/REC-rdf-syntax/

Une introduction aux données liées et à RDF (https://jplu.developpez.com/tutoriels/web-semantique/introduction-donnees-liees-et-rdf/#LII-A)

Nombreuses ressources sur le Web Sémantique sur le blog de l’INRA

La HEG de Genève fête les 100 ans de formation en information documentaire

Pour fêter les 100 ans de formation en information documentaire, la HEG-Genève propose une semaine de conférences, tables rondes, ateliers, visites et autres festivités.

 

HEG Genève - Information documentaire

Le programme qui se déroulera toute la semaine du 18 au 22 juin sera le suivant :

 

  • Lundi 18 juin : Journée historique
  • Mardi 19 juin : « Les défis ID à l’heure du Web » (matinée) / « La bibliothèque 3e lieu : un défi à relever par les bibliothèques publiques » (après-midi)
  • Mercredi 20 juin : « La gouvernance des données au croisement de divers secteurs » (matinée) / « L’évolution de la veille : quels rôles et compétences à développer pour les professionnels de demain ? » (après-midi)
  • Jeudi 21 juin : « Data Professionals Day » (matinée) / « « Outils avancés pour l’accès à l’information » (après-midi)

Ci-joint, le programme en intégralité.

Véronique Mesguich interviendra notamment sur le thème « La veille en 2018 : quels rôles et compétences à développer » pour la demi-journée consacrée à la veille le mercredi. A suivre également un escape game sur l’Intelligence Economique…hâte de voir et tester !

La matinée du jeudi sur la data sera intéressante avec des témoignages de professionnels de la data, notamment Martin Grandjean qui a un blog toujours aussi enrichissant.

Vers un Web de données liées

Voici la suite de l’article « vers un Web de données » qui abordait l’histoire du Web, les principes architecturaux du Web et les grands principes du web de données : URL, URI, IRI.

 

De la page à la ressource :

Ce qui n’a pas changé au cours de ces évolutions, c’est le R, c’est à dire la notion de ressource. Cette notion de ressource est large sur le Web et ne se limite pas aux pages, images ou vidéos que l’on peut avoir sur le Web. Ainsi, on nommera « ressource » tout élément que l’on peut identifier à travers un URI : URI à ma voiture, URI à un lieu, URI à un bâtiment. Nous pouvons donc identifier n’importe quoi avec ce système et décrire toutes ces choses qui sont autour de nous et les échanger dans autant de langages que l’on veut.

Source : MOOC Web Sémantique

 

Les URI sont donc utilisées pour nommer des choses très variées.

Exemples :

  • URI pour le grand requin blanc (site BBC)
  • URI pour la protéine MUC18 (base de données UniProt)
  • URI du Musée du Louvre sur le site DBpedia
  • URI du réalisateur Xavier Dolan sur Wikidata

Nous avons donc moyen d’échanger les données mais la question se posera maintenant de les publier et de les lier. Rentre alors en jeu la ratatouille, où plutôt la datatouille !

Je m’explique : Une bonne ratatouille a pour principe de faire cuire un par un les légumes. Cuisinés un à un, on les mélange par la suite pour faire notre ratatouille. Ainsi, un des intérêts est que ce n’est pas uniquement un plat en lui-même mais un plat qui peut être utilisé comme ingrédient pour faire d’autres plats.

Source : MOOC Web sémantique

Si on revient alors à nos moutons, c’est la même chose pour le web de données liées. Il suffira pour cela de remplacer les différents ingrédients par des bases de données et choisir les données que l’on voudra publier et qui seront réutilisées par d’autres : données géographiques IGN, données statistiques INSEE…

 

Source : MOOC Web sémantique

 

Ainsi, par exemple les données qui décrivent le canapé sur lequel je suis assis par exemple pointeront vers les données de la salle dans laquelle se trouve ce canapé. Les données du canapé seront liées aux données de la salle. Vous la voyez la datatouille ?

Si on entre plus précisément dans le vif du sujet en utilisant les protocoles voici ce qu’il en est :

« Imaginons qu’un utilisateur lambda sur le Web rencontre un URI. Il fait une première vérification : est-ce qu’il s’agit d’un URI HTTP, c’est à dire un URI qui peut être interrogé sur le Web ? Si c’est le cas, il va utiliser le protocole HTTP pour faire un GET sur cet URI, une requête en disant « Qu’est-ce que c’est? » La réponse du serveur va varier. Si c’est un utilisateur qui est devant un navigateur, le serveur va lui renvoyer une page Web lui décrivant le sujet de cette URI. Si c’est un logiciel, téléphone mobile, GPS, le serveur va pouvoir lui renvoyer pour la même requête sur le même identifiant non pas une page Web mais des données XML que le logiciel pourra intégrer à sa base et utiliser pour proposer de nouvelles fonctionnalités » (MOOC Web Sémantique).

Comment choisir des URI pour nommer des choses dont on veut parler sur le Web ?

Il n’y a pas de réponse unique. Voir à ce sujet les deux ressources ci-dessous du W3C mais en théorie, on peut transformer tout identifiant en URI en choisissant un nom de domaine et un schéma d’URI.

A lire : 

Linked Data : Evolving the Web into a Global Data Space (1st edition) / Tom Heath et Christian Bizer (2011). Disponible gratuitement en HTML sur les principes des données liées

A voir :

Site du Linking Open Data cloud Diagram qui donne une vue globale du nuage de bases de données liées sur le Web.

Source : MOOC Web sémantique

 

http://lod-cloud.net/

La pile de standardisation : 

Les standards vont nous permettre de publier, d’interroger, tracer les différentes données sur le Web. La pile ci-dessous se lit de bas en haut, des URI jusqu’aux utilisateurs.

Source : MOOC Web sémantique

 

Source : MOOC Web sémantique

 

IDENTIFICATION : Identifiants URI et URI.

REPRESENTATION : représentation des données que nous échangeons sur le Web. Le standard utilisé est RDF, Resource Description Framework.

REQUÊTES : Une fois les données publiées, nous les interrogerons. Ainsi, pour écrire ces requêtes, les échanger et avoir des résultats on utilisera le langage SPARQL qui permet de sélectionner des sous-parties de données publiées sur le Web, qui  nous intéressent selon les critères que l’on veut donner.

RAISONNEMENT : Publication des schémas de ces données : 2 langages sont utilisés : RDFS pour échanger des schémas très légers et OWL pour nous permettre plus de formalisation en logique.

CONFIANCE :  Traçage des données, vérification des sources et si oui ou non on peut leur faire confiance. Le langage PROV suit les données, leur provenance et les traitements qu’elles ont subis.

INTERACTION : Avec l’utilisateur final. Proposition de nouveaux services, interactions aux utilisateurs lorsqu’ils utilisent le Web et naviguent quotidiennement.

Voilà, ce billet s’achève sur les standards utilisés dans le Web. Le MOOC aborde par la suite la deuxième brique de cette pile avec le modèle RDF, la première étant les URI que nous avons vu dans ce billet et introduit dans mon premier billet à ce sujet.

Le web de données

Récemment s’est terminé le MOOC sur le Web sémantique et de données, conduit par l’INRIA. Sept semaines denses et riches en connaissances.

La première semaine était consacrée au « web de données liées ». Comme pour toute introduction sur un sujet donné, il est bien de revenir au passé pour comprendre le présent. Nous avons donc eu un retour sur l’histoire du web :

  • Vannevar Bush (1890-1974) : son article « As we may think »  décrit quelque chose qui ressemble beaucoup au World Wide Web d’aujourd’hui. Il imagine le memex (memory extension) pour lire et consulter des documents et faire des liens d’association entre eux. cf la version en français de son article.
Memex, Life Magazine, 10 septembre 1945

 

  • Ted Nelson : Utilisera le memex et proposera une structure de fichiers qui permettra de découper les fichiers en morceaux, de les relier entre eux afin de pouvoir naviguer entre les morceaux. On parlera d’hypertexte et d’hypermedia.
Complex information processing: a file structure for the complex, the changing and the indeterminate, T. H. Nelson, ACM, 1965

 

  • Tim Berners-Lee : Permettra à ce qu’on n’utilise plus l’hypertexte sur une seule machine. On distribue les documents sur le réseau de façon à ce qu’un document puisse pointer vers un autre document. On parlera de Web.  cf le rapport de Tim Berners-Lee à ce sujet.
Information Management: A Proposal. Tim Berners-Lee, CERN, March 1989, May 1990

 

Ensuite, petit retour sur les 3 principes architecturaux du Web. Le premier principe, celui de l’identification ou de la localisation avec ce que l’on appelle les adresses Web ou URL.

Le second principe, celui du protocole, c’est-à-dire la façon dont les machines vont parler sur le Web, la façon dont le navigateur interrogera le serveur à distance et recevoir une représentation de la page qu’il a demandée. Ce protocole s’appelle HTTP.

Enfin, le dernier principe est le langage de représentation et notamment le langage de représentation des pages du Web. On l’appelle HTML (Hypertext Markup Langage).

Mis ensemble, chacun de ces composants va interagir avec l’autre. Le protocole HTTP utilise l’HTML pour faire transiter sur le Web des représentations de pages entre le serveur et ne navigateur. Les URL sont utilisées dans le HTML dans les représentations des pages pour tisser les liens entre les pages et indiquer que dans une page, un lien pointe vers une autre page. Ces mêmes URL qui sont utilisées par HTTP pour identifier et s’adresser à distance au serveur afin de récupérer la page dont il a besoin.

Focus ensuite sur le processus de standardisation au W3C, nécessaire pour harmoniser les évolutions du Web et qui suit des étapes bien définies.

Enfin, cette première semaine s’est terminée sur les grands principes du web de données :

  • nommer les ressources avec des URI (Uniform Resource Identifier) ;
  • utiliser des URI http (ou URI déréférençables) de façon à ce qu’on puisse utiliser ces URI pour accéder à des informations sur les ressources ;
  • lorsqu’on déréférence une URI, renvoyer des informations utiles grâce à RDF et SPARQL ;
  • se relier avec d’autres URI pour créer un réseau de liens.

En définissant ainsi la notion de ressource Web en passant des URL aux URI, nous avons vu comment l’on pouvait maintenant identifier tout type d’information sur le Web.

Nous avons pu alors poser les principes de la publication de données liées sur le Web et introduire la pile des standards du Web sémantique

En savoir plus :

Quelques ressources fondatrices du web de données :

  • DBpedia, base issue de la conversion en RDF des données de l’encyclopédie collaborative Wikipedia ;
  • Geonames, l’une des principales bases de noms de lieux avec les informations associées ;
  • MusicBrainz, base d’informations en RDF sur les œuvres et les artistes musicaux.