En préambule de la page d’accueil du blog entre2rives.family, je vous notifie que “les articles correspondent aux résultats de mes recherches”. Ces investigations sont tant familiales que liées aux sources d’information, aux outils, à ta technologie. Jusqu’à présent, je m’étais consacré à rédiger des articles sur mes ancêtres et leurs lieux de vie. En voici un qui lance le bal de la thématique des outils pour la pratique de la généalogie. C’est un domaine passionnant , en constante évolution.
De manière standard, les données relatives aux arbres généalogiques sont échangées via un fichier normalisé GEDCOM [1] . Cela permet notamment, de partager son arbre conçu via un logiciel pour le publier dans des sites de généalogie comme geneanet.org, filae.com, par exemple.
Représentation des données
Le Web sémantique offre une alternative à la norme GEDCOM par la structuration des données sous forme de triplets. Il s’agit de représenter une donnée sous forme :
Sujet – prédicat – objet
- le « sujet » représente la ressource à décrire ;
- le « prédicat » représente un type de propriété applicable à cette ressource
- l’ « objet » représente une donnée ou une autre ressource : c’est la valeur de la propriété.
Voici des exemples de triplets pour la généalogie :
- Jean CAMPET (sujet) est le père de (prédicat) Christiane CAMPET (objet)
- Christiane CAMPET (sujet) est la fille de (prédicat) Jean CAMPET (objet)
- Jean CAMPET (sujet) est né le (prédicat) 28 juillet 1897 (objet)
- Jean CAMPET (sujet) est l’époux de (prédicat) Marguerite DASSÉ (objet)
On dit aussi qu’un triplet est orienté. Il peut être représenté graphiquement et le sens de la flèche indique la direction dans lequel s’applique la propriété. L’ensemble des triplets et des associations entre les éléments forment un graphe. Un même élément peut à la fois être un sujet pour un triplet et un objet pour un autre. Dans notre exemple, c’est le cas pour Jean CAMPET qui est l’objet du triplet “Jean CAMPET (sujet) est l’époux de (prédicat) Marguerite DASSÉ (objet)” et sujet de “Christiane CAMPET (sujet) est la fille de (prédicat) Jean CAMPET (objet)“.
Voici la représentation graphique du graphe de notre exemple.

C’est le cadre de travail (framework) nommé RDF [2] , qui définit les règles associées aux triplets. C’est une norme définie par le consortium W3C en charge de définir les normes sur Internet. Les valeurs (littéraux), sont représentées par un rectangle (28-07-1897) et les ressources dans des ovales (JeanCampet). Ces dernières, sont associées à un espace de nommage (namespace), ici mon blog entre2rives.family représenté par l’alias e2r.
Le Web de données
Les données définies selon le cadre RDF ont pour vocation d’être décloisonnées. Elles n’appartiennent pas à une base de données spécifique, mais sont accessibles par tout un chacun sur le Web. Il est ainsi possible d’aller récupérer des informations d’autres espaces de nommage. C’est un réseau immense d’informations.
Un grand nombre d’organismes sont moteurs dans le domaine. C’est le cas de la Bibliothèque Nationale de France (BNF), de l’Insee, de l’IGN, de FranceArchives, DBPedia (wikipedia), Persée…
Les ontologies
En plus de l’objectif de proposer les normes et outils pour interconnecter une masse d’informations issue d’Internet, le Web sémantique a aussi pour objectif de donner du sens à l’information que l’on trouve sur la toile. C’est important notamment pour les moteurs de recherche qui indexent les pages. Un site sur les éponges, s’agit-il de l’animal ou de l’ustensile pour nettoyer la vaisselle ? Le triplet “Éponge est Animal” indique quelle est l’information véhiculée par le site.
Une ontologie permet de décrire des classes (fils, fille, grand-père,…) des règles, des restrictions, des inférences.
La propriété EstPereDe ne peut avoir qu’un objet de type “homme”, c’est une règle de restriction définie. Si nous avons le triplet JeanCampet EstEpouxDe MargueriteDasse, alors, via les mécanismes d’inférence, nous aurons MargueriteDasse EstEpouseDe JeanCampet. Ainsi un grand nombre d’informations peuvent être déduites à partir des triplets de données. C’est d’autant plus vrai avec les arbres généalogiques avec les liens d’ascendance, de descendance, de relations de type oncle/neveu, nièce, cousin/cousine.
Ci-dessous, exemple d’ajout de liens (prédicats) déterminés par inférence à partir des informations du graphe initial.

En conclusion
Le web sémantique offre de grandes possibilités pour la généalogie du fait de pouvoir associer à son arbre, des informations d’autres sources de données. Les mécanismes d’inférence permettent d’associer plus finement les relations entre les données et d’augmenter considérablement les possibilités d’interrogation de l’information et de compréhension des liens entre les membres d’un ou plusieurs arbres.
Malheureusement pour le moment, RDF n’est pas un standard couramment utilisé sur internet en généalogie. Il faut noter, cependant, l’existence de l’ontologie Family History Knowledge Base (FHKB).
Ci-dessous, inférences déduites d’un arbre généalogique à l’aide de l’ontologie FHKB [3] définissant les propriétés des membres de l’arbre avec soi même (You).

Sources et références :
[1] GEDCOM (acronyme de genealogical data communication, « communication de données généalogiques ») – Article wikipedia – https://fr.wikipedia.org/wiki/GEDCOM.
[2] RDF est l’acronyme de Resource Description Framework. Site d’introduction à RDF : https://jplu.developpez.com/tutoriels/web-semantique/introduction-donnees-liees-et-rdf/#LIII
[3] Article en anglais présentant les principes de l’ontologie FHKB : https://blog.tilde.pro/semantic-web-technologies-on-an-example-of-family-trees-7518f3f835a9
Laisser un commentaire