Description du modèle gedcom

De WikiGenWeb
Aller à : navigation, rechercher

Principe

Certains avouent ne pas comprendre le modèle gedcom. Je voudrais essayer de vous apportez un moyen pour mieux cerner le principe. Les Mormons ont choisi une structure arborescente, ce qui ne devrait pas déstabiliser des généalogistes. Ce modèle nous est familier, c'est celui de l'explorateur Windows.


La racine est le fichier gedcom lui même qui contient toutes les données. Puis on trouve des catégories de données qui chacune sont dans un répertoire, par exemple les individus, les familles. Ensuite dans un sous répertoire, de chacun des répertoires précédents, des données plus détaillées. Nouvel exemple: pour un individu sa naissance , son décès. Avec le même principe des détails plus fins concernant sa naissance sont placés dans un sous répertoire du précédent. On imagine bien que le procédé puisse se continuer sans limite de principe et permette l'organisation de TOUTES les données.


L'objet du format est de transmettre aisément cette structure. Un support simple et généralisé est celui des fichiers texte, c'est à dire une suite de caractères. Ce type de fichier est lisible par quasiment toutes les machines sur beaucoup de support. Quelle que soit l'évolution des technologies l'accès aux données est garanti. Au fil du temps les logiciels applicatifs continueront d'évoluer et offriront de meilleures performances de traitement. Ainsi le capital des données du chercheur sera préservé.


Ces données généalogiques sont déjà du texte, il reste à les étiqueter pour traduire la hiérarchie de la structure. Par convention les répertoires sont numérotés de façon croissante depuis le plus global vers le plus détaillé; ces repères seront identifiés dans la suite par le mot : niveau. Il est indispensable de préciser la nature des données, par exemple un nom, une date, un lieu pour indiquer au logiciel le traitement à appliquer aux caractères qui constituent chaque donnée. Ceci est obtenu par l'utilisation d'un signet, choisi court pour ne pas surcharger la taille du fichier. Ce signet est une abréviation du nom anglais de la nature. On le désigne aussi par TAG, et on utilise fréquemment ce mot, strictement équivalent. Par exemple un nom a pour signet NAME, une date DATE, un lieu PLAC. En fait c'est un code alphabétique plus évocateur que des chiffres et son origine anglaise n'est pas une difficulté, même pour les francophones, car les tags sont peu nombreux et par conséquent très fréquents.


Le principe du format gedcom est maintenant complètement défini. Un fichier dit gedcom est une suite de lignes de texte commençant par un chiffre, suivi d'un signet représentatif d'une nature de données et terminée par la donnée elle même.

Mise en oeuvre

-> Convention pour les niveaux

Les catégories les plus globales ont reçu le niveau 0, puis les sous catégories le niveau 1, et ainsi de suite. En pratique pour définir l'application à la généalogie un ensemble de tags est déterminé en précisant la hiérarchie des données. Le modèle est désigné comme la grammaire. Il propose les combinaisons adaptées à chaque situation pour atteindre la répétitivité et concevoir un traitement automatisé.


-> Convention pour les types de données

Les données peuvent être groupées par catégories et plusieurs types sont définis au niveau 0, par exemple celles concernant une personne ou une famille. Chaque ensemble est désigné enregistrement ou structure. Pour chaque type il existera plusieurs enregistrements correspondants aux données spécifiques, par exemple pour chaque personne. Les enregistrements de même type seront distingués par l'attribution d'une référence unique, désignant de façon rigoureuse un enregistrement par rapport à tous ceux présents dans un fichier.

  0 @2846@ INDI 

sera la première ligne d'un enregistrement contenant les données relatives à la personne référencée 2846 qui doit s'enregistrer entre deux @, qui signifie c'est une référence

  0 @22@ FAM 

sera la première ligne d'un enregistrement contenant les données relatives à une famille référencée 22 qui doit s'enregistrer entre deux @, qui signifie c'est une référence


Le fichier contiendra à la suite les uns des autres tous les enregistrements de chaque type identifiables par une référence, désignée parfois 'cross-reference'.


-> Convention pour les liens

La structure arborescente convient pour les données descriptives attachées à un enregistrement mais la généalogie est avant tout une indication de liens, tout d'abord de sang, par exemple la filiation. Dans ce cas le lien est à établir entre une personne et une famille constituée par le couple des parents. La méthode retenue est celle de la citation qui consiste à indiquer la nature du lien et à préciser l'enregistrement lié en le désignant par sa référence.


Si la personne 2846 est issue de la famille 22 on trouvera

  0 @2846@ INDI
  1 FAMC @22@

la seconde ligne se lit 'FAMC= enfant de' et la référence 22 désigne la famille des parents.


C'est également par citation que la composition de la famille apparaît

  0 @22@ FAM 
  1 HUSB @xxxx@
  1 WIFE @yyyy@

HUSB désigne l'époux référencé xxxx et WIFE l'épouse référencée yyyy


-> Données répétitives

Certains groupes de données s'appliquent à plusieurs enregistrements. Pour ne pas les reproduire en totalité chaque fois que nécessaires on peut créer un enregistrement type avec une référence. Alors il suffira de citer l'enregistrement au lieu de le reproduire et d'alourdir le fichier.


Par exemple une source concernant plusieurs personnes et/ou événements fera l'objet d'un enregistrement 0 @48..4@ SOUR suivi de toutes les caractéristiques sera citée dans tous les enregistrements par une ligne n SOUR @48..4@ dans laquelle n indique le niveau, cette valeur dépendant de la donnée à qualifier


-> Contenu d'un fichier gedcom

Chaque fichier commence par un enregistrement d'en tête, qui marque le début et donne des renseignements généraux. Et chaque fichier doit contenir un dernier enregistrement qui marque la fin de fichier. Tous les autres enregistrements doivent être placés entre ces deux marques, sans contrainte d'ordre mais sans fractionnement.


marque début 0 HEAD suivie de lignes détails


marque fin 0 TRLR ligne unique


-> Exemple

Cet exemple est le texte d'un fichier. Vous pouvez le coller dans un fichier pour test. Il contient outre l'en tête et la fin obligatoires, trois enregistrements de personnes, un enregistrement de famille et trois enregistrements sources.

  0 HEAD
  1 SOUR PAF
  2 NAME Personal Ancestral File
  2 VERS 4.0.4.16
  2 CORP The Church of Jesus Christ of Latter-day Saints
  3 ADDR 50 East North Temple Street
  4 CONT Salt Lake City, UT 84150
  1 DEST PAF
  1 DATE 13 MAY 2001
  2 TIME 16:11:56
  1 FILE depaf.ged
  1 GEDC
  2 VERS 5.5
  2 FORM LINEAGE-LINKED
  1 CHAR ANSI
  1 LANG French
  0 @4993I@ INDI
  1 NAME Claude Marie/VERGOS/
  1 SEX M
  1 BIRT
  2 DATE 4 MAY 1752
  2 PLAC Plougastel-Daoulas,Finistère
  2 SOUR @8021S@
  2 SOUR @8103S@
  2 SOUR @7942S@
  1 OCCU cultivateur
  1 FAMC @6579U@
  0 @6579U@ FAM
  1 HUSB @5176I@
  1 WIFE @6576I@
  1 CHIL @4993I@
  1 MARR
  2 DATE 22 NOV 1745
  2 PLAC Plougastel-Daoulas,Finistère
  2 SOUR @8021S@
  1 CHAN 
  2 DATE 22 AUG 2000
  0 @5176I@ INDI
  1 NAME Trémeur/VERGOS/
  1 SEX M
  1 BIRT
  2 DATE 17 FEB 1715
  2 PLAC Plougastel-Daoulas,Finistère
  2 SOUR @8103S@
  2 SOUR @8021S@
  1 DEAT
  2 DATE 11 FEB 1777
  2 PLAC Plougastel-Daoulas,Finistère
  2 SOUR @8021S@
  1 FAMS @6579U@
  0 @6576I@ INDI
  1 NAME Françoise/BODENEZ/
  1 SEX F
  1 BIRT
  2 DATE ABT 1724
  2 PLAC Loperhet,Finistère
  2 SOUR @8021S@
  1 DEAT
  2 DATE 12 JUL 1763
  2 PLAC Plougastel-Daoulas,Finistère
  2 SOUR @8103S@
  2 SOUR @8021S@
  1 FAMS @6579U@
  0 @8103S@ SOUR
  1 PUBL André GENTRIC
  1 REFN Internet
  0 @8021S@ SOUR
  1 PUBL Jean-Pierre CARIOU
  0 @7942S@ SOUR
  1 PUBL Roscanvel REC/DEC
  1 REFN 1831
  0 TRLR

Codification

Les principes exposés sont présentés en détail dans un texte diffusé par les Mormons . Ce texte désigné parfois recommandations, parfois règles, contient une liste des tags et des combinaisons usuelles. Ainsi la version actuelle 5.5, datée de 1996, contient plus de 3000 combinaisons dites licites ou légales. Cela couvre la quasi totalité des besoins des généalogistes, mêmes exceptionnels. En pratique une centaine de tags combinés suffisent pour traduire un fichier bien documenté.

Dialectes

Malgré le large choix des règles gedcom certains fichiers font appel à d'autres combinaisons. Tout simplement la première cause est une erreur soit dans l'interprétation des règles, soit dans la production d'un mauvais codage du fichier.


La possibilité de créer des tags originaux est prévue et certains éditeurs de logiciels en usent. Mais seuls les utilisateurs du même logiciel peuvent alors échanger convenablement leurs données. Dans ce dernier cas le fichier gedcom est un moyen de sauvegarde des données, complémentaire à celui du format spécifique au logiciel.


Quelle que soit la raison le non respect des règles conduit à un dialecte, inspiré de gedcom, mais qui ne permet d'atteindre l'indépendance des logiciels généalogiques. Cet objectif est cependant recherché par la plupart des chercheurs généalogistes.

Annexe

Auteur

  • Ensemble de page réalisées par Sylvain Peyrichou (décédé en 2005).

Son site a fermé mais il est encore consultable dans les archives du web

  • http://web.archive.org/web/20040628223933/perso.club-internet.fr/sypey/

et il a aussi été intégralement repris à l'identique par un de ses amis,

  • Jean-Pierre Stremler : http://www.sypey.org/

A voir aussi

  • Transfert (protocoles) Gedcom est largement utilisé à travers le monde entier, mais d'autres sont envisageables.