Gestion des doublons

De WikiGenWeb
Révision de 2 mars 2011 à 18:31 par Purdey (discussion | contributions) (Heredis :)

(diff) ← Version précédente | Voir la version actuelle (diff) | Version suivante → (diff)
Aller à : navigation, rechercher

La plupart des logiciels offrent une fonction de fusion des données généalogiques. Cette fonction est complexe à exploiter et les résultats parfois étonnants de bétise. La première recommandation des éditeurs est toujours pressante pour une sauvegarde préalable à tout traitement ... C'est utile pour intégration de deux généalogies et aussi pour transférer les données d'un logiciel de dépouillement, ce qui génère pas mal de doublons, par exemple les parents quand une famille comporte plusieurs enfants. Comment supprimer les données redondantes dans une base de données généalogiques ?

Exemple 
  • - quand deux personnes ont des ancêtres communs chacun souhaite compléter sa base avec les données de l'autre en opérant une fusion ou dédoublonnage
  • - quand des registres ont été dépouillés de façon systématique il s'agit d'une gestion d'actes dans lesquels sont mentionnés les mêmes parents ou témoins or le concept de base d'une généalogie est une gestion des personnes sans répetition


Les transferts pour le premier cas sont réalisés par un échange de fichiers gedcom avec des aléas qui ne sont pas dans le sujet présent. Dans le second cas généralement un fichier texte est intermédiaire et parfois un convertisseur gedcom est associé à certain logiciels. En fin de traitement toutes les données sont réunies dans un même produit, mais il n'y a pas eu filtrage et tous les soucis sont cumulés. La même personne physique apparait sous des identités différentes ou des événements la concernant sont rapportés dans plusieurs documents.


Le schéma est encore plus délicat en considérant les liens entre les personnes par les parrainages sans oublier les unions multiples. A ce point il semble évident de déclarer que la suppression d'une personne même en reportant toutes ses données sur une autre comporte un risque de perte des liaisons ou de création inopportune. Une autre formulation de l'objectif pourrait être : comment sans perte d'information assainir une base pour que chaque donnée apparaisse une fois et une seule.


Test sur 20 logiciels avec une étude plus approfondie sur : Heredis Genéatique Paf Legacy. Il faut considérer l'entité de base (fiche de la personne) mais aussi les relations entre personnes dont à priori on ne connait ni la nature ni le nombre et qu'il faut inventorier avant toute intervention. Comme le traitement des liens , des sources , des unions multiples.

Gedcom :

ca revient à rajouter tous les éléments de Indi2 à la suite de Indi1 et de remplacer tous les id Indi2 par Indi1. Ainsi pas de pertes ! Ainsi on a bien l'opération que l'on désire la fusion ! Au pire si le logiciel ne supporte pas des attributs en double (comme ici Jean et Jeannot), il doit demander. Plus prosaïquement, dans un logiciel avec une interface graphique, on devrait avoir une vue des 2 personnes avec leur attributs, évènements, etc. et simplement faire glisser un/des attribut(s) d'un coté à l'autre.Pour fusionner deux individus, il faut faire un choix sur l'ensemble des éléments décrivant les deux individus sachant qu'ils peuvent être présents ou non pour chacun d'eux.

  • 1. Liens de parentés : Filiation (FAMC) ; Union (FAMS)
  • 2. Autres liens : Parrain, témoin,... (ASSO)
  • 3. Attributs : Sexe (SEX), Nom (GIVN),....
  • 4. Evénements : Naissance (BIRT) ; Décès (DEAT),...
  • 5. Notes : Note (NOTE)


Dans chaque élément constituant la description d'un individu, on va retrouver des sous-éléments qui devront faire l'objet de la fusion : Dates (DATE) ; Lieux (PLAC) ; Sources (SOUR) ; Notes (NOTE) Distinguer fusion et détection des doublons : les dernières révisions des logiciels comportent la fusion avec regroupement des données sur la fiche conservée. Cependant assez souvent il apparait des soucis dans le détail quand l'implantation des fonctions gedcom est approximative. Malheureusement c'est le cas général. Quand vous évoquez la fusion vous dites il faut choisir parmi les éléments de même nature. Se pose la question comment choisir la bonne valeur ? Un logiciel de généalogie est d'abord un outil d'analyse alors pourquoi ne pas conserver toutes les infos pour un attribut ? Ceci est prématuré ! Les logiciels ne savent pas traiter les valeurs multiples. Mais je le cite pour la boite à idées ...


Le premier service rendu par une fusion c'est la vérification des saisies. L'intégration des variations de valeur pour une donnée est une bonne aide pour l'analyse. PAF ne prend pas en charge les associations donc les témoins. Généatique traite l'ensemble.

Cumberland:

conserve ainsi tous les tags et liens de parentés différents. On peut ensuite faire le tri dans le résultat. La fusion ne me sert qu'à rectifier mes saisies, il est hors de question que j'intègre directement un gedcom : vérification des données puis saisie des différents champs à mes normes  : lieux, sources.

PAF :

fonction de fusion semble assez correcte. Une fois un doublon repéré on a la possibilité de voir les deux individus, leurs familles (parents et frères et sours) et les principaux évènements (naissance, baptême, décès et sépulture). Pour ces quatre évènements on a le choix de la donnée à conserver (dans le cas où il y a la donnée pour les deux individus) et ce champ par champ. De plus PAF propose d'office de compléter l'individu à "gauche" par tout ce qu'il y a de nouveau à "droite" (par exemple le lieu de naissance s'il n'est connu que par l'individu de "droite" (qui va donc être fusionné avec celui de "gauche").

A part ces quatre évènements forcément uniques, TOUT LE RESTE est conservé dans l'individu fusionné, à l'exception de quelques cas évidents (deux mariages avec la même personne à la même date, ou du moins sans conflit de dates, deux parentés vers la même famille -- mariage --, ...). Tous les liens de ou vers les deux individus se retrouvent donc dans l'individu fusionné.

Le problème sous PAF est de repérer, sans erreurs ni omissions, les doublons à fusionner... PAF autorise une recherche des doublons relativement bien paramétrable, en indiquant si on fait une recherche exact ou approximative (SOUNDEX) sur les noms, l'intervalle admis sur la date de naissance, voire si on accepte qu'elle soit inconnue, si l'on prend en compte tous les prénoms (bien que PAF ne soit pas très sûr sur ce critère), etc.

Une option bien utile est de prendre en compte les parents.Quand j'ai à fusionner deux GEDCOM, je commence donc par faire une recherche/fusion des doublons exacts (même patronyme, même prénoms, même date de naissance et même parents). En général il n'y a pas de problème et on a juste à provoquer la fusion des individus ainsi trouvés. C'est une opération à répéter tant que l'on arrive à fusionner des doublons, car la comparaison sur les parents fait que l'on "descend" d'une génération à chaque recherche/fusion.Ensuite, cela devient plus pénible (et plus long): il faut commencer à être moins exigeant sur la définition d'une correspondance possible, accepter par exemple les individus dont on ne connaît pas la date de naissance ou les parents); c'est là qu'il y a le plus de risque d'erreur.

Il m'est arrivé de manquer fusionner deux individus ayant les mêmes noms et prénoms, nés le même jour, au même endroit, de pères et mères ayant mêmes prénoms... il n'y avait que le patronyme de la mère pour les différencier (et leurs dates de décès: elles n'avaient pas poussé le vice jusqu'à décéder ensemble...)C'est dans cette étape que je rêve souvent d'un logiciel qui saurait me proposer la fusion de tous mes vrais doublons, sans qu'ils soient noyés parmi des centaines, voire des milliers, de "faux" doublons que l'on est capable de reconnaître au premier coup d'oil.

Certainement le plus gros défaut de PAF est que, même en choisissant de vérifier tous les prénoms, il propose de faire correspondre des individus n'ayant qu'un prénom en commun, comme s'il cherchait alors au moins un prénom commun et non pas tous.Je pense donc personnellement que, du moins pour un utilisateur de PAF, et franchement je ne vois pas le vrai problème de réalisation de la fonction, le problème n'est pas la *fusion* proprement dite, mais la *détection* des doublons et des "anomalies" générées par une fusion (en particulier les enfants qui se retrouvent avec plusieurs parents suite à la fusion de GEDCOMs qui précisent des parentés incomplètes ou dont les renseignements fournis sur les parents ne permettent pas leur fusion). Une amélioration de PAF pourrait être d'ailleurs de choisir de prendre en compte non les parents mais les enfants (c'est-à-dire proposer de fusionner les différents parents d'un même individu).

BK :

n'offre pas la fusion

Heredis :

la fusion est parfaitement inutilisable sauf pour la version Heredis 8 pour laquelle il y a peu de retour d'expérience mais qui semblerait enfin fonctionner selon quelques utilisateurs.