Numérisation des registres

De WikiGenWeb
Aller à : navigation, rechercher

D'après une idée lancée par Loic Chagnoux - avril 2005 Quelles sont les avantages à la numérisation des registres généalogiques  ?

  • rapporter à la maison plus d'informations que je ne peux en utiliser sur place
  • éviter de consulter les registres de nombreuses fois
  • donner aux autres une copie d'un acte
  • permettre le dépouillement gratuit à distance

Le cas des Archives Départementales de la Mayenne reste une exception et il paraît lourd de créer un serveur pour héberger les numérisations.

Proposition 
diffuser en P2P les fichiers de numérisation des registres http://fr.wikipedia.org/wiki/P2p

L'intérêt d'une telle pratique est de diffuser, sans dépense, des numérisations.

Comment ca fonctionne ?

Considérons un numérisateur = un généalogiste qui numérise les registres. Si on suppose un numérisateur par commune (sans doute le cas général), les fichiers à télécharger sont uniquement sur son PC. Il est aussi possible de disséminer sur plusieurs PC pour avoir par exemple un accès plus rapide ou des sauvegardes.

Un fichier de même contenu peut avoir plusieurs noms différents en P2P, les serveur le reconnaissent comme unique et télécharge avec les différentes sources. Ensuite, il suffit de mettre sur nos sites des listes de liens e2k:// ou torrent qui permettront de ne pas se faire intoxiquer par de faux fichiers.

Méthode de compression des fichiers

7-ZIP
libre répandu. Pas trop compliqué. http://www.7-zip.org/fr/ (installation en anglais et choisir la langue une fois lancé). (format de compression le plus répandu est ZIP)
TAR.GZ 
standard libre répandu. Est utilisé sans même le savoir.
RAR 
efficace pour récupérer les fichiers même si l'intégralité du fichier n'est pas encore transmise (qui est le principal défaut de zip). Problème : le logiciel encodeur est censé payer des royalties.

Autres formats de compression moins utilisés : formats propriétaires (ARJ, CAB, LZH, 7Z), formats anciens ( Z ancien, BZ2 récent), formats spécialisés (DEB, RPM, MP3, JPG, ...)

Pourquoi compresser 
En fait, le programme de compression sert essentiellement à créer un fichier archive réunissant un ensemble de fichiers de clichés généralement en format compressé JPG. Le gain de taille apporté par la compression est faible.

L'avantage de la compression est essentiellement dans la gestion, puisqu'ainsi on télécharge un registre ou un ensemble de registres, et non pas une liste de pages.

Nomenclature (nom des fichiers)

INSEE_Début-Fin_Type_Source_Numérisateur_Certificateur.rar
INSEE_début-fin_type_source_initiales_verificateur.rar
Exemple : registres BMS 1617-1668 de Beaumont du Gâtinais photographié en mairie par Loïc Chagnoux, et certifié par Registres45 : 77027_1617-1668_BMS_AC_LCh_Reg45.rar
Il me semble important de les regrouper par registres pour éviter d'avoir une myriade de petits fichiers.

Pays INSEE début-fin type source initiales du numérisateur verification En P2P, quand on est contre le partage et qu'on veut mettre des batons dans les roues, il suffit de créer de faux fichiers avec des noms trompeurs (actuellement utilisé contre le téléchargement de films). Rappelons que ces partages généalogiques sont légaux !

La certification sert à valider l'origine du fichier. Si vous voyez dans un fichier "certifié Registres18", vous allez voir sur registres18 si c'est vrai. Ca peut suffire comme certification.

Mettre les commentaires (pages ou années manquantes) et quelques sites recommandés dans un fichier d'accompagnement .txt qui présente l'initiative à la source du fichier.

Avantage par rapport à une base nationale

Les possibilité du P2P sont immenses et nous garde à l'écart des centralisations parfois sclérosantes. Un peu de normalisation devrait suffire.

Une base nationale comme Généactes était super du temps de l'html, mais en 10minutes, avec une simple macro php (rélisée en 30 mn), il est possible de récupérer intégralement un dépouillement généactes sous le format xls.

Des généalogistes échaudés par une récupération de leur travail sans leur accord et à des fins marchandes refusent une telle possibilité et préfèrent un petit chez soi qu'un grand chez les autres. De plus la masse d'actes numérisés est en augmentation rapide, et cela oblige à étudier des méthodes adaptées à cette masse.

Exemple de système imparfait 
http://vullin.free.fr/r18/suryenvaux/index.php qui permet au visteur de consulter librement (quand on autorise les pop-up), et rend irréaliste une aspiration du site (au moins deux mois pour ressortir le fichier xls).

Pour ordre de grandeur, Marne-Archives + Registres18, c'est plus de 1 000 000 d'actes en accès libre réalisées en 2 années. La marne a fait 480'000 actes en un an.! En matière d'efficacité, c'est stupéfiant. Il parait difficile de centraliser les actions sur 36'000 communes autrement qu'en décentralisant la gestion.

Objections

Il est difficile d'utiliser le P2P : Non, c'est facile, il suffit de lancer un programme. Oui, c'est difficile, il vaut mieux avoir un firewall bien configuré. Sous linux il faut avoir certains packages à jour, il faut avoir une liste de serveurs server.met utilisable.

Il faut que le PC où se trouve les fichiers à télécharger soit connecté sur le réseau en quasi permanence. Oui mais en fait l'index des fichiers est distribués. A tout moment on peut donc savoir ce qu'il y a et où.

Ensuite quand l'on veut vraiment télécharger le fichier, il faut alors laisser son PC allumer suffisamment longtemps pour que le serveur du fichier le soit aussi. C'est pour cela que le p2p actuel est long. Il faut que les 2 machines soient allumées longtemps. Il est vrai que cela peut se faire uniquement pour ceux qui sont en connexion illimitées. Mais l'objectif n'est pas d'offrir un service universel mais de mettre pour ceux qui le souhaitent et le peuvent, gratuitement à disposition des fichiers d'une façon simple.

Il y a un problème d'espace! En effet il est très rare de voir "M tout le monde" laisser son micro ouvert en permanence et le laisser ouvert aux entrées extérieures même avec un micro dédié à cet usage. Ensuite il y aurait le problème de la bande passante qui chez certains FAI est limitée donc attention aux surcoûts. L'espace n'est plus un problème en P2P. Les PC peuvent être éteints, le téléchargement ira chercher des petits morceaux chez tous les gens qui téléchargent quand ils seront en ligne.

Pas besoin d'hébergeur pour du P2P. Les photos de très bonne qualité pèse entre 300 et 600ko par page. Au delà, c'est inutile. Une commune comme de 1500habitants fera 7Go pour les BMS 1601-1900.