FTP IGN - soduco/logbook GitHub Wiki

Data

archives_de_paris

Corpus_Annuaires

Fichiers

Les fichiers présents sont des fichiers numériques correspondant aux annuaires et almanach utiles pour Soduco (ou à des extraits d'annuaires). En majorité, ce sont des fichiers au format pdf dont les conventions de nommage sont décrites ci-dessous. Chaque annuaire (ou extrait) récupéré sous forme de séries d'images est stocké dans un répertoire particulier situé dans ce répertoire (les conventions de nommage sont similaires à celle des fichiers).

Conventions de nommage des fichiers:

(nom:texte) + "_" + (annee:YYYY)[+ "_" + (volume:texte)] [+ "_" + (morceau:caractere)] [+ "_" + (exemplaire:"ex") + (numéro exemplaire:chiffre)] [+ "_" + (extrait:"extrait") + "_" + (description extrait:texte | (Vues:"Vues") + "_"(Vue_debut:pppp) + "-" + (Vue_fin:pppp) ]

  • Code de l'annuaire (nom:texte)_(annee:YYYY). C'est ce code qui est utilisé comme code de référence bibliographique.
  • Si un annuaire est composé de plusieurs volumes, le nom du volume est ajouté à la suite de l'année Exemple: Wattin_1787_Louvre et Wattin_1787_Temple ;
  • Si un annuaire est découpé en plusieurs morceaux par les services de numérisation de la BNF, les morceaux sont identifiés par une lettre [a, b, c, d...]. Exemple: Didot_1852a et Didot_1852b
  • Si il existe plusieurs exemplaires d'un même annuaire, alors les exemplaires supplémentaires sont signalé par "_ex" puis le numéro de l'exemplaire. On fait en sorte que le premier exemplaire soit celui qui a la qualité la plus grande. Exemple: La_Tynna_1811 et La_Tynna_1811_ex2
  • Dans le cas ou un fichier correspond à un extrait d'un annuaire, on rajoute le mot-clef "extrait_" suivi
    • soit d'un texte libre décrivant l'extrait (par exemple dans le cas ou on ne dispose pas du volume entier mais de quelques photos). Ce texte libre peut-être composé des numéros de page. Exemples: Bottin_1851_Extrait_Pronteau_CorrespondanceNumeros
    • soit d'un intervalle décrivant les numéros de vue de début et de fin précédé du mot "Vues_", quand on dispose de l'annuaire dans son entier.

Classement et hiérarchisation

  • Chaque annuaire est membre d'une série (série d'annuaire "similaires" sur plusieurs années)
  • Chaque série est membre d'une collection (distinction des différents types d'annuaires)

(il faut voir l'adéquation de ces termes avec le terme "collection" dans bibtech)

Rappel : Usage de GalliPy python3 -u [répertoire où est installé getpdf.py]/getpdf.py [lien_bnf_gallica] [nom_fichier_pdf] --blocksize 100 Exemple : python3 -u /media/pascal/DATAPART1/SODUCO/gallipy-master/scripts/getpdf.py https://gallica.bnf.fr/ark:/12148/bpt6k6292888w Bottin_1827.pdf --blocksize 100

Presentations

Sample