1 [Bleu] Préparer ses données pour l'alignement à partir d'un export catalogue - transition-bibliographique/bibliostratus GitHub Wiki
- Présentation
- Les options du module bleu
- L'encodage des fichiers en entrée
- Comment connaître l'encodage de mon fichier iso2709 ?
- Un problème d'encodage ? Passez en XML avec MarcEdit
Présentation
Ce module est conçu comme une aide à la préparation des données pour le module d'alignement.
Dans le module d'alignement, les données attendues sont différentes selon le type de notice (bibliographique / autorité) et selon le type de document.
Attention : Il n'est pas encore développé pour générer des données valides pour l'alignement des autorités
Vous pouvez disposer dans votre SIGB d'une fonction d'extraction qui vous permet de générer les tableaux voulus par le programme d'alignement.
Dans le cas contraire, ce module "marc2tables" prend en entrée un fichier extrait d'un catalogue, en format Unimarc (iso2709 ou XML), et va générer autant de fichiers (tables) qu'il y a de types de documents, aevc les métadonnées attendues par le module d'alignement.
Par exemple la colonne "Identifiant commercial" ne sera générée que pour le fichier qui récupèrera les notices de type audiovisuel (CD, DVD, VHS, etc.)
La colonne Auteur est l'agrégation des zones auteur et co-auteurs personnes et collectivités. Si aucune zone 7XX n'est trouvée, le logiciel récupère l'information de la zone 200$f (transcription de la mention d'auteur telle qu'apparaissant sur le document).
Ce n'est pas un outil d'extraction des métadonnées du catalogue que vous pourriez utiliser à d'autres fin : ce module en profite pour nettoyer les données au passage : il retire la ponctuation, les accents, etc.
(ce nettoyage est aussi repris de toute façon dans le module d'alignement : donc si vous avez fait directement une extraction de votre catalogue sans nettoyer les virgules, le programme d'alignement s'en chargera de toute façon)
Les options du module bleu
Plusieurs options sont proposées :
-
Format de fichier : iso2709 / XML. Dans les deux cas, il faut un fichier Marc, mais qui peut être encodé différemment. Généralement, les SIGB permettent d'exporter de l'iso2709. La grande difficulté va être d'obtenir le bon encodage (UTF-8 sans BOM). Si vous rencontrez des problèmes à ce sujet : voyez plus bas
-
Type de notices : bibliographiques / autorités. Le module d'alignement se décompose en deux : alignement sur les notices bibliographiques de la BnF (ou à défaut sur celles du Sudoc), ou alignement sur les notices d'autorité (ou à défaut sur la base isni.org). Votre fichier en entrée peut donc être l'extraction Unimarc de notices bibliographiques ou de notices d'autorité. Si parmi ces autorités il y a autre chose que des personnes physiques (des mots matières, par exemple, ou des noms géographiques), ces notices seront mises dans un fichier à part, et le module d'alignement Autorités ne fonctionnera pas pour lui.
-
Identifiant des fichiers en sortie : permet de définir un préfixe pour les différents tableaux qui seront produits par ce module bleu. Tous les fichiers en sortie seront déposés dans le répertoire de travail bibliostratus où se trouve le programme
L'encodage des fichiers en entrée
Les logiciels sont conçus pour nous afficher "correctement" les textes qu'ils stockent. Mais il existe plusieurs manières (encodages) poru "stocker" la même information. Notamment les diacritiques (accents, cédilles, etc.) et les caractères spéciaux et non latins.
Les SIGB exportent des fichiers de notices Marc au format iso2709, mais selon plusieurs encodages possibles. Les plus fréquents, pour les exports SIGB, sont iso-8859-1 et UTF-8. Mais ceci n'est pas une garantie. Par ailleurs, il peut y avoir dans les SIGB des caractères non conformes sans qu'on s'en aperçoive, si bien qu'un export en UTF-8 comportera quelques notices ayant des problèmes d'encodage, suite par exemple à un copier-coller fait sur internet.
Bref, c'est très complexe et il n'est (pour l'instant ?) pas envisageable d'arriver à envisager dans le logiciel tous les cas de figure.
Le plus simple est d'obtenir un export "garanti UTF-8". Sinon, vous pouvez tester à tour de rôle les 2 options "iso2709 encodage UTF-8" et "iso2709 encodage ISO-8859-1" pour voir s'il y en a un des deux qui traite votre fichier correctement.
Si ce n'est pas le cas, le plus simple est encore de convertir votre fichier iso2709 en fichier XML (cf. ci-dessous) en demandant spécifiquement du XML encodé en UTF-8. Ainsi vous pourrez revenir sur Bibliostratus en choisissant le format "XML en UTF-8".
Comment connaître l'encodage de mon fichier iso2709 ?
Logiquement, le SIGB qui a fourni l'export doit documenter cet encodage (voire vous laisser le choix -> choisissez UTF-8). Mais si vous l'ignorez ou si vous n'avez que des messages d'erreur : voici comment vérifier l'encodage :
- Ouvrez-le avec Notepad++ (existe aussi en version portable, installable sans droits d'administration)
- Regardez si les accents (par exemple : "Texte imprimé" ou "Texte imprimé") s'affichent correctement
- Ouvrez le menu haut : "Encodage" : vous y trouvez l'encodage que Notepad++ a retenu.
- Soit l'affichage des accents est correct, et vous savez quel est l'encodage de votre fichier
- Soit les accents s'affichent mal, et il vous faut tester plusieurs autres encodages (n'utilisez pas "convertir en XXX" mais "encoder en XXX") L'encodage iso-8859-1 (assez fréquent) est sous Encodage > Codage de caractères > Langues d'Europe occidentale
Soit l'encodage identifié est compatible avec Bibliostratus (donc : UTF-8 ou ISO-8859-1) et vous pouvez choisir la bonne option en entrée
Soit c'est un autre encodage : en ce cas, passez en XML UTF-8 avec MarcEdit, en précisant le bon encodage en entrée lors de la conversion
Un problème d'encodage ? Passez en XML avec MarcEdit
Le programme n'accepte en entrée que de l'UTF-8 sans BOM (c'est-à-dire sans information invisible en en-tête précisant cet encodage).
Si votre fichier iso2709 n'est pas dans ce format, ou si vous croyez qu'il l'est mais que le programme renvoie un message d'erreur : il n'est pas possible de modifier l'encodage d'un fichier iso2709. En effet il n'est valide que si la longueur des zones n'est pas modifiée. Or selon lencodage, les caractères diacritiques prennent plus ou moins de bytes.
Vous devez donc basculer au format XML, en UTF-8.
Pour cela, il vous faut utiliser MarcEdit (ou un autre utilitaire qui fasse la même chose).
Ensuite, vous pouvez utiliser le module bleu en choisissant l'option XML du fichier en entrée.
Et si ça ne marche toujours pas ?
Ce module est conçu pour vous aider à obtenir un fichier prêt pour le module d'alignement. Il peut se révéler plus simple de générer directement un tel fichier depuis votre SIGB.
Surtout si celui-ci propose nativement des fonctions d'exports sous forme de tableaux.