atelier_e - AIREL46/SCAO GitHub Wiki
L'objet de l'atelier d'écriture est le regroupement chronologique des différents événements et documents écrits par Régis Leruste ainsi que tous les outils logiciels nécessaires à cet atelier.
La reconnaissance optique de caractères désigne les procédés informatiques pour la transcription d'images de textes imprimés ou dactylographiés en fichiers de texte.
Procédure pour scanner, plusieurs feuilles, et générer un PDF avec OCR fiable (langue anglaise), cette procédure a été mise au point en relation avec Chatgpt:
a) Une commande qui combine le scan des pages du chargeur de l'imprimante, regroupe les pages générées en un seul fichier et effectue la reconnaissance de caractère, en langue anglaise en générant le fichier scan_ocr.pdf :
scanimage ... --batch=page-%03d.pnm img2pdf page-*.pnm -o scan.pdf ocrmypdf -l eng scan.pdf scan_ocr.pdf
b) Extraire le texte brut avec pdftotext
pdftotext scan_ocr.pdf scan_ocr.txt
c) Nettoyer le fichier avec le script python nettoie_ocr.py
python3 nettoie_ocr.py scan_ocr.txt scan_ocr_n.txt
d) Ouvrir scan_ocr_n.txt dans Libreoffice Writer et utiliser le correcteur d’orthographe.
Procédure pour scanner, une seule feuille, et générer un PDF avec OCR fiable (langue française), cette procédure a été mise au point en relation avec Chatgpt.
a) Scanner en haute qualité (400 DPI, niveaux de gris, format TIFF)
scanimage --device "escl:http://192.168.1.117:8080" --resolution 400 --mode Gray --format=tiff > scan.tiff
• --resolution 400 : meilleure reconnaissance de petits caractères
• --mode Gray : bon contraste, poids réduit
• --format=tiff : format sans perte, idéal pour OCR
b) Appliquer l’OCR en français avec ocrmypdf
ocrmypdf -l fra scan.tiff scan_ocr.pdf
• -l fra : utilise le moteur OCR français (tesseract-ocr-fra)
• scan_ocr.pdf : le fichier final, interrogeable et optimisé
c) Extraire le texte brut avec pdftotext
pdftotext scan_ocr.pdf scan_ocr.txt
d) Nettoyer le fichier avec le script python nettoie_ocr.py
python3 nettoie_ocr.py scan_ocr.txt scan_ocr_n.txt
e) Ouvrir scan_ocr_n.txt dans Libreoffice Writer et utiliser le correcteur d’orthographe.
trans -b -no-ansi -no-color -t fr -i scan_test.txt > scan_fr.txt
Il s'agit d'un atelier numérique organisé par la mairie de Saint-Molf. Il se déroule à la mairie d'Asserac, le professeur est Hervé Bard. Les cours sont axés sur l'utilisation de la tablette et du smartphone. C'est l'occasion pour moi de poser des questions à Hervé. En particulier, sur les éditeur de texte "intelligent", il m'oriente sur l'auto-completion qui me fait aboutir sur la suite bureautique KOffice remplacé par Calligra Suite dont le traitement de texte est Calligra Words.
Le livre numérique est un livre édité et diffusé en version numérique, disponible sous la forme de fichiers qui peuvent être téléchargés et stockés pour être lus sur un écran1,2 (ordinateur personnel, téléphone portable, liseuse, tablette tactile), sur une plage braille, un dispositif de lecture de livres audio, ou un navigateur.
La liseuse permet la lecture des livres numériques. J'ai acheté en septembre 2024 une liseuse française Vivlio
Le format epub (acronyme) d'electronic publication est le format utilisé pour les livres numériques. Les fichiers e-pub sont zipés, ils englobent plusieurs fichiers. Il convient donc de les "déziper" pour avoir accès aux différents fichiers :
- Texte : titlepage.xhtml suivi d'une série de fichiers.xhtml correspondant à l'ensemble du texte du livre.
- Styles : pages_styles.css et stylesheet.css.
- Images : un fichier.jpg par image.
- Polices : aucun fichier.
- Mescellaneous (divers) : 1 fichier.pdf, calibre_bookmarks.txt, container.xhtml, content.opf, toc.ncx.
Les fichiers texte utilisent Langage de balisage xhtml. Le XHTML se fonde sur la syntaxe définie par XML. Dans le cadre de l'édition du livre numérique "Souvenirs de jeunesse", un extrait du langage de balisage est donné ci-dessous :

Vidéo la syntaxe de base du langage XML Texte de la vidéo : Syntaxe de base du langage XML : (balise, élément, attribut.)
- Balise : Dans un document XML, on doit distinguer les balises et le contenu textuel. Les balises sont les composants fondamentaux permettant l'écriture de documents XML. Elles se distinguent du contenu en utilisant les caractères inférieur, slache et supérieur. Une balise est un texte commençant par le signe (inférieur) suivi directement par le nom de la balise et se terminant par le signe (supérieur). Il existe trois types de balises en XML :
- Les balises d’ouverture (ou les balises ouvrantes ou les balises de début) : elles commencent un élément ;
- Les balises de fermeture (ou les balises fermantes ou les balises de fin) : elles terminent un élément ;
- Les balises d’élément vide . Attention : le nom de la balise ne commence ni par un point d’interrogation(?) ni par un point d’exclamation(!).
- Élément : Un élément est en général un ensemble du texte borné par deux balises, une balise ouvrante et une autre balise fermante portant le même nom. On distingue entre un élément non-vide et un élément vide :
- Un élément non-vide : lorsqu’il y a un contenu entre ses deux balises ;
- Un élément vide : lorsqu’il n’y a pas d’un contenu entre ses deux balises Rq : un élément non-vide est souvent représenté par une balise d’élément vide. NB : le contenu, compris entre les deux balises, peut-être du texte et/ou d'autres éléments, ou rien (élément vide).
- Attribut : Un attribut est une information supplémentaire attachée à un élément, on parle de métadonnée. Il est un couple nom/valeur ajouté à la balise ouvrante ou à une balise vide. La valeur est un texte indiqué entre apostrophes ou guillemets (au choix). Elle peut être vide , mais pas nulle . Un élément peut porter un ou plusieurs attributs. Ces attributs sont uniques. La répétition d'un attribut de même nom sur le même élément provoquera une erreur de l'interpréteur XML. L'ordre des attributs n'est pas significatif, et peut ne pas être conservé dans certains traitements.
- Conclusion : En résumé, Chaque document XML contient un ou plusieurs éléments. Chaque élément a un type, identifié par son nom, parfois appelé son "identifiant générique" (GI), et peut avoir un ensemble d'attributs. Chaque attribut est composé d’un couple nom/valeur.
Les livres numériques, sous la forme de fichiers au format epub, nécessitent des outils logiciels dédiés aux fonctions de validation, gestion, lecture, édition et conversion. J'ai opté pour le logiciel calibre. Un autre logiciel, réputé plus complet, est Sigil.
Comment convertir des fichiers Markdown sous Linux
Editer son ebook en ePub sur PC, Mac et Linux avec Sigil ou Calibre
La plateforme multiservices Comeup, en la personne de Laurent Hentz, propose, le service payant mais abordable, Erreurs-epubcheck sur le logiciel Sigil.. J'ai envoyé une requête accompagnée d'un paiement de 10€ à Laurent Hentz. Le contenu de la requête explique que le fichier e.pub accessible par le lien, de mon livre numérique "Souvenirs de jeunesse", pose problème sur ma liseuse. En effet la lecture se fait correctement jusqu'à la page 50, puis la liseuse force le retour au menu principal. La réponse de l'équipe Comeup est la suivante : Bonjour Régis, à la lecture de votre demande, ce que je propose (la correction des erreurs epubcheck) ne semble pas correspondre à votre demande. Je préfère ne pas prendre votre commande plutôt que vous soyez déçu du résultat. Par contre, si vous souhaitez uniquement que j enlève les erreurs générées par epubcheck, reprenez moi la commande. Mais comme dit ça ne résoudra pas votre soucis technique actuel. Les erreurs epubcheck sont liés à l absence de balise de langue, ça va rien changer pour la table des matières . ma réponse est la suivante : Bonjour, merci de vos messages, je pense qu'il n'est pas nécessaire de maintenir cette commande. Par contre, je travaille actuellement sur Calibre dans un environnement Ubuntu et je suis intéressé par une assistance informatique pour installer Sigil et epubcheck. Cette requête restera sans réponse de la part de Comeup.
epubcheck n'est pas disponible dans le logiciel calibre, il est nécessaire de l'exécuter en ligne de commande. La version officielle d’EpubCheck se trouve sur Github.
Le fichier chronologique de la vie de Vincent Van Gogh est un fichier de type tableur accessible par la commande :
libreoffice SCAO/atelier_e/vvg/chronologie_vvg.ods
- Hommage à Vincent Van Gogh les 30 et 31 juillet 2022 Interview de Pascal TIERCE
- Hommage à Vincent Van Gogh les 30 et 31 juillet 2022
Cette question est posée à chatgpt le 3 mai 2026, voici sa réponse :
On pourrait croire que Van Gogh est réaliste parce qu’il peint des paysages, des paysans et des objets du quotidien. Pourtant, il n’est pas classé dans le réalisme pour plusieurs raisons essentielles.
-
Le réalisme cherche à montrer le monde tel qu’il est Le mouvement réaliste voulait représenter la réalité de façon objective, presque documentaire. Les peintres réalistes cherchaient à peindre fidèlement la vie quotidienne, sans dramatisation ni effets émotionnels.
-
Van Gogh peint ce qu’il ressent, pas ce qu’il voit Van Gogh transforme la réalité pour exprimer ses émotions et son état intérieur. Il déforme volontairement les couleurs, les formes, la perspective et la lumière.
-
Des couleurs irréalistes et symboliques Les réalistes utilisent des couleurs proches du réel. Van Gogh utilise des couleurs expressives et symboliques : jaunes intenses, bleus profonds, contrastes forts.
-
Une peinture gestuelle et visible Chez les réalistes, les coups de pinceau sont souvent discrets. Chez Van Gogh, ils sont épais, visibles et chargés d’énergie.
-
Le post‑impressionnisme Van Gogh appartient au post‑impressionnisme. Ce mouvement dépasse l’observation pour exprimer le monde intérieur et ouvre la voie à l’art moderne.
Résumé : Le réalisme observe le réel. Van Gogh exprime l’émotion. Il peint la réalité ressentie, pas la réalité visible.
- Saison 1 : Souvenirs de jeunesse
- Saison 2 : sans titre pour le moment, cette saison correspondra à ma période d'activité
- Saison 3 : Carnet de voyage
A partir du répertoire courant, les fichiers sont mémorisés dans le répertoire :
SCAO/atelier_e/souvenirs_de_jeunesse
Les principaux fichiers se trouvent dans le sous-répertoire :
memoires
Le fichier qui a servi à la première publication papier est :
SCAO/atelier_e/souvenirs_de_jeunesse/memoires/memoires_a5_3.odt
La version complétée en vue d'une nouvelle publication papier est donnée par le fichier :
SCAO/atelier_e/souvenirs_de_jeunesse/memoires/memoires_a5_4.odt
Un arbre généalogique de la famille Leruste-Delescluse au moment de la guerre est accessible par le fichier :
-
SCAO/atelier_e/genealogie/leruste_delescluse.dia.
Pour installer les logiciels, il convient de se référencer au document Téléchargement des vidéos sur Arte.tv.
L'opération s'effectue selon trois phases :
- Le téléchargement est réalisé à partir de l'extension du navigateur Firefox Vidéo Downloader Pro
- L'édition est réalisée à partir du logiciel de montage vidéo Pitivi
- La lecture est réalisée à partir de VLC media player.
- Aller sur le site commons.wikimedia.org
- A l'aide du moteur de recherche trouver le(s) image(s), par exemple "musée de Tournai"
- Sélectionner l'image souhaitée
- Faire un clic droit et choisir "ouvrir le lien dans un nouvel onglet"
- Refaire un clic droit et choisir "ouvrir le lien dans un nouvel onglet"
- Vérifier la structure de l'adresse de l'URL commence par https://upload
- Pour afficher l'image dans le wiki, faire précéder de !, le dessin de Van Gogh s'affiche


