WEBARCHIVE - hackathonBnF/FichesFormat GitHub Wiki

Webarchive Statut

Description

Le format Webarchive est un format conteneur utilisé par le navigateur web Safari (depuis sa version 2) pour sauvegarder et visualiser des pages web. Il permet la sauvegarde de la page web et de ses dépendances (style CSS, script javascript, images, etc.).

Il s'agit d'un format propriétaire non documenté. Il semble cependant qu'il se base sur la version binaire du format Property list d'Apple.

Sociabilité

Ce format est essentiellement utilisé et reconnu par le navigateur web Safari, sous Mac, iOS et Windows.

On trouve cependant le programme Webarchive Folderizer ainsi que pywebarchive qui servent à en extraire les données.

Étant donnée que le format est basé sur property list, on peut utiliser les bibliothèques manipulant ce format pour l'analyse, tel que binplist de Google.

Relations à d’autres formats

Le format est une extension de la version binaire du format Property list d'Apple.

Versions

Il semble qu'il n'y ait qu'une seule version de ce format.

Contenu / Conteneur

Il s'agit d'un format conteneur permettant de stocker des URL, des pages HTML, des feuilles de style CSS et des scripts en javascript. Rien n'indique qu'il y ait réellement des restrictions quant au contenu.

Organisme de maintenance et documentation de référence

La seule documentation officielle semble être le code source de la version binaire du format PList : CF/CFBinaryPList.c, donc non spécifique à Webarchive.

On trouve une page sur Wikipedia : Webarchive.

Identifiants

Le type MIME, non officiel, est application/x-webarchive. On trouve également le type MIME tout aussi officieux application/x-bplist.

Registre Identifiant
Wikidata Q7978630
PRONOM fmt/866
Just Solve the File Format Problem Webarchive_(Safari)

Caractéristiques techniques

On décrira ici les caractéristiques techniques ayant un impact sur la durabilité des données, en particulier sur les critères de compacité (CPO-COM, notamment le ou les algorithme(s) de compression disponibles), simplicité (CPO-SIM), mécanismes de protection (CPO-PRO), robustesse (CPO-ROB), transparence (CPO-TRA) et indépendance / autonomie (CPO-AUT).

Métadonnées internes

Lorsque le format peut embarquer des métadonnées internes, qu'elles soient descriptives, de provenance ou techniques, on signalera dans cette section le type d’information et le formalisme de ces métadonnées.

Outils connus par la BnF

On citera dans cette section les outils que la BnF considère comme particulièrement utiles pour réaliser :

  • la caractérisation ;
  • la validation du format ;
  • et, le cas échéant, la production ou la migration.

On mentionnera si l'une des versions de l'outil est préférable à une autre.

Usage ou présence dans les collections de la BnF

Cette section décrit le ou les usage(s) majoritaire(s) du format à la BnF, et signale dans quels cas des fichiers de ce format ont intégré les collections de l'établissement.