Les outils - SGMAP-AGD/anonymisation GitHub Wiki
Il existe déjà différentes solutions pour l'anonymisation de base de données, en voici un petit tour d'horizon qui détaille les différentes fonctionnalités de chacune :
-
μ-Argus - WINDOWS, LINUX/UNIX - open-source.
- Généralisation globale : la catégorie non-anonymisée est fusionnée avec une autre sur l'ensemble de la base.
Exemple : passage de "Mathématicien" et "Statisticien" à "Mathématicien ou statisticien".
- Généralisation globale : la catégorie non-anonymisée est fusionnée avec une autre sur l'ensemble de la base.
-
Suppression locale : la catégorie pas assez anonymisée est supprimée (modalité "missing").
-
Recodage top and bottom : traitement de variables catégorielles ordinales. Les valeurs extrêmes (top ou bottom) sont fusionnées pour former une nouvelle catégorie.
-
Méthode de post-randomisation (Post-RAndomisation Method, PRAM) : modifier une ou plusieurs variables pour chaque ligne de la base. Cela est effectué de façon aléatoire selon des probabilités de transition définies au préalable, indépendamment des autres lignes. Cette méthode revient donc à remplacer chaque combinaison de identifiants de façon aléatoire, selon la distribution des probabilités de transition.
-
Micro-agrégation sur variables numériques : appliquer de la façon la plus optimale la k-anonymisation à des variables numériques.
-
Permutation ordonnée : pour chaque variable numérique, les différentes modalités sont ordonnées et chaque modalité est permuté de façon aléatoire avec une valeur proche (la différence entre la vraie valeur et la nouvelle valeur assignée ne doit pas dépasser p%).
-
SDCMicro (Statistical Disclosure Control for Microdata) - package R.
- Suppression locale avec une possibilité de pondérer chaque variable selon qu'elle est plus ou moins critique.
- K-anonymisation par généralisation globale.
- Micro-agrégation à la moyenne.
- Ajout de bruit (avec conservation des corrélations d'origine ou non).
- Permutation ordonnée.
- Micro-agrégation sur variables numériques (algorithme RMDM de construction optimale des groupes selon la distance des variables à la médiane).
-
ArX - WINDOWS, LINUX/UNIX, OSX - open-source.
- k-anonymisation (Globally-optimal anonymization).
- ℓ-diversité.
- t-proximité.
- δ-presence.
-
[τ-Argus] (http://neon.vb.cbs.nl/casc/..%5Ccasc%5Ctau.htm) - WINDOWS, LINUX/UNIX - portage en open-source en cours.
- Modification globale.
- Méthode hypercube.
-
CONFID2 - Macro SAS développée par Statistique Canada.
- Amélioration de CONFID.
- Suppression locale.
-
Solution Data-masking d'Oracle
- en construction.
Quelle est la plus-value d'une librairie python ?
La plupart des logiciels présentés proposent des méthodes de généralisation globale d'attributs. Or, nous nous sommes plutôt penchés sur la généralisation locale d'attributs (k-anonymisation locale), ce qui n'est permis, à notre connaissance, par aucune technologie présentée ci-dessus. Autrement dit, afin de conserver la plus grande précision, nous souhaitons remplacer par "Mathématicien ou Statisticien" (cf. supra) seulement les lignes qui posent problème, et non pas toutes les lignes qui comportent "Mathématicien" ou "Statisticien".
Aussi, la solution sdcMicro ne permet par exemple d'anonymiser que de façon manuelle.