Définition et enjeux - SGMAP-AGD/anonymisation GitHub Wiki
Définition et enjeux de l'anonymisation
Juridique
Porteuses de nouvelles opportunités en termes d'avantages pour la société, les citoyens et les organisations, les données comportent toutefois très souvent des informations à caractère personnel, qui, le cas échéant, sont placées sous la législation européenne de protection des données. Le règlement du Parlement européen et du Conseil adopté le 27 avril 2016 remplace la directive 95/46/CE et stipule :
Il y a lieu d'appliquer les principes relatifs à la protection des données à toute information concernant une personne physique identifiée ou identifiable. [...] Pour déterminer si une personne est identifiable, il convient de prendre en considération l'ensemble des moyens raisonnablement susceptibles d'être utilisés par le responsable du traitement ou par toute autre personne pour identifier la personne physique directement ou indirectement, tels que le ciblage. Pour établir si des moyens sont raisonnablement susceptibles d'être utilisés pour identifier une personne physique, il convient de prendre en considération l'ensemble des facteurs objectifs, tels que le coût de l'identification et le temps nécessaire à celle-ci, en tenant compte des technologies disponibles au moment du traitement et de l'évolution de celles-ci. Il n'y a dès lors pas lieu d'appliquer les principes relatifs à la protection des données aux informations anonymes, à savoir les informations ne concernant pas une personne physique identifiée ou identifiable, ni aux données à caractère personnel rendues anonymes de telle manière que la personne concernée ne soit pas ou plus identifiable. Le présent règlement ne s'applique, par conséquent, pas au traitement de telles informations anonymes, y compris à des fins statistiques ou de recherche.
L'anonymisation peut donc être défini comme le résultat du traitement de données à caractère personnel dans le but d'empêcher irréversiblement l'identification des personnes concernées. Il est important de considérer "l'ensemble des moyens susceptibles d'être raisonnablement mis en oeuvre", défini par le Parlement européen comme "l'ensemble des facteurs objectifs, tels que le coût de l'identification et le temps nécessaire à celle-ci, en tenant compte à la fois des technologies disponibles au moment du traitement et de l'évolution de celles-ci".
Technique
La suppression de l'identifiant direct (variable qui identifie directement la personne : prénom + nom, numéro de Sécurité Sociale, etc.) ne suffit pas à anonymiser une base de données. Dans les années 1990, une entreprise américaine de santé a par exemple rendu publiques des données censées être anonymisées. Les noms des personnes avaient été effacées, mais l'ensemble contenait encore des informations médicales et d'autres attributs (comme le code postal). Un chercheur est parvenu à identifier les données, en croisant cette base avec les listes électorales. Il a montré que 80% des personnes concernées étaient identifiables à partir du seul triplet {code postal - date de naissance - sexe}. Ces attributs qui permettent, une fois combinés, d'identifier un individu, sont appelés quasi-identifiants. Leur combinaison est appelé clé d'identification. Gardons donc à l'esprit que l'anonymisation est un processus complexe visant à réduire le risque d'identification de données tout en conservant la plus grande précision de données possible.
La littérature sur le sujet distingue trois types de risque que doit prendre en compte l'anonymisation :
- la révélation d'identité (record linkage), i.e. identifier un individu grâce à sa clé d'identification.
- la révélation d'attribut (attribute linkage), i.e. attribuer à une clé d'identification partagée par plusieurs individus une information sensible.
- la révélation par inférence (probalistic attack), i.e. déduire de la base de données la distribution d'une variable sensible associée à une certaine clé d'identification différente de celle de la population globale.