Guide de l'anonymisation - SGMAP-AGD/anonymisation GitHub Wiki

Il existe deux grandes approches d'anonymisation :

  • La randomisation, qui altère la véracité des données afin d'affaiblir le lien entre les données et l'individu et de rendre les données suffisamment incertaines afin qu'elles ne puissent plus être rattachées à un individu en particulier. Méthodes : ajout de bruit, permutation, confidentialité différentielle.
  • La généralisation, qui dilue les attributs des personnes concernées en modifiant leur échelle ou leur ordre de grandeur respectif (en passant d'une échelle communale à une échelle régionale, par exemple). Méthodes : k-anonymisation, l-diversité, t-proximité.

Ce guide de l'anonymisation détaille ces différentes approches.

Attention, la pseudonymisation, qui consiste à retirer toute variable directement identifiante, n'est pas considérée comme une technique d'anonymisation. Dès lors qu'il existe une table de correspondance entre un numéro et l'identification d'une personne, les jeux de données comportant le numéro d'identification ne sont pas considérés comme anonymes. En cas de recours à un algorithme de hachage, il est nécessaire que celui-ci fasse intervenir un secret, lui-même détruit dans un délai qui n’a pas encore été défini par la Commission. La position du G29 est que cela n’est pas de l’anonymisation.

I. Anonymisation par généralisation

a. La k-anonymisation

Cette technique répond au risque de révélation d'identité : elle vise à empêcher qu'une personne associée à une clé d'identification puisse être isolée, en la regroupant avec, au moins, k individus. Pour ce faire, les valeurs des attributs sont généralisées dans une mesure telle que tous les individus partagent la même clé d'identification. Généraliser signifie en fait "enlever un degré de précision" à certains champs. Par exemple, en abaissant la granularité géographique d'une ville à une région, on inclut un nombre plus élevé de personnes concernées. La généralisation peut être globale (remplacement de toutes les villes par la région correspondante) ou locale (on ne remplace que les petites villes par leur région, on conserve les grandes villes où il y a au moins k lignes - capitales, métropoles etc.).
Le k-anonymat ne protège cependant pas d'attaques par interférence. En effet, si trois individus présentent la même clé d'identification et la même variable critique, alors on pourra inférer que cette classe d'équivalence est associée à cette variable critique dans tous les cas.

b. La l-diversité

La l-diversité étend le k-anonymat pour faire en sorte qu'il ne soit plus possible d'obtenir des résultats certains au moyen d'attaques par inférence, en veillant à ce que dans chaque classe d'équivalence, chaque attribut ait au moins l valeurs différentes. Si cette technique permet de bien se prémunir de tentatives de révélation par inférence quand les valeurs des attributs sont bien distribuées, il faut souligner qu'elle n'empêche pas les fuites d'information si les attributs au sein d'un segment sont distribués de manière inégale. La l-diversité se prête dans ce cas à des attaques par révélation d'attribut (risque de corrélation).

II. Anonymisation par randomisation

a. Ajout de bruit

L'ajout de bruit consiste à modifier des attributs dans l'ensemble des données pour les rendre moins précis, tout en conservant la distribution générale. Par exemple, la taille d'un individu, mesurée au centimètre près, peut être présentée avec une précision de +/- 10 cm seulement. Les enregistrements demeurent potentiellement identifiables, mais sont moins fiables.

Des chercheurs ont étudié les propriétés d'une base de données Netflix,composée de plus de 100 millions d'évaluations, sur une échelle de 1 à 5, attribuées à plus de 18 000 films par près de 500 000 utilisateurs, rendue publique avoir subi un traitement d'anonymisation par suppression des identifiants. Un bruit avait été ajouté (évaluations légèrement augmentées ou diminuées). Malgré ces précautions, 99% des enregistrements ont pu être identifiés de manière unique, en prenant comme critères 8 évaluations et des dates comportant une marge d'erreur de 14 jours.

b. Permutation

La permutation peut être considérée comme une forme spéciale d'ajout de bruit. Dans une technique de bruit classique, les attributs sont modifiés au moyen de valeurs aléatoires. Mais la permutation n'est pas toujours aussi efficace qu'il n'y paraît : dans le cas d'un ensemble de données "motifs d'hospitalisation/symptômes/service concerné", par exemple, les valeurs sont dans la plupart des cas liées et la permutation d'une seule des trois valeurs est facilement détectée voire réversible.

c. Confidentialité différentielle

Le principal avantage de la confidentialité différentielle tient au fait que des ensembles de données sont communiques à des tiers en réponse à une demande spécifique, plutôt que d'être publiés sous la forme d'un unique ensemble de données : les aperçus anonymisés sont produits au moyen d'un sous-ensemble de requêtes à l'intention d'un tiers. Le sous-ensemble comprend un bruit aléatoire délibérément ajouté a posteriori. Cette technique ne modifie donc pas les données originales - le responsable du traitement des données reste donc en mesure d'identifier des individus dans les résultats des requêtes de confidentialité différentielle.

III. Les sondages

IV. Les outils déjà existants

Voir la page dédiée aux outils.