Thèse de Sara TAKI - SDS
Sujet de la thèse : Linked Data Sanitization with Differential Privacy
Début de la thèse : 01/09/2020
Soutenance : 21/12/2023
Directeur de thèse : Benjamin NGUYEN
Co-encadrant de thèse : Cédric EICHLER
Résumé :
Cette thèse étudie le problème de la protection de la vie privée dans le Linked Open Data (ou "LOD", en français "web des données ouvertes" ou encore "données liées ouvertes"). Ce travail se situe à l’intersection d’une longue série de travaux sur la confidentialité des données et le LOD. Notre objectif est d’étudier l’impact des aspects sémantiques sur la publication des données et sur les fuites éventuelles d’information. Nous considérons RDF comme le format de représentation du LOD et la confidentialité différentielle (DP) comme le principal critère de protection de la vie privée. La DP a été initialement conçue pour définir la confidentialité dans le domaine des bases de données relationnelle. Elle est basée sur une quantification de la difficulté pour un attaquant d’identifier, en observant le résultat d’un algorithme, quelle base de données parmis un voisinage a été utilisée pour le produire. Les objectifs de cette thèse sont au nombre de quatre: O1) améliorer la protection des données LOD. En particulier, proposer une approache permettant de construire des méchanismes DP utilisables sur RDF ; O2) étudier comment les définitions des voisinages sur les bases de données relationnelles en présence de contraintes de clés étrangères (FK) peuvent être traduites en RDF : O3) proposer de nouvelles définitions de voisinages sur des bases de données relationnelles équivalente à des notions existantes de voisinage sur les graphes (avec une sémantique précise) et O4) proposer un formalisme facilitant la conception et l’implémentation de mécanismes d’anonymisation de données RDF. Concernant O1, nous proposons une nouvelle approche basée sur la projection de graphes pour adapter le concept de DP à RDF. Pour O2, nous déterminons le modèle de protection qui correspond à la traduction de modèles déjà existants pour des bases de données relationnelles sous contraintes FK. Pour O3, nous introduisons le concept de restrict deletion neighborhood (voisinage d’effacement limité) équivalent en voisinage de type "typed-node" (noeud typé). Nous proposons également une relaxation de la définition permettant de traduite les voisinages "typed-outedge" (arc sortant typé). Pour O4, nous proposons un langage de transformation de graphes basé sur le concept de réécriture de graphes, qui sert de fondation pour construire divers mécanismes d’anonymisation sur des graphes attribués. L’ensemble de nos contributions théoriques ont été implémentées par des prototypes "preuve de concept" et ont été évalués sur des jeux de données réels, afin de montrer l’applicabilité de nos travaux à des cas d’usage réels