Cadre basé sur la blockchain pour générer et gérer des exemples non apprenants pour améliorer la confidentialité des données et le contrôle d’accès

Ruijia Li; Zijiao Zhang; Shouli Fu; Lin Zhu; Qunpeng Lei; Buwei Wang

doi:10.3791/68338

Research Article

Cadre basé sur la blockchain pour générer et gérer des exemples non apprenants pour améliorer la confidentialité des données et le contrôle d’accès

DOI:

10.3791/68338

⸱

August 22nd, 2025

Ruijia Li¹ , Zijiao Zhang¹ , Shouli Fu¹ , Lin Zhu¹ , Qunpeng Lei¹ , Buwei Wang¹

¹School of Cyberspace Security, Zhengzhou University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cet article propose un cadre basé sur la blockchain pour générer des exemples non apprenants, en intégrant la perturbation dynamique avec le contrôle d’accès. Il renforce la protection de la vie privée en veillant à ce que les utilisateurs non autorisés reçoivent des données perturbées, protégeant ainsi les informations sensibles tout en permettant une gestion efficace des données et un accès par le biais de contrats intelligents.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dans le contexte du développement rapide des grands modèles de langage (LLM), l’apprentissage contrastif est devenu largement adopté en raison de sa capacité à contourner l’annotation de données coûteuse en exploitant de grandes quantités de données de réseau pour l’entraînement des modèles. Cependant, cette utilisation généralisée soulève des préoccupations importantes en matière de protection de la confidentialité des données. Les exemples non apprenants, une technique qui perturbe l’apprentissage des modèles en perturbant les données, empêchent efficacement les modèles non autorisés d’utiliser à mauvais escient des données sensibles. Cependant, les méthodes existantes de génération d’UE se heurtent à deux défis principaux : premièrement, les perturbations peuvent être inversées à l’aide de techniques telles que la purification inverse ou le débruitage, y compris des modèles de diffusion qui éliminent les perturbations protectrices dans les UE d’images ; Deuxièmement, une fois les données publiées, il devient difficile d’assurer la traçabilité des données et de gérer le contrôle d’accès. Pour résoudre ces problèmes, cet article propose un cadre de génération et de gestion d’exemples inapprenants intégrés à la blockchain (B-UEGMF) pour la génération et la gestion des UE. En exploitant les propriétés décentralisées et immuables de la blockchain, nous stockons des exemples de valeurs de hachage sur la blockchain et gérons dynamiquement les droits d’accès aux données par le biais de contrats intelligents. De plus, les UE sont générées à l’aide d’une technique de perturbation multi-objectif, le bruit dynamique minimisant les erreurs (DEM), qui améliore la robustesse contre les méthodes d’inversion. Nous fournissons également une évaluation quantitative des capacités de protection de la vie privée des exemples générés. Les résultats expérimentaux démontrent que le cadre proposé a considérablement amélioré la défense des UE contre les attaques inverses tout en assurant une gestion efficace de la confidentialité des données.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ces dernières années, avec les progrès rapides de l’apprentissage profond et des grands modèles de langage, l’apprentissage contrastif est apparu comme une approche d’apprentissage non supervisé efficace en raison de son indépendance vis-à-vis des annotations manuelles coûteuses ^1,2. Cependant, l’utilisation intensive d’ensembles de données publics a soulevé d’importantes préoccupations concernant les atteintes à la vie privée et l’utilisation abusive des données. Les cas d’utilisation non autorisée de données accessibles au public pour l’entraînement de modèles sont devenus de plus en plus fréquents³. Par exemple, en 2017, des photographies publiques non autorisées ont été utilisées pour former des modèles de reconnaissance faciale⁴. De même, Amazon a utilisé les données des avis publics des consommateurs pour former ses systèmes de recommandation sans obtenir le consentement explicite de tous les utilisateurs, exposant ainsi des vulnérabilités dans les mécanismes de protection de la vie privée⁵.

Pour résoudre ces problèmes, les exemples non apprenants (UE) sont apparus comme une nouvelle technique de protection de la confidentialité des données. Les UE ajoutent des perturbations imperceptibles aux échantillons de données, introduisant un raccourci qui empêche les modèles d’apprendre des informations sensibles tout en préservant la perception humaine des données ^6,7,8. Les méthodes existantes pour générer des UE comprennent principalement les perturbations de bruit minimisant les erreurs (EM)⁹, la génération de perturbations par des réseaux antagonistes génératifs (GAN)¹⁰, le bruit robuste minimisant les erreurs (REM) et le bruit stable minimisant les erreurs (SEM) optimisé par l’entraînement contradictoire^11,12. De plus, des modèles de diffusion ont récemment été appliqués pour générer un bruit d’étiquette incorrect, ce qui renforce encore la protection de la vie privée¹³.

Malgré des progrès significatifs dans la génération d’UE, plusieurs défis subsistent, en particulier dans les applications du monde réel où les effets de ces méthodes sur la protection de la vie privée n’ont pas été pleinement validés. Plus précisément, les principaux défis sont les suivants :
Problèmes de restauration : Les modèles de diffusion peuvent récupérer partiellement des exemples non apprissables en prédisant et en supprimant les perturbations intégrées dans les données, rétablissant ainsi la capacité d’apprentissage et compromettant la protection de la vie privée^14,15. Même lorsque les données sont perturbées pendant la formation, des informations sensibles peuvent toujours être divulguées après la restauration.
Traçabilité des données et contrôle d’accès : une fois que les exemples non apprenants sont publiés, les mécanismes efficaces permettant de retracer leur origine et d’appliquer des restrictions d’accès restent techniquement difficiles¹⁶.
Équilibre entre la protection de la vie privée et la performance du modèle : Bien que les méthodes existantes se concentrent sur la génération d’exemples non apprenants pour protéger la vie privée, le maintien d’un équilibre entre la protection de la vie privée et la performance de l’entraînement du modèle n’est pas résolu 17,18,19. La plupart des recherches actuelles privilégient la protection de la vie privée, mais accordent peu d’attention à l’atténuation de la dégradation des performances pendant l’entraînement du modèle^20,21. Par conséquent, l’accès et l’utilisation des données sont devenus des préoccupations cruciales en matière de protection de la vie privée²².

Bien que les solutions centralisées et les environnements d’exécution de confiance (TEE) offrent des approches alternatives au contrôle d’accès aux données, ils sont confrontés à des limites inhérentes aux scénarios médicaux/juridiques : (1) les systèmes centralisés introduisent des points de défaillance uniques et une dépendance à l’audit²³ ; (2) Les TEE nécessitent du matériel spécialisé et manquent de consensus décentralisé²⁴. La blockchain s’impose comme la solution optimale car ses propriétés de registre immuables répondent directement à trois exigences essentielles pour la gestion de l’UE : la conformité prouvable aux réglementations de gouvernance des données (par exemple, les pistes d’audit HIPAA), le contrôle d’accès résistant à la censure dans les environnements multi-institutions et le suivi granulaire de la provenance par le biais de transactions horodatées 25,26,27.

Notre cadre a démontré des performances optimales pour des ensembles de données à moyenne échelle avec une accélération GPU, réalisant une génération de perturbations en temps réel. Bien que les opérations de blockchain introduisent des frais généraux mesurables, ce compromis est justifié dans les scénarios nécessitant des journaux d’accès immuables, tels que la recherche médicale multi-institutionnelle ou les marchés de données réglementés. Le système évolue linéairement en fonction de la taille de l’ensemble de données, mais nécessite ≥16 Go de RAM et des processeurs à 4 cœurs pour un fonctionnement stable, ce qui le rend moins adapté aux périphériques de périphérie aux ressources limitées.

Pour relever ces défis, cet article propose un cadre de génération et de gestion d’exemples non apprenants intégré à la blockchain (B-UEGMF). La blockchain, en tant que technologie de registre distribué décentralisée et immuable, enregistre efficacement les hachages d’accès aux données et gère dynamiquement les autorisations d’accès par des contrats intelligents, améliorant ainsi les capacités de protection de la vie privée des exemples non apprenants^28,29. Dans ce cadre, les utilisateurs autorisés peuvent accéder à des données propres, tandis que les utilisateurs non autorisés ne peuvent accéder qu’à des exemples non apprenants générés dynamiquement. Pour résoudre les problèmes existants, cet article présente une nouvelle méthode de génération de bruit dynamique minimisant les erreurs (DEM). En intégrant des informations spécifiques au client et des paramètres temporels, le DEM intègre dynamiquement des perturbations dans les données, générant des perturbations uniques pour chaque demande de données et garantissant à la fois la confidentialité et la non-applicabilité des données. Le processus de génération de MNE est illustré à la figure 1. Les principales contributions de ce document sont les suivantes :
Traçabilité dynamique et gestion des accès : Ce document aborde les problèmes de traçabilité et de contrôle d’accès associés à la publication d’exemples non apprenants en proposant le cadre B-UEGMF. La nature décentralisée de la blockchain résout le problème des tiers de confiance dans les systèmes traditionnels, tandis que sa transparence permet des journaux d’accès vérifiables sans exposer les données brutes. En tirant parti de la transparence et de l’immuabilité de la blockchain, combinées au contrôle d’accès dynamique rendu possible par les contrats intelligents, le cadre garantit que les utilisateurs non autorisés ne peuvent pas récupérer ou diffuser des données propres, améliorant ainsi considérablement la sécurité des données.

Mécanisme de génération de perturbations dynamiques : Un schéma de génération dynamique d’exemples inapprenants est introduit, où les contrats intelligents gèrent les demandes de différents clients. Les perturbations DEM sont générées dynamiquement pour les demandes client non autorisées en fonction des informations spécifiques au client et des paramètres temporels. Cela garantit que les effets de perturbation varient d’une demande à l’autre, renforçant ainsi la résistance aux méthodes de suppression du bruit basées sur la diffusion et limitant les utilisateurs non autorisés à accéder simultanément à des ensembles de données à grande échelle.

Les expériences menées sur les ensembles de données CIFAR-10, CIFAR-100 et ImageNet démontrent que le DEM surpasse les méthodes existantes (p. ex., EM, TAP et SEM) en termes de protection de la vie privée et de résistance aux attaques de rétro-ingénierie, comme le démontre la figure 2, tout en améliorant la résistance aux attaques de suppression du bruit de 57 % par rapport à EM et de 25 % par rapport à SEM, comme le démontre la figure 3. soulignant son applicabilité potentielle dans des scénarios réels.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Coup monté
Nous avons considéré une tâche de classification supervisée avec un ensemble figure-protocol-1 de données , où figure-protocol-2 représente les caractéristiques d’entrée et figure-protocol-3 désigne les étiquettes de classe correspondantes pour un problème de classe K. Le jeu de données D est divisé en un jeu de données d’entraînement propre et un jeu de données de test.

L’objectif est de modifier le jeu de données d’entraînement propre en introduisant de petites perturbations imperceptibles δ de créer un ensemble figure-protocol-4 de données non apprenant , où figure-protocol-5 + δ. La perturbation δ est limitée par figure-protocol-6 , ce qui garantit qu’elle ne modifie pas de manière significative l’utilité normale des données. L’objectif clé est de perturber l’apprentissage en forçant le modèle f_θ, entraîné sur _Du, à se concentrer sur des motifs non pertinents induits par le bruit plutôt que sur les caractéristiques significatives, ce qui entraîne une mauvaise généralisation sur un ensemble de données de test propre :

figure-protocol-7

Simulation d’un environnement blockchain
Pour installer des outils blockchain, le framework Hardhat est utilisé pour simuler un réseau Ethereum sur un environnement local afin de déployer des contrats intelligents et de tester la génération d’exemples non apprenants. Pour lancer un réseau local, un réseau blockchain simulé avec plusieurs nœuds et comptes est initialisé. Chaque nœud se voit allouer des ressources comme l’Ether pour faciliter les simulations de transactions. Pour développer des contrats intelligents, ils sont mis en œuvre pour gérer dynamiquement les autorisations des utilisateurs. Les utilisateurs autorisés peuvent accéder aux données propres, tandis que les utilisateurs non autorisés sont limités à l’accès aux exemples non apprenants. Tout d’abord, configurez un environnement de développement basé sur Node.js v16.x et Hardhat 2.8.4, et utilisez le compilateur Solidity 0.8.17 pour terminer la compilation et l’optimisation du contrat intelligent. Le processus de compilation est exécuté par la ligne de commande à l’aide de npx hardhat compile pour générer des artefacts de build contenant l’ABI et le bytecode. Par la suite, déployez le contrat sur le réseau de test Sepolia en exécutant le script de déploiement npx hardhat run scripts/deploy.js --network sepolia, puis enregistrez l’adresse du contrat de sortie et le hachage de la transaction de déploiement. Au cours de la phase de test de performance, trois tests de base sont exécutés de manière séquentielle : le test du coût de transaction enregistre la consommation de gaz en invoquant de manière cyclique la méthode grantAccess du contrat ; le test de débit utilise l’outil Artillerie pour simuler les demandes des utilisateurs avec une charge croissante ; Les transactions de test et de validation, y compris le stockage et la récupération des données, sont effectuées pour valider la fonctionnalité du contrat intelligent.

Construction d’utilisateurs on-chain et de mécanismes d’autorisation
Les comptes d’utilisateurs uniques sont générés à l’aide de portefeuilles blockchain (par exemple, MetaMask), chacun comprenant une clé privée et une clé publique. La mise en œuvre du prototype utilise un environnement de blockchain simulé où les entités d’utilisateurs synthétiques téléchargent des ensembles de données accessibles au public sur le système décentralisé, en stockant uniquement les valeurs de hachage cryptographiques sur le registre distribué. Cela garantit l’intégrité des données sans stocker les données réelles sur la chaîne, ce qui serait inefficace et coûteux. Les données réelles sont stockées hors chaîne, généralement à l’aide de systèmes de stockage décentralisés tels que IPFS, ce qui garantit une gestion efficace des données tout en préservant la sécurité et la confidentialité. Pour les jetons non fongibles (NFT) et le contrôle d’accès, cette étude met en œuvre un mécanisme de contrôle d’accès à grain fin utilisant des NFT conformes à la norme ERC-721. Chaque ensemble de données d’exemples non apprenants est associé à un tokenId unique, qui agit comme une clé pour accéder aux données. Les utilisateurs demandent l’accès en soumettant des preuves Merkle. Ces preuves vérifient l’identité de l’utilisateur de manière sécurisée et décentralisée. Une fois la preuve validée, le contrat frappe un NFT unique et le transfère dans le portefeuille de l’utilisateur. Ce NFT représente le droit de l’utilisateur d’accéder aux données associées à cet exemple spécifique non apprenant. L’utilisation de NFT garantit que seuls les utilisateurs autorisés peuvent accéder aux données, sur la base d’un enregistrement décentralisé et immuable. Cela contraste avec le contrôle d’accès basé sur les rôles (RBAC) traditionnel, qui fonctionne généralement au niveau du groupe et peut ne pas fournir la granularité nécessaire pour les applications de haute sécurité³⁰.

Le contrat intelligent vérifie en permanence les autorisations d’accès via la fonction ownerOf, en vérifiant la propriété du NFT pour s’assurer que seuls les utilisateurs autorisés peuvent accéder aux données propres. Les administrateurs peuvent révoquer l’accès en détruisant le NFT via la fonction revokeAccess, ce qui garantit une flexibilité dans la gestion de l’accès des utilisateurs au fil du temps. Le flux de travail opérationnel se compose de quatre étapes critiques : (1) les utilisateurs soumettent des demandes d’accès contenant des preuves de Merkle ; (2) le contrat vérifie la validité de ces preuves ; (3) une fois la validation réussie, le contrat frappe le NFT correspondant ; (4) les utilisateurs récupèrent des données chiffrées à l’aide de l’identifiant de contenu (CID) IPFS intégré aux métadonnées du NFT. En tirant parti des NFT, nous obtenons plusieurs avantages par rapport aux mécanismes de contrôle d’accès traditionnels, tels qu’un contrôle d’autorisation précis (au niveau des données ou au niveau du groupe), une meilleure capacité d’audit (enregistrements immuables sur la chaîne) et la transférabilité des autorisations (transactions sur le marché NFT).

Des contrats multi-signatures sont mis en œuvre pour mettre à jour le hachage racine de Merkle, empêchant ainsi la falsification non autorisée des données. Le système intègre des mécanismes anti-Sybil en liant chaque ensemble de données à un tokenId unique, garantissant ainsi que les acteurs malveillants ne peuvent pas générer de jetons frauduleux pour accéder à des données non autorisées. Les UE sont chiffrés à l’aide d’AES-256 avant d’être téléchargés sur le réseau IPFS (InterPlanetary File System). Les hachages de données cryptés sont stockés sur la chaîne, tandis que les ensembles de données complets restent sur IPFS, ce qui réduit la surcharge de stockage de la blockchain. L’approche hybride consistant à combiner le stockage on-chain et off-chain établit un équilibre entre la garantie de la disponibilité des données et la réduction des coûts de stockage, une préoccupation courante dans les applications basées sur la blockchain.

Les contrats intelligents sont utilisés pour gérer dynamiquement les autorisations des utilisateurs. Chaque utilisateur n’a accès à des données propres que s’il détient le NFT approprié, qui sert de jeton d’autorisation. Les contrats intelligents enregistrent tous les accès aux données dans des journaux d’événements, offrant ainsi une traçabilité complète. Ces journaux sont immuables et peuvent être audités, offrant transparence et responsabilité. Le contrat intelligent utilise la fonction grantAccess pour valider les demandes d’accès. Le contrat vérifie si l’utilisateur détient le NFT approprié et, s’il est valide, lui donne accès aux données demandées. Chaque événement d’accès est enregistré sur la blockchain, ce qui garantit que toutes les activités de récupération de données sont vérifiables. Chaque événement d’accès aux données est enregistré en temps réel par le contrat intelligent, ce qui déclenche un événement AccessGranted. Cet événement contient des informations importantes telles que l’adresse du portefeuille de l’utilisateur, l’horodatage de l’accès et le tokenId NFT correspondant. La nature dynamique des contrats intelligents permet une gestion en temps réel des autorisations. Ceci est particulièrement utile dans les applications décentralisées, où le contrôle d’accès doit être très flexible et adaptable aux conditions changeantes.

Pour répondre aux préoccupations de confidentialité dans les environnements publics de blockchain, le système stocke des vignettes basse résolution (par exemple, 64 x 64 pixels) sur la blockchain, tandis que les images originales haute résolution sont cryptées et stockées hors chaîne sur IPFS. Seuls les utilisateurs autorisés qui possèdent le NFT correspondant peuvent récupérer les clés de décryptage permettant d’accéder aux données haute résolution. Les utilisateurs non autorisés reçoivent des versions des données avec des perturbations DEM en temps réel, ce qui garantit qu’ils ne peuvent pas accéder aux données d’origine.

Générer une perturbation d’image
Chargez des ensembles de données CIFAR10, CIFAR100 et ImageNet. Les images des ensembles de données sont uniformément redimensionnées et converties en tenseur PyTorch, et le tenseur de l’image est normalisé à l’aide de la moyenne et de l’écart-type. Initialisez un bruit aléatoire δ¹, en utilisant une distribution gaussienne pour générer la perturbation initiale. Un bruit aléatoire est appliqué à chaque image x, et la perte entre l’étiquette cible et la prédiction du modèle est calculée en fonction de la perte d’entropie croisée. Dans un ensemble de données de classe C, pour un échantillon i, y_i est la valeur de l’étiquette cible, p_i est la probabilité de prédiction du modèle, qui quantifie la différence entre la distribution de probabilité prédite par le modèle et l’étiquette réelle, en maximisant la perte de sorte que le modèle produit de fausses prédictions. La perte d’entropie croisée est de :

figure-protocol-8

L’influence de la perturbation de l’image sur la prédiction calculée en fonction de la fonction de perte, la propagation inverse met à jour la perturbation, et la plage de perturbation et la valeur de la perturbation sont constamment mises à jour par le biais de plusieurs itérations. Pour le taux d’apprentissage η, la formule de mise à jour de la perturbation est la suivante :

figure-protocol-9

Générer des perturbations de texte
Chargez des modèles BERT pré-entraînés pour générer des plongements de texte. Un réseau TextFeatureExtractor personnalisé composé de deux blocs Transformer et d’une couche entièrement connectée est utilisé pour extraire des entités à partir d’intégrations de texte générées par des modèles BERT. Entrez les informations utilisateur et l’horodatage de l’utilisateur d’accès dans le modèle BERT pré-entraîné et générez dynamiquement du bruit de texte via le réseau TextFeatureExtractor personnalisé.

L’image d’entrée I est introduite dans le modèle multimodal Qwen2.5-VL-7B-Instruct. Guidé par une invite structurée, le modèle génère une description textuelle concise T_q. Ce texte généré T_q est entré dans le modèle de langage pré-entraîné BERT-base-uncased. Grâce à des invites de réécriture spécifiques à une tâche, le système génère du texte figure-protocol-10 perturbé qui préserve la sémantique tout en modifiant l’expression. Un réseau TextFeatureExtractor mappe le texte figure-protocol-11 perturbé dans un vecteur d’incorporation sémantique de haute dimension E_g.

Générer des perturbations multi-cibles
Pour assurer la compatibilité entre les plongements de texte et les perturbations d’image, nous ajustons la forme de l’intégration de texte pour qu’elle corresponde aux dimensions de la perturbation d’image. Soit E_T et E_q les plongements de texte, et P_L la perturbation de l’image. Le processus de remodelage garantit que E_T et E_q sont transformés à la même dimensionnalité que P_L : figure-protocol-12 , où C, H, W sont les dimensions de P_L. Définissez un module de fusion attention-mécanisme qui fusionne les perturbations d’intégration de texte et les perturbations d’image, en ajustant dynamiquement les perturbations en fonction des poids d’attention du texte. La fusion est :

figure-protocol-13

où α est l’ajustement dynamique des paramètres du mécanisme d’attention. δ^T est la perturbation du texte générée par le E_q et le E_T. Ajouter un terme de régularisation au processus de formation pour éviter le surapprentissage. Le terme de régularisation est la norme L2 de l’encastrement du texte, qui pénalise les perturbations. La fonction de perte multi-objectif combine la perte d’entropie croisée et la perturbation de fusion, et la fonction de perte multi-objectif est la suivante :

figure-protocol-14

Les objectifs de la fonction de perte sont les suivants :

figure-protocol-15

où λ est un coefficient de régularisation utilisé pour contrôler la force de pénalité de la perturbation, dans le but d’inhiber une perturbation excessive ou un surapprentissage. Dans l’étude des attaques adverses, il a été constaté que figure-protocol-16 c’est la limite de perturbation perceptible à l’œil humain. Le processus d’entraînement et d’évaluation est défini, y compris la génération de perturbations, le calcul des pertes, l’entraînement du modèle, etc.

Expériences comparatives
Nous avons effectué une évaluation complète du bruit dynamique minimisant les erreurs (DEM) proposé par rapport à trois méthodes existantes : le bruit minimisant les erreurs (EM), les perturbations antagonistes transférables (TAP) et le bruit stable minimisant les erreurs (SEM). Ces méthodes ont été testées sur trois ensembles de données de référence : CIFAR-10, CIFAR-100 et un sous-ensemble d’ImageNet, à l’aide de quatre architectures de réseaux neuronaux largement adoptées : VGG-16, ResNet-18, ResNet-50 et DenseNet-121, afin d’assurer diverses conditions expérimentales.

De plus, nous avons examiné la robustesse de ces méthodes en appliquant des modèles de débruitage basés sur la diffusion pour éliminer le bruit défensif et en mesurant la précision des exemples débruités sur les ensembles de données de test. Cette étape visait à évaluer la capacité de chaque méthode à résister aux attaques de récupération et à maintenir l’intégrité de la confidentialité des données dans des conditions contradictoires. Les résultats indiquent que notre MNT surpasse les autres méthodes en termes de robustesse et de précision sur tous les ensembles de données et architectures, démontrant ainsi son efficacité en tant que cadre de préservation de la vie privée.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Blockchain et cadre des contrats intelligents
Les résultats expérimentaux ont démontré que le cadre de génération et de gestion d’exemples inapprenants intégré à la blockchain (B-UEGMF), combiné à des contrats intelligents, permettait une gestion dynamique efficace de l’accès aux données spécifique au client. Pour les utilisateurs autorisés, les données propres récupérées ont atteint une précision de test de 90,2 % sur un modèle de substitution ResNet-18 évalué sur l’ensemble de données CIFAR-10. En r...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L’intégration de la blockchain et des UE a fait progresser le domaine de la protection de la confidentialité des données en fournissant une solution transparente et décentralisée de gestion de l’accès aux données. Contrairement aux méthodes conventionnelles de préservation de la vie privée, qui reposent souvent uniquement sur des techniques de perturbation³¹, cette étude comble le fossé entre la protection des données et le traçage des responsabilités. Dans les sc...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les auteurs n’ont rien à divulguer en rapport avec cette publication.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ce travail a été soutenu par l’École de sécurité du cyberespace de l’Université de Zhengzhou, qui a fourni un excellent environnement de recherche et des ressources universitaires. Nous sommes profondément reconnaissants à notre superviseur, le professeur Zijiao Zhang, pour ses précieux conseils, ses suggestions perspicaces et ses encouragements continus tout au long de cette recherche. Nous adressons également nos sincères remerciements au Centre de gestion du réseau de l’Université de Zhengzhou pour avoir fourni des serveurs expérimentaux, des ressources de calcul haute performance et une infrastructure de banc d’essai blockchain, qui ont été essentiels à la réussite de la mise en œuvre de cette étude.

Contribution de l’auteur :
Ruijia Li a conçu l’étude, développé la méthodologie, mené des expériences, effectué l’analyse des données et rédigé le manuscrit original. Zijiao Zhang a assuré la supervision, la validation de la méthodologie et l’examen critique du manuscrit. Shouli Fu a contribué aux conseils de mise en œuvre de la blockchain. Lin Zhu a aidé à la conservation et à la validation des données. Qunpeng Lei a contribué à l’élaboration du cadre théorique. Buwei Wang a fourni un soutien technique. Tous les auteurs ont examiné et approuvé le manuscrit final.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Comments
CUDA 12.1	NVIDIA	Utilisé pour améliorer les performances des applications de deep learning
NVIDIA A800 80 Go PCIe A800 80 Go PCIe	NVIDIA	Utilisé pour l’entraînement de modèles de Deep Learning
Python 3.10	Fondation du logiciel Python	Utilisé pour le prétraitement et l’analyse des données
PyTorch 2.5.1	Sur Facebook	Cadre d’apprentissage profond utilisé pour l’entraînement des modèles
Ubuntu 22.04	Canonique	Système d’exploitation utilisé pour la configuration de l’environnement

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Multi-level Cross-view Contrastive Learning for Knowledge-aware Recommender System. Zou, D., Chen, Y., Wang, X. Proc 45th Int ACM SIGIR Conf Res Dev Info Retrieval, , 1358-1368 (2022).
A simple framework for contrastive learning of visual representations. Chen, T., Kornblith, S., Norouzi, M., Hinton, G. Proc 37th Int Conf Mach Learn, 119, 1597-1607 (2020).
Guo, J., et al. Domain watermark: Effective and harmless dataset copyright protection is closed at hand. arXiv. , (2023).
Hill, K. The Secretive Company That Might End Privacy as We Know It. , The New York Times. (2020).
Prabhu, V. U., Birhane, A. Large Image Datasets: A Pyrrhic Win for Computer Vision. arXiv. , (2020).
Unlearnable examples detection via iterative filtering. Yu, Y., Jiang, X., Wang, Y. Proc Int Conf Artificial Neural Net, , 241-256 (2024).
Jiang, Y., Ma, X., Erfani, S. M., Bailey, J. Unlearnable examples for time series. Adv Knowledge Disc Data Mining. , 213-225 (2024).
Unlearnable clusters: Towards label-agnostic unlearnable examples. Zhang, J., Liu, Y., Zhou, Q. Proc IEEE/CVF Conf Comput Vision Pattern Recognit, , 3984-3993 (2023).
Unlearnable examples: Making personal data unexploitable. Huang, H., Ma, X., Erfani, S. M., Bailey, J., Wang, Y. Int Conf Learning Representat, , 1-17 (2021).
Game-theoretic unlearnable example generator. Liu, S., Wang, Y., Gao, X. S. Proc AAAI Conf Artificial Intellig, 38, 21349-21358 (2024).
Robust unlearnable examples: Protecting data privacy against adversarial learning. Fu, S., He, F., Liu, Y., Shen, L., Tao, D. ICLR 2022 Proc Int Conf Learning Representat, , 1-22 (2022).
Stable unlearnable example: Enhancing the robustness of unlearnable examples via stable error-minimizing noise. Liu, S., Xu, K., Sun, L. Proc AAAI Conf Artificial Intellig, 37, 2473-2481 (2023).
Defensive unlearning with adversarial training for robust concept erasure in diffusion models. Zhang, Y., et al. NeurIPS 2024 Proc 38th Conf Neural Informat Process Syst, , 1-29 (2024).
Unlearnable examples give a false sense of security: Piercing through unexploitable data with learnable examples. Jiang, W., et al. MM 2023 Proc 31st ACM Int Conf Multimedia, , 8910-8921 (2023).
VQUNet: Vector quantization U-Net for defending adversarial attacks by regularizing unwanted noise. He, Z., Singhal, M. ICMVA 2024 Proc 2024 7th Int Conf Machine Vis Applicat, , 69-76 (2024).
Li, Z., et al. UnGANable: Defending Against GAN-based Face Manipulation. 32nd USENIX Secur Sympos. , 7213-7230 (2023).
Narcissus: A Practical Clean-Label Backdoor Attack with Limited Information. Zeng, Y., et al. Proc 2023 ACM SIGSAC Conf Comput Communicat Secur, , 771-785 (2023).
Meng, R., Chen, J., Liu, Z. Semantic deep hiding for robust unlearnable examples. IEEE Transact Info Forens Secur. 19 (12), 6545-6558 (2024).
Detection and defense of unlearnable examples. Zhu, Y., Yu, L., Gao, X. S. Proc AAAI Conf Artif Intellig, 38 (15), 17211-17219 (2024).
Unlearnable examples: Protecting open-source software from unauthorized neural code learning. Ji, Z., Ma, P., Wang, S. Proc Int Conf Software Eng Knowledge Eng, , 525-530 (2022).
Purify unlearnable examples via rate-constrained variational autoencoders. Yu, Y., et al. ICML 2024 Proc 41st Int Conf Mach Learn, 2379, 57678-57702 (2024).
Triggerless backdoor attack for NLP tasks with clean labels. Gan, L., Zhang, W., Li, X. Proc 2022 Conf North Am Chapter Associat Computat Linguist Human Lang Technol, , 2942-2952 (2022).
Punia, A., et al. A systematic review on blockchain-based access control systems in cloud environment. J Cloud Comput. 13, 146(2024).
SoK: Understanding Design Choices and Pitfalls of Trusted Execution Environments. Li, M., Yang, Y., Chen, G., Yan, M., Zhang, Y. Proc 19th ACM Asia Conf Comput Commun Secur, , 1600-1616 (2024).
Kayikci, S., Khoshgoftaar, T. M. Blockchain meets machine learning: a survey. J Big Data. 11, 9(2024).
Ullah, F., et al. Blockchain-enabled EHR access auditing: Enhancing healthcare data security. Heliyon. 10 (16), e34407(2024).
Tripathi, G., Ahad, M. A., Casalino, G. A comprehensive review of blockchain technology: Underlying principles and historical background with future challenges. Dec Anal J. 9, 100344(2023).
Saleh, A. M. S. Blockchain for secure and decentralized artificial intelligence in cybersecurity: A comprehensive review. Blockchain Res Appl. 5 (3), 100193(2024).
Badra, M., Borghol, R. An efficient blockchain-based privacy preservation scheme for smart grids. Front Communicat Net. 6, 1584152(2025).
Fine-Grained Access Control in the Era of Cloud Computing: An Analytical Review. Albulayhi, K., Abuhussein, A., Alsubaei, F., Sheldon, F. T. 2020 10th Ann Comput Communicat Workshop Conf, , 0748-0755 (2020).
Turgay, S., İlter, İ Perturbation Methods for Protecting Data Privacy: A Review of Techniques and Applications. Automat Machine Learning. 4, 31-41 (2023).
Williamson, S. M., Prybutok, V. Balancing Privacy and Progress: A Review of Privacy Challenges, Systemic Oversight, and Patient Perceptions in AI-Driven Healthcare. Appl Sci. 14 (2), 675(2024).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Cadre basé sur la blockchain pour générer et gérer des exemples non apprenants pour améliorer la confidentialité des données et le contrôle d’accès

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles