Framework basato su blockchain per la generazione e la gestione di esempi non apprendibili per migliorare la privacy dei dati e il controllo degli accessi

Ruijia Li; Zijiao Zhang; Shouli Fu; Lin Zhu; Qunpeng Lei; Buwei Wang

doi:10.3791/68338

Research Article

Framework basato su blockchain per la generazione e la gestione di esempi non apprendibili per migliorare la privacy dei dati e il controllo degli accessi

DOI:

10.3791/68338

⸱

August 22nd, 2025

Ruijia Li¹ , Zijiao Zhang¹ , Shouli Fu¹ , Lin Zhu¹ , Qunpeng Lei¹ , Buwei Wang¹

¹School of Cyberspace Security, Zhengzhou University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo articolo propone un framework basato su blockchain per generare esempi non apprendibili, integrando la perturbazione dinamica con il controllo degli accessi. Migliora la protezione della privacy garantendo che gli utenti non autorizzati ricevano dati perturbati, salvaguardando le informazioni sensibili e consentendo una gestione efficiente dei dati e l'accesso tramite contratti intelligenti.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nel contesto del rapido sviluppo di modelli linguistici di grandi dimensioni (LLM), l'apprendimento contrastivo è stato ampiamente adottato grazie alla sua capacità di aggirare le costose annotazioni dei dati sfruttando grandi quantità di dati di rete per l'addestramento dei modelli. Tuttavia, questo uso diffuso solleva notevoli preoccupazioni per quanto riguarda la protezione della privacy dei dati. Gli esempi non apprendibili, una tecnica che interrompe l'apprendimento dei modelli perturbando i dati, impedisce efficacemente ai modelli non autorizzati di utilizzare in modo improprio i dati sensibili. Tuttavia, i metodi esistenti per generare UE devono affrontare due sfide principali: in primo luogo, le perturbazioni possono essere invertite utilizzando tecniche come la purificazione inversa o il denoising, compresi i modelli di diffusione che rimuovono le perturbazioni protettive nelle UE di immagine; In secondo luogo, una volta pubblicati i dati, garantire la tracciabilità dei dati e gestire il controllo degli accessi diventa difficile. Per affrontare questi problemi, questo articolo propone un Blockchain-Integrated Unlearnable Example Generation and Management Framework (B-UEGMF) per la generazione e la gestione degli UE. Sfruttando le proprietà decentralizzate e immutabili della blockchain, memorizziamo i valori hash di esempio sulla blockchain e gestiamo dinamicamente i diritti di accesso ai dati attraverso contratti intelligenti. Inoltre, gli UE vengono generati utilizzando una tecnica di perturbazione multi-obiettivo, il Dynamic Error-Minimizing Noise (DEM), che migliora la robustezza rispetto ai metodi di inversione. Forniamo anche una valutazione quantitativa delle capacità di protezione della privacy degli esempi generati. I risultati sperimentali dimostrano che il framework proposto ha migliorato significativamente la difesa delle UE contro gli attacchi inversi, garantendo al contempo una gestione efficiente della privacy dei dati.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Negli ultimi anni, con il rapido progresso del deep learning e dei modelli linguistici di grandi dimensioni, l'apprendimento contrastivo è emerso come un approccio efficiente all'apprendimento non supervisionato grazie alla sua indipendenza dalle costose annotazioni manuali ^1,2. Tuttavia, l'uso estensivo di set di dati pubblici ha sollevato notevoli preoccupazioni in merito alle violazioni della privacy e all'uso improprio dei dati. I casi di utilizzo non autorizzato di dati pubblicamente disponibili per l'addestramento dei modelli sono diventati sempre più comuni³. Ad esempio, nel 2017, sono state utilizzate fotografie pubbliche non autorizzate per addestrare i modelli di riconoscimento facciale⁴. Allo stesso modo, Amazon ha utilizzato i dati delle recensioni pubbliche dei consumatori per addestrare i suoi sistemi di raccomandazione senza ottenere il consenso esplicito di tutti gli utenti, esponendo le vulnerabilità nei meccanismi di protezione della privacy⁵.

Per affrontare questi problemi, gli Unlearnable Examples (UE) sono emersi come una nuova tecnica di protezione della privacy dei dati. Gli UE aggiungono perturbazioni impercettibili ai campioni di dati, introducendo una scorciatoia che impedisce ai modelli di apprendere informazioni sensibili preservando la percezione umana dei dati ^6,7,8. I metodi esistenti per la generazione di UE includono principalmente le perturbazioni EM (Error-Minimization Noise)⁹, la generazione di perturbazioni da parte di reti avversarie generative (GAN)¹⁰, il rumore REM (Error-Minimial Noise) robusto e il rumore SEM (Stable Error-Minimizing Noise) ottimizzati attraverso l'addestramento avversario^11,12. Inoltre, di recente sono stati applicati modelli di diffusione per generare un rumore errato dell'etichetta, migliorando ulteriormente la protezione della privacy¹³.

Nonostante i progressi significativi nella generazione di UE, rimangono diverse sfide, in particolare nelle applicazioni del mondo reale in cui gli effetti di protezione della privacy di questi metodi non sono stati completamente convalidati. In particolare, le sfide principali includono:
Problemi di ripristino: i modelli di diffusione possono recuperare parzialmente gli esempi non apprendibili prevedendo e rimuovendo le perturbazioni incorporate nei dati, ripristinando così l'apprendibilità e compromettendo la protezione della privacy^14,15. Anche quando i dati vengono alterati durante l'addestramento, le informazioni sensibili possono comunque essere divulgate dopo il ripristino.
Tracciabilità dei dati e controllo degli accessi: una volta rilasciati gli esempi non apprendibili, i meccanismi efficaci per rintracciarne l'origine e far rispettare le restrizioni di accesso rimangono tecnicamente impegnativi¹⁶.
Bilanciare la protezione della privacy e le prestazioni del modello: mentre i metodi esistenti si concentrano sulla generazione di esempi non apprendibili per salvaguardare la privacy, il mantenimento di un equilibrio tra la protezione della privacy e le prestazioni di addestramento del modello rimane irrisolto 17,18,19. La maggior parte delle ricerche attuali dà priorità alla protezione della privacy, ma presta un'attenzione limitata alla mitigazione del degrado delle prestazioni durante l'addestramento del modello^20,21. Di conseguenza, l'accesso e l'utilizzo dei dati sono diventati problemi critici nella protezione della privacy²².

Sebbene le soluzioni centralizzate e gli ambienti di esecuzione affidabili (TEE) offrano approcci alternativi al controllo dell'accesso ai dati, devono affrontare limitazioni intrinseche negli scenari medico/legali: (1) i sistemi centralizzati introducono singoli punti di errore e dipendenza dall'audit²³; (2) I TEE richiedono hardware specializzato e mancano di consenso decentralizzato²⁴. La blockchain emerge come la soluzione ottimale perché le sue proprietà immutabili del libro mastro rispondono direttamente a tre requisiti critici per la gestione dell'UE: conformità dimostrabile alle normative sulla governance dei dati (ad esempio, audit trail HIPAA), controllo degli accessi resistente alla censura in contesti multi-istituzione e monitoraggio granulare della provenienza attraverso transazioni con timestamp 25,26,27.

Il nostro framework ha dimostrato prestazioni ottimali per set di dati su media scala con accelerazione GPU, ottenendo la generazione di perturbazioni in tempo reale. Sebbene le operazioni blockchain introducano un sovraccarico misurabile, questo compromesso è giustificato in scenari che richiedono registri di accesso immutabili, come la ricerca medica multi-istituzionale o i mercati dei dati regolamentati. Il sistema è scalabile linearmente in base alle dimensioni del set di dati, ma richiede ≥16 GB di RAM e CPU a 4 core per un funzionamento stabile, il che lo rende meno adatto per i dispositivi edge con risorse limitate.

Per affrontare queste sfide, questo articolo propone un Blockchain-Integrated Unlearnable Example Generation and Management Framework (B-UEGMF). La blockchain, in quanto tecnologia di registro distribuito decentralizzata e immutabile, registra efficacemente gli hash di accesso ai dati e gestisce dinamicamente le autorizzazioni di accesso tramite contratti intelligenti, migliorando così le capacità di protezione della privacy di Esempi non apprendibili^28,29. In base a questo framework, gli utenti autorizzati possono accedere a dati puliti, mentre gli utenti non autorizzati possono accedere solo agli esempi non apprendibili generati dinamicamente. Per affrontare i problemi esistenti, questo documento introduce un nuovo metodo di generazione di rumore dinamico di minimizzazione degli errori (DEM). Incorporando informazioni specifiche del cliente e parametri temporali, la DEM incorpora dinamicamente le perturbazioni nei dati, generando perturbazioni uniche per ogni richiesta di dati e garantendo sia la privacy dei dati che l'inapprendibilità. Il processo di generazione dei DEM è illustrato nella Figura 1. I principali contributi di questo articolo sono i seguenti:
Tracciabilità dinamica e gestione degli accessi: questo articolo affronta i problemi di tracciabilità e controllo degli accessi associati al rilascio di esempi non apprendibili proponendo il framework B-UEGMF. La natura decentralizzata della blockchain risolve il problema delle terze parti affidabili nei sistemi tradizionali, mentre la sua trasparenza consente registri di accesso verificabili senza esporre dati grezzi. Sfruttando la trasparenza e l'immutabilità della blockchain, combinate con il controllo dinamico degli accessi abilitato dagli smart contract, il framework garantisce che gli utenti non autorizzati non possano recuperare o diffondere dati puliti, migliorando così in modo significativo la sicurezza dei dati.

Meccanismo di generazione di perturbazioni dinamiche: viene introdotto uno schema dinamico di generazione di esempi non apprendibili, in cui gli smart contract gestiscono le richieste di diversi clienti. Le perturbazioni DEM vengono generate dinamicamente per le richieste client non autorizzate in base a informazioni specifiche del client e parametri temporali. Ciò garantisce che gli effetti di perturbazione varino tra le richieste, rafforzando così la resistenza ai metodi di rimozione del rumore basati sulla diffusione e limitando gli utenti non autorizzati dall'accesso simultaneo a set di dati su larga scala.

Gli esperimenti condotti sui set di dati CIFAR-10, CIFAR-100 e ImageNet dimostrano che il DEM supera i metodi esistenti (ad esempio, EM, TAP e SEM) in termini di protezione della privacy e resistenza agli attacchi di reverse engineering, come dimostrato nella Figura 2, migliorando al contempo la resistenza agli attacchi di rimozione del rumore del 57% rispetto all'EM e del 25% rispetto al SEM, come dimostrato nella Figura 3. evidenziando la sua potenziale applicabilità in scenari del mondo reale.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Apparecchio
Abbiamo preso in considerazione un'attività di classificazione supervisionata con un set di dati figure-protocol-1 , dove figure-protocol-2 rappresenta le caratteristiche di input e figure-protocol-3 denota le etichette di classe corrispondenti per un problema di classe K. Il set di dati D viene suddiviso in un set di dati di training pulito e un set di dati di test.

L'obiettivo è modificare il set di dati di addestramento pulito introducendo piccole perturbazioni impercettibili δ creare un set di dati figure-protocol-4 non apprendibile, dove figure-protocol-5 + δ. La perturbazione δ è limitata da figure-protocol-6 , garantendo che non alteri in modo significativo la normale utilità dei dati. L'obiettivo chiave è quello di interrompere l'apprendimento costringendo il modello f_θ, addestrato su D_u, a concentrarsi su modelli irrilevanti indotti dal rumore piuttosto che sulle caratteristiche significative, con conseguente scarsa generalizzazione su un set di dati di test pulito:

figure-protocol-7

Simulazione di un ambiente blockchain
Per installare gli strumenti blockchain, il framework Hardhat viene utilizzato per simulare una rete Ethereum su un ambiente locale per l'implementazione di contratti intelligenti e il test della generazione di esempi non apprendibili. Per avviare una rete locale, viene inizializzata una rete blockchain simulata con più nodi e account. A ogni nodo vengono allocate risorse come Ether per facilitare le simulazioni delle transazioni. Per sviluppare contratti intelligenti, vengono implementati per gestire dinamicamente le autorizzazioni degli utenti. Gli utenti autorizzati possono accedere ai dati puliti, mentre gli utenti non autorizzati sono limitati all'accesso agli esempi non apprendibili. Innanzitutto, configura un ambiente di sviluppo basato su Node.js v16.x e Hardhat 2.8.4 e utilizza il compilatore Solidity 0.8.17 per completare la compilazione e l'ottimizzazione dello smart contract. Il processo di compilazione viene eseguito dalla riga di comando utilizzando npx hardhat compile per generare artefatti di compilazione contenenti l'ABI e il bytecode. Successivamente, distribuire il contratto nella rete di test Sepolia eseguendo lo script di distribuzione npx hardhat run scripts/deploy.js --network sepolia e registrare l'indirizzo del contratto di output e l'hash della transazione di distribuzione. Durante la fase di test delle prestazioni, vengono eseguiti in sequenza tre test principali: il test del costo di transazione registra il consumo di gas invocando ciclicamente il metodo grantAccess del contratto; il test di throughput utilizza lo strumento Artillery per simulare le richieste degli utenti con un carico incrementale; Le transazioni di test e convalida, inclusa l'archiviazione e il recupero dei dati, vengono condotte per convalidare la funzionalità dello smart contract.

Creazione di utenti on-chain e meccanismi di autorizzazione
Gli account utente univoci vengono generati utilizzando portafogli blockchain (ad esempio, MetaMask), ciascuno composto da una chiave privata e una chiave pubblica. L'implementazione del prototipo impiega un ambiente blockchain simulato in cui entità utente sintetiche caricano set di dati disponibili pubblicamente sul sistema decentralizzato, memorizzando solo i valori hash crittografici sul registro distribuito. Ciò garantisce l'integrità dei dati senza memorizzare i dati effettivi on-chain, il che sarebbe inefficiente e costoso. I dati effettivi vengono archiviati off-chain, in genere utilizzando sistemi di archiviazione decentralizzati come IPFS, garantendo una gestione efficiente dei dati mantenendo la sicurezza e la privacy. Per i token non fungibili (NFT) e il controllo degli accessi, questo studio implementa un meccanismo di controllo degli accessi a grana fine utilizzando NFT conformi allo standard ERC-721. Ogni set di dati di esempi non apprendibili è associato a un tokenId univoco, che funge da chiave per accedere ai dati. Gli utenti richiedono l'accesso inviando le bozze Merkle. Queste prove verificano l'identità dell'utente in modo sicuro e decentralizzato. Dopo la convalida della prova, il contratto conia un NFT unico e lo trasferisce al portafoglio dell'utente. Questo NFT rappresenta il diritto dell'utente di accedere ai dati associati a quello specifico esempio non apprendibile. L'uso degli NFT garantisce che solo gli utenti autorizzati possano accedere ai dati, sulla base di un record decentralizzato e immutabile. Ciò è in contrasto con il tradizionale controllo degli accessi in base al ruolo (RBAC), che in genere opera a livello di gruppo e potrebbe non fornire la granularità necessaria per le applicazioni ad alta sicurezza³⁰.

Lo smart contract verifica continuamente i permessi di accesso attraverso la funzione ownerOf, controllando la proprietà dell'NFT per garantire che solo gli utenti autorizzati possano accedere ai dati puliti. Gli amministratori possono revocare l'accesso distruggendo l'NFT attraverso la funzione revokeAccess, garantendo flessibilità nella gestione dell'accesso degli utenti nel tempo. Il flusso di lavoro operativo consiste in quattro passaggi critici: (1) gli utenti inviano richieste di accesso contenenti prove di Merkle; (2) il contratto verifica la validità di tali prove; (3) una volta convalidato con successo, il contratto conia l'NFT corrispondente; (4) gli utenti recuperano i dati crittografati utilizzando l'IPFS Content Identifier (CID) incorporato nei metadati dell'NFT. Sfruttando gli NFT, otteniamo diversi vantaggi rispetto ai tradizionali meccanismi di controllo degli accessi, come il controllo granulare delle autorizzazioni (a livello di dati rispetto a livello di gruppo), una migliore capacità di audit (record on-chain immutabili) e la trasferibilità delle autorizzazioni (transazioni del marketplace NFT).

I contratti multi-firma vengono implementati per l'aggiornamento dell'hash root di Merkle, impedendo la manomissione non autorizzata dei dati. Il sistema incorpora meccanismi anti-Sybil legando ogni set di dati a un tokenId univoco, garantendo che gli attori malintenzionati non possano generare token fraudolenti per accedere a dati non autorizzati. Gli UE vengono crittografati utilizzando AES-256 prima di essere caricati nella rete InterPlanetary File System (IPFS). Gli hash dei dati crittografati vengono archiviati on-chain, mentre i set di dati completi rimangono su IPFS, riducendo il sovraccarico di archiviazione della blockchain. L'approccio ibrido che combina lo storage on-chain e off-chain trova un equilibrio tra la garanzia della disponibilità dei dati e la riduzione dei costi di storage, una preoccupazione comune nelle applicazioni basate su blockchain.

Gli smart contract vengono utilizzati per gestire dinamicamente le autorizzazioni degli utenti. A ogni utente viene concesso l'accesso ai dati puliti solo se è in possesso dell'NFT appropriato, che funge da token di autorizzazione. Gli smart contract registrano tutti gli accessi ai dati nei registri degli eventi, fornendo una tracciabilità completa. Questi registri sono immutabili e possono essere controllati, offrendo trasparenza e responsabilità. Lo smart contract utilizza la funzione grantAccess per convalidare le richieste di accesso. Il contratto verifica se l'utente è in possesso dell'apposito NFT e, se valido, concede l'accesso ai dati richiesti. Ogni evento di accesso viene registrato sulla blockchain, garantendo che tutte le attività di recupero dei dati siano verificabili. Ogni evento di accesso ai dati viene registrato in tempo reale dallo smart contract, che attiva un evento AccessGranted. Questo evento contiene informazioni importanti come l'indirizzo del portafoglio dell'utente, il timestamp dell'accesso e il tokenId NFT corrispondente. La natura dinamica degli smart contract consente la gestione in tempo reale delle autorizzazioni. Ciò è particolarmente utile nelle applicazioni decentralizzate, dove il controllo degli accessi deve essere altamente flessibile e adattabile alle mutevoli condizioni.

Per risolvere i problemi di privacy negli ambienti blockchain pubblici, il sistema memorizza miniature a bassa risoluzione (ad esempio, 64 x 64 pixel) sulla blockchain, mentre le immagini originali ad alta risoluzione vengono crittografate e archiviate off-chain su IPFS. Solo gli utenti autorizzati che possiedono l'NFT corrispondente possono recuperare le chiavi di decrittazione per accedere ai dati ad alta risoluzione. Gli utenti non autorizzati ricevono versioni dei dati con perturbazioni DEM in tempo reale, garantendo che non possano accedere ai dati originali.

Genera perturbazione dell'immagine
Carica set di dati CIFAR10, CIFAR100 e ImageNet. Le immagini nei set di dati vengono ridimensionate e convertite in modo uniforme in tensore PyTorch e il tensore dell'immagine viene normalizzato utilizzando la media e la deviazione standard. Inizializzare un disturbo casuale δ¹, utilizzando una distribuzione gaussiana per generare la perturbazione iniziale. Il rumore casuale viene applicato a ciascuna immagine x e la perdita tra l'etichetta di destinazione e la previsione del modello viene calcolata in base alla perdita di entropia incrociata. In un set di dati di classe C, per un campione i, y_i è il valore dell'etichetta target, p_i è la probabilità di previsione del modello, che quantifica la differenza tra la distribuzione di probabilità prevista dal modello e l'etichetta effettiva, massimizzando la perdita in modo che il modello produca false previsioni. La perdita di entropia incrociata è:

figure-protocol-8

L'influenza della perturbazione dell'immagine sulla previsione calcolata in base alla funzione di perdita, la propagazione inversa aggiorna la perturbazione e l'intervallo di perturbazione e il valore della perturbazione vengono costantemente aggiornati attraverso più iterazioni. Per il tasso di apprendimento η, la formula di aggiornamento per la perturbazione è:

figure-protocol-9

Genera perturbazioni del testo
Caricare modelli BERT pre-addestrati per la generazione di incorporamenti di testo. Una rete TextFeatureExtractor personalizzata composta da due blocchi Transformer e un livello completamente connesso viene utilizzata per estrarre le caratteristiche dagli incorporamenti di testo generati dai modelli BERT. Immettere le informazioni sull'utente e il timestamp dell'utente di accesso nel modello BERT pre-addestrato e generare dinamicamente rumore di testo attraverso la rete TextFeatureExtractor personalizzata.

L'immagine di input I viene inserita nel modello multimodale Qwen2.5-VL-7B-Instruct. Guidato da un prompt strutturato, il modello genera una sintetica descrizione testuale T_q. Questo testo generato T_q viene inserito nel modello linguistico BERT-base-uncased pre-addestrato. Attraverso suggerimenti di riscrittura specifici per attività, il sistema genera testo figure-protocol-10 perturbato che preserva la semantica mentre altera l'espressione. Una rete TextFeatureExtractor esegue il mapping del testo figure-protocol-11 perturbato in un vettore di incorporamento semantico ad alta dimensionalità E_g.

Genera perturbazioni multi-target
Per garantire la compatibilità tra l'incorporamento del testo e le perturbazioni dell'immagine, regoliamo la forma dell'incorporamento del testo in modo che corrisponda alle dimensioni della perturbazione dell'immagine. Sia E_T ed E_q l'incorporamento del testo e P_L la perturbazione dell'immagine. Il processo di rimodellamento assicura che E_T ed E_q siano trasformati nella stessa dimensionalità di P_L: figure-protocol-12 , dove C, H, W sono le dimensioni di P_L. Definisci un modulo di fusione del meccanismo di attenzione che fonde le perturbazioni di incorporamento del testo e le perturbazioni dell'immagine, regolando dinamicamente le perturbazioni in base ai pesi di attenzione del testo. La fusione è:

figure-protocol-13

dove α è la regolazione dinamica dei parametri del meccanismo di attenzione. δ^T è il disturbo del testo generato da E_q ed E_T. Aggiungere un termine di regolarizzazione al processo di formazione per evitare l'overfitting. Il termine di regolarizzazione è la norma L2 dell'incorporamento del testo, che penalizza le perturbazioni. La funzione di perdita multi-obiettivo combina la perdita di entropia incrociata e la perturbazione di fusione, e la funzione di perdita multi-obiettivo è la seguente:

figure-protocol-14

Gli obiettivi della funzione di perdita sono:

figure-protocol-15

dove λ è un coefficiente di regolarizzazione utilizzato per controllare la forza di penalità della perturbazione, allo scopo di inibire l'eccessiva perturbazione o l'overfitting. Nello studio degli attacchi avversari, è stato riscontrato che figure-protocol-16 è il limite di perturbazione percepibile dall'occhio umano. Viene definito il processo di addestramento e valutazione, compresa la generazione di perturbazioni, il calcolo delle perdite, l'addestramento del modello, ecc.

Esperimenti comparativi
Abbiamo condotto una valutazione completa del rumore dinamico di minimizzazione degli errori (DEM) proposto rispetto a tre metodi esistenti: rumore di minimizzazione degli errori (EM), perturbazioni avversarie trasferibili (TAP) e rumore stabile di minimizzazione degli errori (SEM). Questi metodi sono stati testati su tre set di dati di riferimento: CIFAR-10, CIFAR-100 e un sottoinsieme di ImageNet, utilizzando quattro architetture di reti neurali ampiamente adottate: VGG-16, ResNet-18, ResNet-50 e DenseNet-121, per garantire diverse condizioni sperimentali.

Inoltre, abbiamo esaminato la robustezza di questi metodi applicando modelli di denoising basati sulla diffusione per rimuovere il rumore difensivo e misurando l'accuratezza degli esempi di denoising sui set di dati di test. Questa fase mirava a valutare la capacità di ciascun metodo di resistere agli attacchi di ripristino e mantenere l'integrità della privacy dei dati in condizioni avverse. I risultati indicano che il nostro DEM supera gli altri metodi sia in termini di robustezza che di accuratezza in tutti i set di dati e le architetture, dimostrando la sua efficacia come framework di tutela della privacy.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Blockchain e framework di smart contract
I risultati sperimentali hanno dimostrato che il proposto Blockchain-Integrated Unlearnable Example Generation and Management Framework (B-UEGMF), combinato con contratti intelligenti, ha consentito un'efficace gestione dinamica dell'accesso ai dati specifico del cliente. Per gli utenti autorizzati, i dati puliti recuperati hanno raggiunto un'accuratezza del test del 90,2% su un modello surrogato ResNet-18 valutato sul set di dati CIFAR-10. Al contrario, gli ut...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L'integrazione di blockchain e UE ha fatto progredire il campo della protezione della privacy dei dati fornendo una soluzione trasparente e decentralizzata per la gestione dell'accesso ai dati. A differenza dei metodi convenzionali di tutela della privacy, che spesso si basano esclusivamente su tecniche di perturbazione³¹, questo studio colma il divario tra la protezione dei dati e il tracciamento delle responsabilità. Negli scenari di apprendimento federato, il f...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Gli autori non hanno nulla di rilevante per questa pubblicazione da rivelare.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo lavoro è stato sostenuto dalla School of Cyberspace Security dell'Università di Zhengzhou, che ha fornito un eccellente ambiente di ricerca e risorse accademiche. Siamo profondamente grati al nostro supervisore, il Prof. Zijiao Zhang, per la sua preziosa guida, i suggerimenti penetranti e il continuo incoraggiamento durante questa ricerca. Estendiamo anche i nostri sinceri ringraziamenti al Network Management Center dell'Università di Zhengzhou per aver fornito server sperimentali, risorse di calcolo ad alte prestazioni e un'infrastruttura di test blockchain, essenziali per il successo dell'implementazione di questo studio.

Contributo dell'autore:
Ruijia Li ha concepito lo studio, sviluppato la metodologia, condotto esperimenti, eseguito l'analisi dei dati e scritto il manoscritto originale. Zijiao Zhang ha fornito la supervisione, la convalida della metodologia e la revisione critica del manoscritto. Shouli Fu ha contribuito alla guida all'implementazione della blockchain. Lin Zhu ha assistito alla cura e alla convalida dei dati. Qunpeng Lei ha contribuito allo sviluppo del quadro teorico. Buwei Wang ha fornito supporto tecnico. Tutti gli autori hanno esaminato e approvato il manoscritto finale.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Comments
CUDA 12.1	NVIDIA	Utilizzato per migliorare le prestazioni delle applicazioni di deep learning
NVIDIA A800 80GB PCIe A800 80GB PCIe	NVIDIA	Utilizzato per l'addestramento del modello di Deep Learning
Pitone 3.10	Fondazione del software Python	Utilizzato per la pre-elaborazione e l'analisi dei dati
PyTorch 2.5.1	Contatti	Framework di deep learning utilizzato per l'addestramento dei modelli
Ubuntu 22.04	Canonico	Sistema operativo utilizzato per la configurazione dell'ambiente

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Multi-level Cross-view Contrastive Learning for Knowledge-aware Recommender System. Zou, D., Chen, Y., Wang, X. Proc 45th Int ACM SIGIR Conf Res Dev Info Retrieval, , 1358-1368 (2022).
A simple framework for contrastive learning of visual representations. Chen, T., Kornblith, S., Norouzi, M., Hinton, G. Proc 37th Int Conf Mach Learn, 119, 1597-1607 (2020).
Guo, J., et al. Domain watermark: Effective and harmless dataset copyright protection is closed at hand. arXiv. , (2023).
Hill, K. The Secretive Company That Might End Privacy as We Know It. , The New York Times. (2020).
Prabhu, V. U., Birhane, A. Large Image Datasets: A Pyrrhic Win for Computer Vision. arXiv. , (2020).
Unlearnable examples detection via iterative filtering. Yu, Y., Jiang, X., Wang, Y. Proc Int Conf Artificial Neural Net, , 241-256 (2024).
Jiang, Y., Ma, X., Erfani, S. M., Bailey, J. Unlearnable examples for time series. Adv Knowledge Disc Data Mining. , 213-225 (2024).
Unlearnable clusters: Towards label-agnostic unlearnable examples. Zhang, J., Liu, Y., Zhou, Q. Proc IEEE/CVF Conf Comput Vision Pattern Recognit, , 3984-3993 (2023).
Unlearnable examples: Making personal data unexploitable. Huang, H., Ma, X., Erfani, S. M., Bailey, J., Wang, Y. Int Conf Learning Representat, , 1-17 (2021).
Game-theoretic unlearnable example generator. Liu, S., Wang, Y., Gao, X. S. Proc AAAI Conf Artificial Intellig, 38, 21349-21358 (2024).
Robust unlearnable examples: Protecting data privacy against adversarial learning. Fu, S., He, F., Liu, Y., Shen, L., Tao, D. ICLR 2022 Proc Int Conf Learning Representat, , 1-22 (2022).
Stable unlearnable example: Enhancing the robustness of unlearnable examples via stable error-minimizing noise. Liu, S., Xu, K., Sun, L. Proc AAAI Conf Artificial Intellig, 37, 2473-2481 (2023).
Defensive unlearning with adversarial training for robust concept erasure in diffusion models. Zhang, Y., et al. NeurIPS 2024 Proc 38th Conf Neural Informat Process Syst, , 1-29 (2024).
Unlearnable examples give a false sense of security: Piercing through unexploitable data with learnable examples. Jiang, W., et al. MM 2023 Proc 31st ACM Int Conf Multimedia, , 8910-8921 (2023).
VQUNet: Vector quantization U-Net for defending adversarial attacks by regularizing unwanted noise. He, Z., Singhal, M. ICMVA 2024 Proc 2024 7th Int Conf Machine Vis Applicat, , 69-76 (2024).
Li, Z., et al. UnGANable: Defending Against GAN-based Face Manipulation. 32nd USENIX Secur Sympos. , 7213-7230 (2023).
Narcissus: A Practical Clean-Label Backdoor Attack with Limited Information. Zeng, Y., et al. Proc 2023 ACM SIGSAC Conf Comput Communicat Secur, , 771-785 (2023).
Meng, R., Chen, J., Liu, Z. Semantic deep hiding for robust unlearnable examples. IEEE Transact Info Forens Secur. 19 (12), 6545-6558 (2024).
Detection and defense of unlearnable examples. Zhu, Y., Yu, L., Gao, X. S. Proc AAAI Conf Artif Intellig, 38 (15), 17211-17219 (2024).
Unlearnable examples: Protecting open-source software from unauthorized neural code learning. Ji, Z., Ma, P., Wang, S. Proc Int Conf Software Eng Knowledge Eng, , 525-530 (2022).
Purify unlearnable examples via rate-constrained variational autoencoders. Yu, Y., et al. ICML 2024 Proc 41st Int Conf Mach Learn, 2379, 57678-57702 (2024).
Triggerless backdoor attack for NLP tasks with clean labels. Gan, L., Zhang, W., Li, X. Proc 2022 Conf North Am Chapter Associat Computat Linguist Human Lang Technol, , 2942-2952 (2022).
Punia, A., et al. A systematic review on blockchain-based access control systems in cloud environment. J Cloud Comput. 13, 146(2024).
SoK: Understanding Design Choices and Pitfalls of Trusted Execution Environments. Li, M., Yang, Y., Chen, G., Yan, M., Zhang, Y. Proc 19th ACM Asia Conf Comput Commun Secur, , 1600-1616 (2024).
Kayikci, S., Khoshgoftaar, T. M. Blockchain meets machine learning: a survey. J Big Data. 11, 9(2024).
Ullah, F., et al. Blockchain-enabled EHR access auditing: Enhancing healthcare data security. Heliyon. 10 (16), e34407(2024).
Tripathi, G., Ahad, M. A., Casalino, G. A comprehensive review of blockchain technology: Underlying principles and historical background with future challenges. Dec Anal J. 9, 100344(2023).
Saleh, A. M. S. Blockchain for secure and decentralized artificial intelligence in cybersecurity: A comprehensive review. Blockchain Res Appl. 5 (3), 100193(2024).
Badra, M., Borghol, R. An efficient blockchain-based privacy preservation scheme for smart grids. Front Communicat Net. 6, 1584152(2025).
Fine-Grained Access Control in the Era of Cloud Computing: An Analytical Review. Albulayhi, K., Abuhussein, A., Alsubaei, F., Sheldon, F. T. 2020 10th Ann Comput Communicat Workshop Conf, , 0748-0755 (2020).
Turgay, S., İlter, İ Perturbation Methods for Protecting Data Privacy: A Review of Techniques and Applications. Automat Machine Learning. 4, 31-41 (2023).
Williamson, S. M., Prybutok, V. Balancing Privacy and Progress: A Review of Privacy Challenges, Systemic Oversight, and Patient Perceptions in AI-Driven Healthcare. Appl Sci. 14 (2), 675(2024).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Framework basato su blockchain per la generazione e la gestione di esempi non apprendibili per migliorare la privacy dei dati e il controllo degli accessi

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles