Oparta na blockchainie platforma do generowania i zarządzania niezrozumiałymi przykładami w celu zwiększenia prywatności danych i kontroli dostępu

Ruijia Li; Zijiao Zhang; Shouli Fu; Lin Zhu; Qunpeng Lei; Buwei Wang

doi:10.3791/68338

Research Article

Oparta na blockchainie platforma do generowania i zarządzania niezrozumiałymi przykładami w celu zwiększenia prywatności danych i kontroli dostępu

DOI:

10.3791/68338

⸱

August 22nd, 2025

Ruijia Li¹ , Zijiao Zhang¹ , Shouli Fu¹ , Lin Zhu¹ , Qunpeng Lei¹ , Buwei Wang¹

¹School of Cyberspace Security, Zhengzhou University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W niniejszym artykule zaproponowano opartą na blockchainie strukturę do generowania niemożliwych do nauczenia się przykładów, integrującą dynamiczne perturbacje z kontrolą dostępu. Zwiększa ochronę prywatności, zapewniając, że nieautoryzowani użytkownicy otrzymują zakłócone dane, chroniąc poufne informacje, a jednocześnie umożliwiając efektywne zarządzanie danymi i dostęp za pośrednictwem inteligentnych kontraktów.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W kontekście szybkiego rozwoju dużych modeli językowych (LLM), uczenie kontrastywne stało się szeroko stosowane ze względu na jego zdolność do omijania kosztownych adnotacji danych poprzez wykorzystanie ogromnych ilości danych sieciowych do trenowania modeli. To powszechne stosowanie budzi jednak poważne obawy dotyczące ochrony prywatności danych. Nieuczące się przykłady (UE), technika, która zakłóca uczenie się modelu poprzez zakłócanie danych, skutecznie zapobiega niewłaściwemu wykorzystaniu poufnych danych przez nieautoryzowane modele. Jednak istniejące metody generowania UEs stoją przed dwoma podstawowymi wyzwaniami: po pierwsze, perturbacje można odwrócić za pomocą technik takich jak odwrotne oczyszczanie lub odszumianie, w tym modeli dyfuzyjnych, które usuwają ochronne perturbacje w obrazowych UE; Po drugie, po opublikowaniu danych zapewnienie identyfikowalności danych i zarządzanie kontrolą dostępu staje się trudne. Aby rozwiązać te problemy, w niniejszym dokumencie zaproponowano Blockchain-Integrated Unlearnable Example Generation and Management Framework (B-UEGMF) do generowania i zarządzania interfejsami UE. Wykorzystując zdecentralizowane i niezmienne właściwości blockchaina, przechowujemy przykładowe wartości skrótu w łańcuchu bloków i dynamicznie zarządzamy prawami dostępu do danych za pośrednictwem inteligentnych kontraktów. Dodatkowo, UEs są generowane przy użyciu wieloobiektywowej techniki perturbacji, Dynamic Error-Minimizing Noise (DEM), która zwiększa odporność na metody odwrócenia. Zapewniamy również ilościową ocenę możliwości ochrony prywatności wygenerowanych przykładów. Wyniki eksperymentalne pokazują, że zaproponowana struktura znacznie poprawiła ochronę UEs przed atakami odwrotnymi, zapewniając jednocześnie efektywne zarządzanie prywatnością danych.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

W ostatnich latach, wraz z szybkim postępem głębokiego uczenia i dużych modeli językowych, uczenie kontrastywne stało się skutecznym podejściem do uczenia się bez nadzoru ze względu na jego niezależność od kosztownych ręcznych adnotacji ^1,2. Jednak szerokie wykorzystanie publicznych zbiorów danych wzbudziło poważne obawy dotyczące naruszeń prywatności i niewłaściwego wykorzystania danych. Przypadki nieautoryzowanego wykorzystania publicznie dostępnych danych do trenowania modelu stają się coraz częstsze³. Na przykład w 2017 r. nieautoryzowane zdjęcia publiczne zostały wykorzystane do trenowania modeli rozpoznawania twarzy⁴. Podobnie Amazon wykorzystał dane z opinii publicznej konsumentów do przeszkolenia swoich systemów rekomendacji bez uzyskania wyraźnej zgody od wszystkich użytkowników, co ujawniło luki w mechanizmach ochrony prywatności⁵.

Aby rozwiązać te problemy, pojawiły się nieuczące się przykłady (UE), które stały się nowatorską techniką ochrony prywatności danych. Interfejsy użytkownika dodają niezauważalne perturbacje do próbek danych, wprowadzając skrót, który uniemożliwia modelom uczenie się poufnych informacji, zachowując jednocześnie ludzką percepcję danych ^6,7,8. Istniejące metody generowania interfejsów użytkownika obejmują przede wszystkim perturbacje minimalizujące błędy (EM)⁹, generowanie zakłóceń przez generatywne sieci przeciwstawne (GAN)¹⁰, solidny szum minimalizujący błędy (REM) i stabilny szum minimalizujący błędy (SEM) zoptymalizowany przez szkolenie przeciwstawne^11,12. Ponadto modele dyfuzyjne zostały ostatnio zastosowane do generowania nieprawidłowego szumu na etykiecie, co jeszcze bardziej zwiększa ochronę prywatności¹³.

Pomimo znacznego postępu w generowaniu interfejsów UE, nadal istnieje kilka wyzwań, szczególnie w rzeczywistych zastosowaniach, w których efekty ochrony prywatności tych metod nie zostały w pełni zweryfikowane. Do najważniejszych wyzwań należą:
Problemy z przywracaniem: Modele dyfuzji mogą częściowo odzyskać nieuczące się przykłady, przewidując i usuwając perturbacje wbudowane w dane, przywracając w ten sposób zdolność uczenia się i naruszając ochronę prywatności^14,15. Nawet jeśli dane zostaną zakłócone podczas trenowania, poufne informacje mogą zostać ujawnione po przywróceniu.
Identyfikowalność danych i kontrola dostępu: Po opublikowaniu niemożliwych do nauczenia się przykładów skuteczne mechanizmy śledzenia ich pochodzenia i egzekwowania ograniczeń dostępu pozostają technicznie trudne¹⁶.
Równoważenie ochrony prywatności i wydajności modelu: Podczas gdy istniejące metody koncentrują się na generowaniu nieuczących się przykładów w celu ochrony prywatności, utrzymanie równowagi między ochroną prywatności a wydajnością trenowania modelu pozostaje nierozwiązane 17,18,19. Większość aktualnych badań traktuje priorytetowo ochronę prywatności, ale zwraca ograniczoną uwagę na łagodzenie spadku wydajności podczas trenowania modelu^20,21. W związku z tym dostęp do danych i ich wykorzystanie stały się krytycznymi kwestiami w zakresie ochrony prywatności²².

Podczas gdy scentralizowane rozwiązania i zaufane środowiska wykonawcze (TEE) oferują alternatywne podejścia do kontroli dostępu do danych, napotykają nieodłączne ograniczenia w scenariuszach medycznych/prawnych: (1) Scentralizowane systemy wprowadzają pojedyncze punkty awarii i zależność od audytu²³; (2) TEE wymagają specjalistycznego sprzętu i brakuje im zdecentralizowanego konsensusu²⁴. Blockchain jawi się jako optymalne rozwiązanie, ponieważ jego niezmienne właściwości księgi bezpośrednio odnoszą się do trzech krytycznych wymagań dotyczących zarządzania UE: możliwej do udowodnienia zgodności z przepisami dotyczącymi zarządzania danymi (np. ścieżek audytu HIPAA), odpornej na cenzurę kontroli dostępu w wielu instytucjach oraz szczegółowego śledzenia pochodzenia za pomocą transakcji oznaczonych znacznikiem czasu 25,26,27.

Nasza platforma wykazała optymalną wydajność dla zbiorów danych średniej skali z akceleracją GPU, osiągając generowanie perturbacji w czasie rzeczywistym. Podczas gdy operacje oparte na łańcuchu bloków wprowadzają mierzalne koszty ogólne, ten kompromis jest uzasadniony w scenariuszach wymagających niezmiennych dzienników dostępu, takich jak wieloinstytucjonalne badania medyczne lub regulowane rynki danych. System skaluje się liniowo wraz z rozmiarem zestawu danych, ale wymaga ≥16 GB pamięci RAM i 4-rdzeniowych procesorów do stabilnego działania, co czyni go mniej odpowiednim dla urządzeń brzegowych o ograniczonych zasobach.

Aby sprostać tym wyzwaniom, w niniejszym dokumencie zaproponowano Blockchain-Integrated Unlearnable Example Generation and Management Framework (B-UEGMF). Blockchain, jako zdecentralizowana i niezmienna technologia rozproszonej księgi, skutecznie rejestruje skróty dostępu do danych i dynamicznie zarządza uprawnieniami dostępu za pomocą inteligentnych kontraktów, zwiększając w ten sposób możliwości ochrony prywatności Nieuczących się Przykładów^28,29. W ramach tej struktury autoryzowani użytkownicy mogą uzyskać dostęp do czystych danych, podczas gdy nieautoryzowani użytkownicy mogą uzyskać dostęp tylko do dynamicznie generowanych nieuczących się przykładów. Aby rozwiązać istniejące problemy, w niniejszym artykule przedstawiono nowatorską metodę generowania dynamicznego szumu minimalizującego błędy (DEM). Poprzez włączenie informacji specyficznych dla klienta i parametrów czasowych, DEM dynamicznie osadza perturbacje w danych, generując unikalne perturbacje dla każdego żądania danych i zapewniając zarówno prywatność danych, jak i możliwość uczenia się. Proces generowania DEM przedstawiono na rysunku 1. Główne założenia tego artykułu są następujące:
Dynamiczna identyfikowalność i zarządzanie dostępem: W tym dokumencie omówiono kwestie związane z identyfikowalnością i kontrolą dostępu związane z wydaniem nieuczących się przykładów, proponując ramy B-UEGMF. Zdecentralizowany charakter blockchaina rozwiązuje problem zaufanych stron trzecich w tradycyjnych systemach, a jego przejrzystość umożliwia weryfikowalne dzienniki dostępu bez ujawniania surowych danych. Wykorzystując przejrzystość i niezmienność łańcucha bloków, w połączeniu z dynamiczną kontrolą dostępu umożliwianą przez inteligentne kontrakty, ramy zapewniają, że nieautoryzowani użytkownicy nie mogą odzyskać ani rozpowszechnić czystych danych, co znacznie zwiększa bezpieczeństwo danych.

Dynamiczny mechanizm generowania perturbacji: Wprowadzono dynamiczny schemat generowania nieuczących się przykładów, w którym inteligentne kontrakty zarządzają żądaniami od różnych klientów. Perturbacje DEM są generowane dynamicznie dla nieautoryzowanych żądań klientów na podstawie informacji specyficznych dla klienta i parametrów czasowych. Gwarantuje to, że efekty perturbacji różnią się w zależności od żądania, zwiększając w ten sposób odporność na metody usuwania szumów oparte na dyfuzji i ograniczając nieautoryzowanym użytkownikom dostęp do dużych zbiorów danych jednocześnie.

Eksperymenty przeprowadzone na zbiorach danych CIFAR-10, CIFAR-100 i ImageNet pokazują, że DEM przewyższa istniejące metody (np. EM, TAP i SEM) pod względem ochrony prywatności i odporności na ataki inżynierii wstecznej, jak pokazano na rysunku 2, jednocześnie zwiększając odporność na ataki usuwania szumów o 57% w porównaniu z EM i 25% w porównaniu z SEM, jak pokazano na rysunku 3. podkreślając jego potencjalną przydatność w rzeczywistych scenariuszach.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Instalacji
Rozważyliśmy nadzorowane zadanie klasyfikacyjne z zestawem danych figure-protocol-1 , gdzie figure-protocol-2 reprezentuje cechy wejściowe i figure-protocol-3 oznacza odpowiednie etykiety klas dla problemu klasy K. Zestaw danych D jest podzielony na czysty zestaw danych treningowych i zestaw danych testowych.

Celem jest zmodyfikowanie czystego zbioru danych treningowych poprzez wprowadzenie małych, niezauważalnych perturbacji δ utworzenie nieuczącego się zbioru danych figure-protocol-4 , gdzie figure-protocol-5 + δ. δ perturbacji jest ograniczony przez figure-protocol-6 , zapewniając, że nie zmienia znacząco normalnej użyteczności danych. Kluczowym celem jest zakłócenie uczenia się poprzez zmuszenie modelu f_θ, wytrenowanego na D_u, do skupienia się na nieistotnych wzorcach wywołanych przez szum, a nie na znaczących cechach, co skutkuje słabym uogólnieniem na czystym zestawie danych testowych:

figure-protocol-7

Symulowanie środowiska łańcucha bloków
Aby zainstalować narzędzia blockchain, framework Hardhat służy do symulacji sieci Ethereum w środowisku lokalnym w celu wdrażania inteligentnych kontraktów i testowania generowania nieuczących się przykładów. Aby uruchomić sieć lokalną, inicjowana jest symulowana sieć blockchain z wieloma węzłami i kontami. Każdemu węzłowi przydzielane są zasoby, takie jak Ether, aby ułatwić symulacje transakcji. Aby opracować inteligentne kontrakty, są one wdrażane w celu dynamicznego zarządzania uprawnieniami użytkowników. Autoryzowani użytkownicy mogą uzyskać dostęp do czystych danych, podczas gdy nieautoryzowani użytkownicy mają ograniczony dostęp do niemożliwych do nauczenia się przykładów. Najpierw skonfiguruj środowisko programistyczne oparte na Node.js v16.x i Hardhat 2.8.4, a następnie użyj kompilatora Solidity 0.8.17, aby zakończyć kompilację i optymalizację inteligentnego kontraktu. Proces kompilacji jest wykonywany przez wiersz poleceń przy użyciu kompilacji npx hardhat w celu wygenerowania artefaktów kompilacji zawierających ABI i kod bajtowy. Następnie wdróż kontrakt w sieci testowej Sepolia, uruchamiając skrypt wdrażania npx hardhat uruchom skrypty/deploy.js --network sepolia i zarejestruj adres kontraktu wyjściowego i skrót transakcji wdrożenia. Podczas fazy testów wydajnościowych sekwencyjnie wykonywane są trzy podstawowe testy: test kosztów transakcyjnych rejestruje zużycie gazu poprzez cykliczne wywoływanie metody grantAccess kontraktu; test przepustowości wykorzystuje narzędzie Artillery do symulacji żądań użytkowników z przyrostowo rosnącym obciążeniem; Transakcje testowania i walidacji, w tym przechowywanie i pobieranie danych, są przeprowadzane w celu sprawdzenia funkcjonalności inteligentnego kontraktu.

Konstruowanie użytkowników on-chain i mechanizmów uprawnień
Unikalne konta użytkowników są generowane za pomocą portfeli blockchain (np. MetaMask), z których każdy składa się z klucza prywatnego i klucza publicznego. Prototypowa implementacja wykorzystuje symulowane środowisko blockchain, w którym syntetyczne podmioty użytkowników przesyłają publicznie dostępne zestawy danych do zdecentralizowanego systemu, przechowując tylko kryptograficzne wartości skrótu w rozproszonej księdze. Zapewnia to integralność danych bez przechowywania rzeczywistych danych w łańcuchu, co byłoby nieefektywne i kosztowne. Rzeczywiste dane są przechowywane poza łańcuchem, zwykle przy użyciu zdecentralizowanych systemów pamięci masowej, takich jak IPFS, co zapewnia wydajne zarządzanie danymi przy jednoczesnym zachowaniu bezpieczeństwa i prywatności. W przypadku tokenów niewymienialnych (NFT) i kontroli dostępu, badanie to wdraża precyzyjny mechanizm kontroli dostępu przy użyciu NFT zgodnych ze standardem ERC-721. Każdy zestaw danych przykładów, których nie można się nauczyć, jest skojarzony z unikatowym identyfikatorem tokenId, który działa jako klucz dostępu do danych. Użytkownicy proszą o dostęp, przesyłając dowody Merkle. Dowody te weryfikują tożsamość użytkownika w bezpieczny, zdecentralizowany sposób. Po pomyślnej walidacji dowodu, kontrakt wybija unikalny NFT i przekazuje go do portfela użytkownika. Ten NFT reprezentuje prawo użytkownika do dostępu do danych związanych z tym konkretnym, niemożliwym do nauczenia się przykładem. Korzystanie z NFT zapewnia, że tylko autoryzowani użytkownicy mogą uzyskać dostęp do danych, w oparciu o zdecentralizowany, niezmienny rekord. Jest to przeciwieństwo tradycyjnej kontroli dostępu opartej na rolach (RBAC), która zwykle działa na poziomie grupy i może nie zapewniać szczegółowości wymaganej w przypadku aplikacji o wysokim poziomie zabezpieczeń³⁰.

Inteligentny kontrakt w sposób ciągły weryfikuje uprawnienia dostępu za pomocą funkcji ownerOf, sprawdzając własność NFT, aby upewnić się, że tylko autoryzowani użytkownicy mogą uzyskać dostęp do czystych danych. Administratorzy mogą cofnąć dostęp, niszcząc NFT za pomocą funkcji revokeAccess, zapewniając elastyczność w zarządzaniu dostępem użytkowników w czasie. Operacyjny przepływ pracy składa się z czterech krytycznych kroków: (1) użytkownicy składają wnioski o dostęp zawierające dowody Merkle; 2) umowa weryfikuje ważność tych dowodów; (3) po pomyślnej walidacji kontrakt wybija odpowiednie NFT; (4) użytkownicy pobierają zaszyfrowane dane za pomocą identyfikatora treści IPFS (CID) osadzonego w metadanych NFT. Wykorzystując NFT, osiągamy kilka korzyści w porównaniu z tradycyjnymi mechanizmami kontroli dostępu, takimi jak precyzyjna kontrola uprawnień (na poziomie danych vs. na poziomie grupy), lepsze możliwości audytu (niezmienne rekordy w łańcuchu) i możliwość przenoszenia uprawnień (transakcje na rynku NFT).

Kontrakty z wieloma podpisami są implementowane do aktualizacji głównego skrótu Merkle, zapobiegając nieautoryzowanej manipulacji danymi. System zawiera mechanizmy anty-Sybil, wiążąc każdy zestaw danych z unikalnym identyfikatorem tokenId, zapewniając, że złośliwi aktorzy nie mogą generować fałszywych tokenów w celu uzyskania dostępu do nieautoryzowanych danych. Interfejsy użytkownika są szyfrowane przy użyciu AES-256 przed przesłaniem do sieci InterPlanetary File System (IPFS). Zaszyfrowane skróty danych są przechowywane w łańcuchu, podczas gdy kompletne zestawy danych pozostają w IPFS, co zmniejsza koszty pamięci masowej blockchain. Hybrydowe podejście polegające na łączeniu pamięci masowej on-chain i off-chain zapewnia równowagę między zapewnieniem dostępności danych a obniżeniem kosztów przechowywania, co jest częstym problemem w aplikacjach opartych na blockchainie.

Inteligentne kontrakty są wykorzystywane do dynamicznego zarządzania uprawnieniami użytkowników. Każdy użytkownik ma dostęp do czystych danych tylko wtedy, gdy posiada odpowiednie NFT, które służy jako jego token autoryzacyjny. Inteligentne kontrakty rejestrują cały dostęp do danych w dziennikach zdarzeń, zapewniając pełną identyfikowalność. Dzienniki te są niezmienne i mogą być poddawane inspekcji, co zapewnia przejrzystość i odpowiedzialność. Inteligentny kontrakt wykorzystuje funkcję grantAccess do walidacji wniosków o dostęp. Umowa sprawdza, czy użytkownik posiada odpowiednie NFT i, jeśli jest ważny, udziela dostępu do żądanych danych. Każde zdarzenie dostępu jest rejestrowane w łańcuchu bloków, dzięki czemu wszystkie działania związane z pobieraniem danych są możliwe do zweryfikowania. Każde zdarzenie dostępu do danych jest rejestrowane w czasie rzeczywistym przez inteligentny kontrakt, który wyzwala zdarzenie AccessGranted. To zdarzenie zawiera ważne informacje, takie jak adres portfela użytkownika, znacznik czasu dostępu i odpowiadający mu identyfikator tokena NFT. Dynamiczny charakter inteligentnych kontraktów pozwala na zarządzanie uprawnieniami w czasie rzeczywistym. Jest to szczególnie przydatne w zdecentralizowanych aplikacjach, w których kontrola dostępu musi być bardzo elastyczna i możliwa do dostosowania do zmieniających się warunków.

Aby rozwiązać problemy związane z prywatnością w publicznych środowiskach blockchain, system przechowuje miniatury o niskiej rozdzielczości (np. 64 x 64 piksele) na blockchainie, podczas gdy oryginalne obrazy w wysokiej rozdzielczości są szyfrowane i przechowywane poza łańcuchem w IPFS. Tylko autoryzowani użytkownicy, którzy posiadają odpowiednie NFT, mogą odzyskać klucze deszyfrujące w celu uzyskania dostępu do danych w wysokiej rozdzielczości. Nieautoryzowani użytkownicy otrzymują wersje danych z perturbacjami DEM w czasie rzeczywistym, zapewniając, że nie mogą uzyskać dostępu do oryginalnych danych.

Generowanie zakłóceń obrazu
Wczytywanie zestawów danych CIFAR10, CIFAR100 i ImageNet. Obrazy w zestawach danych są jednolicie zmieniane i konwertowane na tensor PyTorch, a tensor obrazu jest normalizowany przy użyciu średniej i odchylenia standardowego. Zainicjuj losowy szum δ¹, używając rozkładu Gaussa do wygenerowania początkowego zakłócenia. Losowy szum jest stosowany do każdego obrazu x, a strata między etykietą docelową a prognozą modelu jest obliczana na podstawie utraty entropii krzyżowej. W zbiorze danych klasy C dla próbki i, y_i jest docelową wartością etykiety, p_i jest prawdopodobieństwem przewidywania modelu, które określa ilościowo różnicę między rozkładem prawdopodobieństwa przewidywanym przez model a rzeczywistą etykietą, maksymalizując stratę, tak aby model generował fałszywe prognozy. Strata entropii krzyżowej wynosi:

figure-protocol-8

Wpływ perturbacji obrazu na predykcję obliczany zgodnie z funkcją straty, propagacja odwrotna aktualizuje perturbację, a zakres perturbacji i wartość perturbacji są stale aktualizowane przez wiele iteracji. Dla η szybkości uczenia się wzór na aktualizację dla perturbacji jest następujący:

figure-protocol-9

Generowanie zakłóceń tekstowych
Załaduj wstępnie wytrenowane modele do generowania osadzania tekstu. Niestandardowa sieć TextFeatureExtractor składająca się z dwóch bloków Transformera i w pełni połączonej warstwy służy do wyodrębniania obiektów z osadzania tekstu generowanego przez modele. Wprowadź informacje o użytkowniku i sygnaturę czasową użytkownika dostępu do wstępnie wytrenowanego modelu i dynamicznie generuj szum tekstowy za pośrednictwem dostosowanej sieci TextFeatureExtractor.

Obraz wejściowy I jest wprowadzany do modelu multimodalnego Qwen2.5-VL-7B-Instruct. Kierując się ustrukturyzowanym monitem, model generuje zwięzły opis tekstowy T_q. Ten wygenerowany tekst T_q jest wprowadzany do wstępnie wytrenowanego modelu językowego-base-uncased. Poprzez monity o ponowne zapisywanie specyficzne dla zadania system generuje zaburzony tekst figure-protocol-10 , który zachowuje semantykę podczas zmiany wyrażenia. Sieć TextFeatureExtractor odwzorowuje zaburzony tekst figure-protocol-11 na wielowymiarowy semantyczny wektor osadzania E_g.

Generuj perturbacje wielocelowe
Aby zapewnić zgodność między osadzaniem tekstu a perturbacjami obrazu, dostosowujemy kształt osadzanego tekstu do wymiarów perturbacji obrazu. Niech E_T i E_q reprezentują osadzenia tekstu, a P_L perturbację obrazu. Proces przekształcania zapewnia, że E_T i E_q są przekształcane do tej samej wymiarowości co P_L: figure-protocol-12 , gdzie C, H, W są wymiarami P_L. Zdefiniuj moduł fuzji mechanizmu uwagi, który łączy perturbacje osadzania tekstu i perturbacje obrazu, dynamicznie dostosowując perturbacje zgodnie z wagą uwagi tekstu. Fuzja to:

figure-protocol-13

gdzie α jest dynamiczną regulacją parametrów mechanizmu uwagi. δ^T jest zakłóceniem tekstu generowanym przez E_q i E_T. Dodaj termin regularyzacyjny do procesu szkolenia, aby zapobiec nadmiernemu dopasowaniu. Termin regularyzacji to norma L2 osadzania tekstu, która penalizuje perturbacje. Wieloobiektywowa funkcja utraty łączy w sobie utratę entropii krzyżowej i perturbację fuzji, a funkcja utraty wielu obiektów jest następująca:

figure-protocol-14

Cele funkcji straty to:

figure-protocol-15

gdzie λ jest współczynnikiem regularyzacji stosowanym do kontrolowania siły karnej perturbacji w celu zahamowania nadmiernych zaburzeń lub nadmiernego dopasowania. W badaniach nad atakami przeciwstawnymi stwierdzono, że figure-protocol-16 jest to granica perturbacji odczuwalna dla ludzkiego oka. Zdefiniowany jest proces trenowania i oceny, w tym generowanie perturbacji, obliczanie strat, trenowanie modelu itp.

Eksperymenty porównawcze
Przeprowadziliśmy kompleksową ocenę proponowanego dynamicznego szumu minimalizującego błędy (DEM) w odniesieniu do trzech istniejących metod: szumu minimalizującego błędy (EM), przenoszonych perturbacji przeciwstawnych (TAP) i stabilnego szumu minimalizującego błędy (SEM). Metody te zostały przetestowane na trzech zestawach danych porównawczych: CIFAR-10, CIFAR-100 i podzbiorze ImageNet, przy użyciu czterech powszechnie przyjętych architektur sieci neuronowych: VGG-16, ResNet-18, ResNet-50 i DenseNet-121, aby zapewnić zróżnicowane warunki eksperymentalne.

Ponadto zbadaliśmy solidność tych metod, stosując modele odszumiania oparte na dyfuzji w celu usunięcia hałasu obronnego i mierząc dokładność odszumionych przykładów na testowych zestawach danych. Ten krok miał na celu ocenę zdolności każdej metody do odparcia ataków odzyskiwania i utrzymania integralności prywatności danych w nieprzyjaznych warunkach. Wyniki wskazują, że nasz DEM przewyższa inne metody zarówno pod względem solidności, jak i dokładności we wszystkich zestawach danych i architekturach, wykazując swoją skuteczność jako ramy chroniącej prywatność.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ramy łańcucha bloków i inteligentnych kontraktów
Wyniki eksperymentalne wykazały, że proponowana struktura generowania i zarządzania nieuczącymi się przykładami zintegrowanymi z blockchainem (B-UEGMF), w połączeniu z inteligentnymi kontraktami, umożliwiła skuteczne dynamiczne zarządzanie dostępem do danych specyficznym dla klienta. W przypadku autoryzowanych użytkowników uzyskane czyste dane osiągnęły dokładność testu na poziomie 90,2% w modelu zastępczym ResNet-18 ocenianym na zestawie danych CIFAR-1...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Integracja blockchaina i UEs posunęła naprzód dziedzinę ochrony prywatności danych, zapewniając przejrzyste i zdecentralizowane rozwiązanie do zarządzania dostępem do danych. W przeciwieństwie do konwencjonalnych metod ochrony prywatności, które często opierają się wyłącznie na technikach perturbacji³¹, badanie to wypełnia lukę między ochroną danych a śledzeniem odpowiedzialności. W scenariuszach uczenia federacyjnego proponowana struktura zapewnia bezpieczne i prywatne trenowanie modelu w zdecent...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Autorzy nie mają nic istotnego dla tej publikacji do ujawnienia.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Prace te były wspierane przez Szkołę Bezpieczeństwa Cyberprzestrzeni Uniwersytetu w Zhengzhou, która zapewniła doskonałe środowisko badawcze i zasoby akademickie. Jesteśmy głęboko wdzięczni naszemu promotorowi, prof. Zijiao Zhangowi, za jego nieocenione wskazówki, wnikliwe sugestie i ciągłą zachętę podczas tych badań. Składamy również serdeczne podziękowania Centrum Zarządzania Siecią Uniwersytetu w Zhengzhou za dostarczenie eksperymentalnych serwerów, wysokowydajnych zasobów obliczeniowych i infrastruktury testowej blockchain, które były niezbędne do pomyślnego wdrożenia tego badania.

Wkład autora:
Ruijia Li wymyśliła badanie, opracowała metodologię, przeprowadziła eksperymenty, przeprowadziła analizę danych i napisała oryginalny rękopis. Zijiao Zhang zapewnił nadzór, walidację metodologii i krytyczną recenzję manuskryptu. Shouli Fu przyczynił się do opracowania wytycznych dotyczących wdrażania blockchain. Lin Zhu pomagał w selekcji i walidacji danych. Qunpeng Lei przyczynił się do opracowania ram teoretycznych. Buwei Wang zapewnił wsparcie techniczne. Wszyscy autorzy zrecenzowali i zatwierdzili ostateczną wersję manuskryptu.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Comments
CUDA 12.1	Technologia NVIDIA	Służy do zwiększania wydajności aplikacji głębokiego uczenia
NVIDIA A800 80 GB PCIe A800 80 GB PCIe	Technologia NVIDIA	Służy do trenowania modelu uczenia głębokiego
Język Python 3.10	Fundacja oprogramowania Python	Służy do wstępnego przetwarzania i analizy danych
PyTorch 2.5.1	Aktualności	Struktura uczenia głębokiego używana do trenowania modelu
Ubuntownik 22.04	Kanoniczny	System operacyjny używany do konfigurowania środowiska

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Multi-level Cross-view Contrastive Learning for Knowledge-aware Recommender System. Zou, D., Chen, Y., Wang, X. Proc 45th Int ACM SIGIR Conf Res Dev Info Retrieval, , 1358-1368 (2022).
A simple framework for contrastive learning of visual representations. Chen, T., Kornblith, S., Norouzi, M., Hinton, G. Proc 37th Int Conf Mach Learn, 119, 1597-1607 (2020).
Guo, J., et al. Domain watermark: Effective and harmless dataset copyright protection is closed at hand. arXiv. , (2023).
Hill, K. The Secretive Company That Might End Privacy as We Know It. , The New York Times. (2020).
Prabhu, V. U., Birhane, A. Large Image Datasets: A Pyrrhic Win for Computer Vision. arXiv. , (2020).
Unlearnable examples detection via iterative filtering. Yu, Y., Jiang, X., Wang, Y. Proc Int Conf Artificial Neural Net, , 241-256 (2024).
Jiang, Y., Ma, X., Erfani, S. M., Bailey, J. Unlearnable examples for time series. Adv Knowledge Disc Data Mining. , 213-225 (2024).
Unlearnable clusters: Towards label-agnostic unlearnable examples. Zhang, J., Liu, Y., Zhou, Q. Proc IEEE/CVF Conf Comput Vision Pattern Recognit, , 3984-3993 (2023).
Unlearnable examples: Making personal data unexploitable. Huang, H., Ma, X., Erfani, S. M., Bailey, J., Wang, Y. Int Conf Learning Representat, , 1-17 (2021).
Game-theoretic unlearnable example generator. Liu, S., Wang, Y., Gao, X. S. Proc AAAI Conf Artificial Intellig, 38, 21349-21358 (2024).
Robust unlearnable examples: Protecting data privacy against adversarial learning. Fu, S., He, F., Liu, Y., Shen, L., Tao, D. ICLR 2022 Proc Int Conf Learning Representat, , 1-22 (2022).
Stable unlearnable example: Enhancing the robustness of unlearnable examples via stable error-minimizing noise. Liu, S., Xu, K., Sun, L. Proc AAAI Conf Artificial Intellig, 37, 2473-2481 (2023).
Defensive unlearning with adversarial training for robust concept erasure in diffusion models. Zhang, Y., et al. NeurIPS 2024 Proc 38th Conf Neural Informat Process Syst, , 1-29 (2024).
Unlearnable examples give a false sense of security: Piercing through unexploitable data with learnable examples. Jiang, W., et al. MM 2023 Proc 31st ACM Int Conf Multimedia, , 8910-8921 (2023).
VQUNet: Vector quantization U-Net for defending adversarial attacks by regularizing unwanted noise. He, Z., Singhal, M. ICMVA 2024 Proc 2024 7th Int Conf Machine Vis Applicat, , 69-76 (2024).
Li, Z., et al. UnGANable: Defending Against GAN-based Face Manipulation. 32nd USENIX Secur Sympos. , 7213-7230 (2023).
Narcissus: A Practical Clean-Label Backdoor Attack with Limited Information. Zeng, Y., et al. Proc 2023 ACM SIGSAC Conf Comput Communicat Secur, , 771-785 (2023).
Meng, R., Chen, J., Liu, Z. Semantic deep hiding for robust unlearnable examples. IEEE Transact Info Forens Secur. 19 (12), 6545-6558 (2024).
Detection and defense of unlearnable examples. Zhu, Y., Yu, L., Gao, X. S. Proc AAAI Conf Artif Intellig, 38 (15), 17211-17219 (2024).
Unlearnable examples: Protecting open-source software from unauthorized neural code learning. Ji, Z., Ma, P., Wang, S. Proc Int Conf Software Eng Knowledge Eng, , 525-530 (2022).
Purify unlearnable examples via rate-constrained variational autoencoders. Yu, Y., et al. ICML 2024 Proc 41st Int Conf Mach Learn, 2379, 57678-57702 (2024).
Triggerless backdoor attack for NLP tasks with clean labels. Gan, L., Zhang, W., Li, X. Proc 2022 Conf North Am Chapter Associat Computat Linguist Human Lang Technol, , 2942-2952 (2022).
Punia, A., et al. A systematic review on blockchain-based access control systems in cloud environment. J Cloud Comput. 13, 146(2024).
SoK: Understanding Design Choices and Pitfalls of Trusted Execution Environments. Li, M., Yang, Y., Chen, G., Yan, M., Zhang, Y. Proc 19th ACM Asia Conf Comput Commun Secur, , 1600-1616 (2024).
Kayikci, S., Khoshgoftaar, T. M. Blockchain meets machine learning: a survey. J Big Data. 11, 9(2024).
Ullah, F., et al. Blockchain-enabled EHR access auditing: Enhancing healthcare data security. Heliyon. 10 (16), e34407(2024).
Tripathi, G., Ahad, M. A., Casalino, G. A comprehensive review of blockchain technology: Underlying principles and historical background with future challenges. Dec Anal J. 9, 100344(2023).
Saleh, A. M. S. Blockchain for secure and decentralized artificial intelligence in cybersecurity: A comprehensive review. Blockchain Res Appl. 5 (3), 100193(2024).
Badra, M., Borghol, R. An efficient blockchain-based privacy preservation scheme for smart grids. Front Communicat Net. 6, 1584152(2025).
Fine-Grained Access Control in the Era of Cloud Computing: An Analytical Review. Albulayhi, K., Abuhussein, A., Alsubaei, F., Sheldon, F. T. 2020 10th Ann Comput Communicat Workshop Conf, , 0748-0755 (2020).
Turgay, S., İlter, İ Perturbation Methods for Protecting Data Privacy: A Review of Techniques and Applications. Automat Machine Learning. 4, 31-41 (2023).
Williamson, S. M., Prybutok, V. Balancing Privacy and Progress: A Review of Privacy Challenges, Systemic Oversight, and Patient Perceptions in AI-Driven Healthcare. Appl Sci. 14 (2), 675(2024).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Oparta na blockchainie platforma do generowania i zarządzania niezrozumiałymi przykładami w celu zwiększenia prywatności danych i kontroli dostępu

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles