데이터 개인 정보 보호 및 액세스 제어 강화를 위한 학습 불가능한 예제 생성 및 관리를 위한 블록체인 기반 프레임워크

Ruijia Li; Zijiao Zhang; Shouli Fu; Lin Zhu; Qunpeng Lei; Buwei Wang

doi:10.3791/68338

Research Article

데이터 개인 정보 보호 및 액세스 제어 강화를 위한 학습 불가능한 예제 생성 및 관리를 위한 블록체인 기반 프레임워크

DOI:

10.3791/68338

⸱

August 22nd, 2025

Ruijia Li¹ , Zijiao Zhang¹ , Shouli Fu¹ , Lin Zhu¹ , Qunpeng Lei¹ , Buwei Wang¹

¹School of Cyberspace Security, Zhengzhou University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이 백서는 학습할 수 없는 예제를 생성하고 동적 섭동과 액세스 제어를 통합하기 위한 블록체인 기반 프레임워크를 제안합니다. 승인되지 않은 사용자가 교란된 데이터를 수신하도록 보장하고 민감한 정보를 보호하는 동시에 스마트 계약을 통해 효율적인 데이터 관리 및 액세스를 가능하게 함으로써 개인 정보 보호를 강화합니다.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

대규모 언어 모델(LLM)의 급속한 발전과 맥락에서 모델 훈련을 위해 방대한 양의 네트워크 데이터를 활용하여 비용이 많이 드는 데이터 주석을 우회할 수 있는 능력으로 인해 대조 학습이 널리 채택되었습니다. 그러나 이러한 광범위한 사용은 데이터 개인 정보 보호와 관련하여 심각한 우려를 불러일으킵니다. 데이터를 교란하여 모델 학습을 방해하는 기술인 학습할 수 없는 예제(UE)는 승인되지 않은 모델이 민감한 데이터를 오용하는 것을 효과적으로 방지합니다. 그러나 UE를 생성하는 기존 방법은 두 가지 주요 과제에 직면해 있습니다: 첫째, 이미지 UE에서 보호 섭동을 제거하는 확산 모델을 포함하여 역정제 또는 노이즈 제거와 같은 기술을 사용하여 섭동을 반전시킬 수 있습니다. 둘째, 데이터가 게시되면 데이터 추적성을 보장하고 액세스 제어를 관리하기가 어려워집니다. 이러한 문제를 해결하기 위해 본 백서에서는 UE를 생성하고 관리하기 위한 B-UEGMF(Blockchain-Integrated Unlearnable Example Generation and Management Framework)를 제안합니다. 블록체인의 탈중앙화되고 불변의 속성을 활용하여 예제 해시 값을 블록체인에 저장하고 스마트 계약을 통해 데이터 접근 권한을 동적으로 관리합니다. 또한 UE는 반전 방법에 대한 견고성을 향상시키는 다중 목표 섭동 기술인 DEM(Dynamic Error-Minimizing Noise)을 사용하여 생성됩니다. 또한 생성된 예제의 개인 정보 보호 기능에 대한 정량적 평가를 제공합니다. 실험 결과는 제안된 프레임워크가 효율적인 데이터 개인 정보 보호를 보장하면서 역공격에 대한 UE의 방어력을 크게 향상시켰음을 보여줍니다.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

최근 몇 년 동안 딥 러닝과 대규모 언어 모델의 급속한 발전으로 대조 학습은 비용이 많이 드는 수동 주석으로부터 독립적이기 때문에 효율적인 비지도 학습 접근 방식으로 부상했습니다 ^1,2. 그러나 공개 데이터 세트의 광범위한 사용으로 인해 개인 정보 침해 및 데이터 오용에 대한 심각한 우려가 제기되었습니다. 모델 훈련을 위해 공개적으로 사용 가능한 데이터를 무단으로 사용하는 사례가 점점 더 보편화되고 있습니다³. 예를 들어, 2017년에는 안면 인식 모델을 훈련하기 위해 승인되지 않은 공개 사진이 사용되었습니다⁴. 마찬가지로 Amazon은 소비자 공개 리뷰 데이터를 활용하여 모든 사용자의 명시적인 동의를 확보하지 않고 추천 시스템을 교육하여 개인 정보 보호 메커니즘의 취약성을 노출했습니다⁵.

이러한 문제를 해결하기 위해 학습할 수 없는 예제(UE)가 새로운 데이터 개인 정보 보호 기술로 등장했습니다. UE는 데이터 샘플에 감지할 수 없는 섭동을 추가하여 데이터에 대한 인간의 인식을 유지하면서 모델이 민감한 정보를 학습하지 못하도록 하는 지름길을 도입합니다 ^6,7,8. UE를 생성하는 기존 방법에는 주로 EM(Error-Minimizing noise) 섭동^{9, GAN}(Generative Adversarial Networks)¹⁰에 의한 섭동 생성, REM(Robust Error-Minimizing noise) 및 적대적 훈련을 통해 최적화된 SEM(Stable Error-Minimizing noise)이 포함됩니다^11,12. 또한 최근 확산 모델이 적용되어 잘못된 라벨 노이즈를 생성하여 개인 정보 보호를 더욱 강화했습니다¹³.

UE 생성의 상당한 진전에도 불구하고 특히 이러한 방법의 개인 정보 보호 효과가 완전히 검증되지 않은 실제 애플리케이션에서는 몇 가지 과제가 남아 있습니다. 특히 주요 과제는 다음과 같습니다.
복원 문제: 확산 모델은 데이터에 포함된 섭동을 예측하고 제거함으로써 학습 불가능한 예제를 부분적으로 복구하여 학습 가능성을 복원하고 개인 정보 보호를 손상시킬 수 있습니다^14,15. 학습 중에 데이터가 교란되더라도 복원 후에도 민감한 정보가 공개될 수 있습니다.
데이터 추적성 및 액세스 제어: 학습할 수 없는 예제가 공개되면 출처를 추적하고 액세스 제한을 시행하는 효과적인 메커니즘은 기술적으로 여전히 어려운 과제로 남아 있습니다¹⁶.
개인 정보 보호와 모델 성능의 균형: 기존 방법은 개인 정보를 보호하기 위해 학습할 수 없는 예제를 생성하는 데 중점을 두지만 개인 정보 보호와 모델 훈련 성능 간의 균형을 유지하는 것은 해결되지 않은 상태로 남아 있습니다 17,18,19. 대부분의 최신 연구는 개인 정보 보호를 우선시하지만 모델 훈련 중 성능 저하를 완화하는 데는 제한적인 관심을 기울입니다 ^20,21. 결과적으로 데이터 액세스 및 활용은 개인 정보 보호에서 중요한 관심사가 되었습니다²².

중앙 집중식 솔루션과 신뢰할 수 있는 실행 환경(TEE)은 데이터 액세스 제어에 대한 대체 접근 방식을 제공하지만 의료/법적 시나리오에서는 고유한 한계에 직면합니다. (1) 중앙 집중식 시스템은 단일 실패 지점 및 감사 종속성을 도입합니다²³; (2) TEE는 특수 하드웨어가 필요하고 분산형 합의가 부족합니다²⁴. 블록체인은 불변의 원장 속성이 UE 관리에 대한 세 가지 중요한 요구 사항, 즉 데이터 거버넌스 규정(예: HIPAA 감사 추적)에 대한 입증 가능한 준수, 다중 기관 환경에서의 검열 방지 액세스 제어, 타임스탬프가 찍힌 트랜잭션을 통한 세분화된 출처 추적을 직접 해결하기 때문에 최적의 솔루션으로 부상합니다 25,26,27.

우리의 프레임워크는 GPU 가속을 통해 중간 규모의 데이터 세트에 대한 최적의 성능을 입증하여 실시간 섭동 생성을 달성했습니다. 블록체인 운영은 측정 가능한 오버헤드를 도입하지만, 이러한 절충안은 다중 기관 의학 연구 또는 규제된 데이터 시장과 같이 불변의 액세스 로그가 필요한 시나리오에서 정당화됩니다. 시스템은 데이터 세트 크기에 따라 선형적으로 확장되지만 안정적인 작동을 위해서는 ≥16GB RAM과 4코어 CPU가 필요하므로 리소스가 제한된 엣지 장치에는 적합하지 않습니다.

이러한 문제를 해결하기 위해 이 백서에서는 B-UEGMF(Blockchain-Integrated Unlearnable Example Generation and Management Framework)를 제안합니다. 블록체인은 분산되고 불변의 분산 원장 기술로서 데이터 액세스 해시를 효과적으로 기록하고 스마트 계약에 의해 액세스 권한을 동적으로 관리함으로써 학습 불가능한 예^28,29의 개인 정보 보호 기능을 향상시킵니다. 이 프레임워크에서 승인된 사용자는 깨끗한 데이터에 액세스할 수 있는 반면, 승인되지 않은 사용자는 동적으로 생성된 학습 불가능한 예제에만 액세스할 수 있습니다. 기존 문제를 해결하기 위해 이 백서에서는 새로운 DEM(Dynamic Error-Minimizing Noise) 생성 방법을 소개합니다. DEM은 클라이언트별 정보와 시간 매개변수를 통합함으로써 데이터에 동적으로 섭동을 내장하여 각 데이터 요청에 대해 고유한 섭동을 생성하고 데이터 개인 정보 보호와 학습 불가능성을 모두 보장합니다. DEM 생성 프로세스는 그림 1에 나와 있습니다. 이 논문의 주요 기여는 다음과 같습니다.
동적 추적성 및 액세스 관리: 이 백서에서는 B-UEGMF 프레임워크를 제안하여 학습할 수 없는 예제의 릴리스와 관련된 추적성 및 액세스 제어 문제를 해결합니다. 블록체인의 탈중앙화 특성은 기존 시스템에서 신뢰할 수 있는 제3자 문제를 해결하는 동시에 투명성을 통해 원시 데이터를 노출하지 않고도 검증 가능한 액세스 로그를 가능하게 합니다. 블록체인의 투명성과 불변성을 활용하고 스마트 계약이 지원하는 동적 액세스 제어와 결합된 프레임워크는 승인되지 않은 사용자가 깨끗한 데이터를 복구하거나 배포할 수 없도록 보장하여 데이터 보안을 크게 향상시킵니다.

동적 섭동 생성 메커니즘: 스마트 계약이 다양한 클라이언트의 요청을 관리하는 동적 학습 불가 예제 생성 체계가 도입되었습니다. DEM 섭동은 클라이언트별 정보 및 시간 매개변수를 기반으로 승인되지 않은 클라이언트 요청에 대해 동적으로 생성됩니다. 이를 통해 교란 효과가 요청에 따라 달라지도록 하여 확산 기반 노이즈 제거 방법에 대한 저항력을 강화하고 승인되지 않은 사용자가 대규모 데이터 세트에 한 번에 액세스하는 것을 제한합니다.

CIFAR-10, CIFAR-100 및 ImageNet 데이터 세트에서 수행된 실험에 따르면 그림 2에서 볼 수 있듯이 DEM은 개인 정보 보호 및 리버스 엔지니어링 공격에 대한 저항성 측면에서 기존 방법(예: EM, TAP 및 SEM)을 능가하는 동시에 그림 3에서 볼 수 있듯이 EM에 비해 57%, SEM에 비해 25% 향상된 노이즈 제거 공격에 대한 저항성을 보여줍니다. 실제 시나리오에서의 잠재적 적용 가능성을 강조합니다.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

설치
우리는 데이터 세트 figure-protocol-1 figure-protocol-2 를 사용한 지도 분류 작업을 고려했습니다. 여기서 는 입력 특징을 나타내고 figure-protocol-3 K-클래스 문제에 대한 해당 클래스 레이블을 나타냅니다. 데이터 세트 D는 클린 학습 데이터 세트와 테스트 데이터 세트로 분할됩니다.

목표는 학습할 수 없는 데이터 세트 figure-protocol-4 를 figure-protocol-5 생성하기 위해 δ 작고 감지할 수 없는 섭동을 도입하여 깨끗한 훈련 데이터 세트를 수정하는 것입니다. 여기서 + δ. 섭동 δ figure-protocol-6 는 데이터의 정상적인 효용을 크게 변경하지 않도록 합니다. 주요 목표는 D_u에서 훈련된 모델 f_θ가 의미 있는 특징보다는 노이즈에 의해 유도된 관련 없는 패턴에 초점을 맞추도록 강요하여 학습을 방해하여 깨끗한 테스트 데이터 세트에서 일반화가 제대로 되지 않도록 하는 것입니다.

figure-protocol-7

블록체인 환경 시뮬레이션
블록체인 도구를 설치하기 위해 Hardhat 프레임워크는 스마트 계약을 배포하고 학습할 수 없는 예제 생성을 테스트하기 위해 로컬 환경에서 이더리움 네트워크를 시뮬레이션하는 데 사용됩니다. 로컬 네트워크를 시작하려면 여러 노드와 계정이 있는 시뮬레이션된 블록체인 네트워크가 초기화됩니다. 각 노드에는 트랜잭션 시뮬레이션을 용이하게 하기 위해 Ether와 같은 리소스가 할당됩니다. 스마트 계약을 개발하기 위해 사용자 권한을 동적으로 관리하도록 구현됩니다. 승인된 사용자는 깨끗한 데이터에 액세스할 수 있지만 승인되지 않은 사용자는 학습할 수 없는 예제에 액세스할 수 있습니다. 먼저 Node.js v16.x 및 Hardhat 2.8.4를 기반으로 개발 환경을 구성하고 Solidity 0.8.17 컴파일러를 사용하여 스마트 계약의 컴파일 및 최적화를 완료합니다. 컴파일 프로세스는 npx hardhat compile을 사용하여 명령줄에 의해 실행되어 ABI 및 바이트코드가 포함된 빌드 아티팩트를 생성합니다. 그런 다음 배포 스크립트 npx hardhat run scripts/deploy.js --network sepolia를 실행하여 계약을 Sepolia 테스트 네트워크에 배포하고 출력 계약 주소와 배포 트랜잭션 해시를 기록합니다. 성능 테스트 단계에서는 세 가지 핵심 테스트가 순차적으로 실행됩니다: 트랜잭션 비용 테스트는 계약의 grantAccess 메서드를 주기적으로 호출하여 가스 소비를 기록합니다. 처리량 테스트는 포병 도구를 사용하여 부하가 점진적으로 증가하는 사용자 요청을 시뮬레이션합니다. 스마트 계약의 기능을 검증하기 위해 데이터 저장 및 검색을 포함한 테스트 및 검증 트랜잭션이 수행됩니다.

온체인 사용자 및 권한 메커니즘 구축
고유한 사용자 계정은 블록체인 지갑(예: MetaMask)을 사용하여 생성되며, 각 지갑은 개인 키와 공개 키로 구성됩니다. 프로토타입 구현은 합성 사용자 엔터티가 공개적으로 사용 가능한 데이터 세트를 분산 시스템에 업로드하고 분산 원장에 암호화 해시 값만 저장하는 시뮬레이션된 블록체인 환경을 사용합니다. 이는 비효율적이고 비용이 많이 드는 실제 데이터를 온체인에 저장하지 않고도 데이터 무결성을 보장합니다. 실제 데이터는 일반적으로 IPFS와 같은 분산형 스토리지 시스템을 사용하여 오프체인에 저장되어 보안과 개인 정보 보호를 유지하면서 효율적인 데이터 관리를 보장합니다. 대체 불가능한 토큰(NFT) 및 액세스 제어에 대해 본 연구는 ERC-721 표준을 준수하는 NFT를 사용하여 세분화된 액세스 제어 메커니즘을 구현합니다. 학습할 수 없는 예제의 각 데이터 세트는 데이터에 액세스하는 키 역할을 하는 고유한 tokenId와 연결됩니다. 사용자는 Merkle 증명을 제출하여 액세스를 요청합니다. 이러한 증명은 안전하고 분산된 방식으로 사용자의 신원을 확인합니다. 증명 검증에 성공하면 계약은 고유한 NFT를 발행하여 사용자의 지갑으로 전송합니다. 이 NFT는 학습할 수 없는 특정 예제와 관련된 데이터에 액세스할 수 있는 사용자의 권리를 나타냅니다. NFT를 사용하면 분산되고 변경할 수 없는 기록을 기반으로 승인된 사용자만 데이터에 액세스할 수 있습니다. 이는 일반적으로 그룹 수준에서 작동하고 높은 보안 애플리케이션에 필요한 세분성을 제공하지 못할 수 있는 기존의 RBAC(Role-Based Access Control)와는 대조적입니다³⁰.

스마트 계약은 ownerOf 함수를 통해 액세스 권한을 지속적으로 확인하고 NFT의 소유권을 확인하여 승인된 사용자만 깨끗한 데이터에 액세스할 수 있도록 합니다. 관리자는 revokeAccess 기능을 통해 NFT를 파기하여 액세스 권한을 취소할 수 있으므로 시간이 지남에 따라 사용자 액세스를 유연하게 관리할 수 있습니다. 운영 워크플로는 네 가지 중요한 단계로 구성됩니다: (1) 사용자는 Merkle 증명이 포함된 액세스 요청을 제출합니다. (2) 계약은 이러한 증명의 유효성을 확인합니다. (3) 검증에 성공하면 계약은 해당 NFT를 발행합니다. (4) 사용자는 NFT의 메타데이터에 포함된 IPFS 콘텐츠 식별자(CID)를 사용하여 암호화된 데이터를 검색합니다. NFT를 활용함으로써 세분화된 권한 제어(데이터 수준 대 그룹 수준), 더 나은 감사 기능(불변의 온체인 기록), 권한 이전 가능성(NFT 마켓플레이스 거래)과 같은 기존 액세스 제어 메커니즘에 비해 여러 가지 이점을 얻을 수 있습니다.

다중 서명 계약은 Merkle 루트 해시를 업데이트하기 위해 구현되어 데이터의 무단 변조를 방지합니다. 이 시스템은 각 데이터 세트를 고유한 tokenId에 바인딩하여 시빌 방지 메커니즘을 통합하여 악의적인 행위자가 무단 데이터에 액세스하기 위해 사기성 토큰을 생성할 수 없도록 합니다. UE는 IPFS(InterPlanetary File System) 네트워크에 업로드되기 전에 AES-256을 사용하여 암호화됩니다. 암호화된 데이터 해시는 온체인에 저장되고 전체 데이터 세트는 IPFS에 남아 블록체인 스토리지 오버헤드를 줄입니다. 온체인 스토리지와 오프체인 스토리지를 결합하는 하이브리드 접근 방식은 블록체인 기반 애플리케이션의 일반적인 관심사인 데이터 가용성 보장과 스토리지 비용 절감 사이의 균형을 유지합니다.

스마트 계약은 사용자 권한을 동적으로 관리하는 데 사용됩니다. 각 사용자는 인증 토큰 역할을 하는 적절한 NFT를 보유하고 있는 경우에만 클린 데이터에 대한 액세스 권한이 부여됩니다. 스마트 계약은 모든 데이터 액세스를 이벤트 로그에 기록하여 완전한 추적성을 제공합니다. 이러한 로그는 변경할 수 없으며 감사할 수 있어 투명성과 책임성을 제공합니다. 스마트 계약은 grantAccess 함수를 사용하여 액세스 요청의 유효성을 검사합니다. 계약은 사용자가 적절한 NFT를 보유하고 있는지 확인하고 유효한 경우 요청된 데이터에 대한 액세스 권한을 부여합니다. 각 액세스 이벤트는 블록체인에 기록되어 모든 데이터 검색 활동을 검증할 수 있습니다. 모든 데이터 액세스 이벤트는 스마트 계약에 의해 실시간으로 기록되며, 이는 AccessGranted 이벤트를 트리거합니다. 이 이벤트에는 사용자의 지갑 주소, 액세스 타임스탬프, 해당 NFT tokenId 등 중요한 정보가 포함되어 있습니다. 스마트 계약의 동적 특성으로 인해 권한을 실시간으로 관리할 수 있습니다. 이는 액세스 제어가 매우 유연하고 변화하는 조건에 적응할 수 있어야 하는 분산형 애플리케이션에서 특히 유용합니다.

퍼블릭 블록체인 환경의 개인 정보 보호 문제를 해결하기 위해 시스템은 저해상도 썸네일(예: 64 x 64 픽셀)을 블록체인에 저장하고 원본 고해상도 이미지는 암호화되어 IPFS의 오프체인에 저장됩니다. 해당 NFT를 보유한 승인된 사용자만 고해상도 데이터에 액세스하기 위한 암호 해독 키를 검색할 수 있습니다. 권한이 없는 사용자는 실시간 DEM 섭동이 있는 데이터 버전을 수신하여 원본 데이터에 액세스할 수 없도록 합니다.

이미지 섭동 생성
CIFAR10, CIFAR100 및 ImageNet 데이터 세트를 로드합니다. 데이터 세트의 이미지는 균일하게 크기가 조정되어 PyTorch 텐서로 변환되며 이미지 텐서는 평균 및 표준 편차를 사용하여 정규화됩니다. 가우스 분포를 사용하여 초기 섭동을 생성하기 위해 랜덤 노이즈δ¹을 초기화합니다. 각 이미지 x에 랜덤 노이즈가 적용되고, 교차 엔트로피 손실을 기반으로 대상 레이블과 모델 예측 사이의 손실이 계산됩니다. 클래스 C의 데이터 세트에서 샘플 i의 경우 y_i는 대상 레이블 값이고 p_i는 모델 예측 확률로, 모델에서 예측한 확률 분포와 실제 레이블 간의 차이를 정량화하여 모델이 잘못된 예측을 생성하도록 손실을 최대화합니다. 교차 엔트로피 손실은 다음과 같습니다.

figure-protocol-8

손실 함수에 따라 계산된 예측에 대한 이미지 섭동의 영향, 역전파는 섭동을 업데이트하고 섭동 범위와 섭동 값은 여러 반복을 통해 지속적으로 업데이트됩니다. 학습률 η의 경우 섭동에 대한 업데이트 공식은 다음과 같습니다.

figure-protocol-9

텍스트 섭동 생성
텍스트 임베딩을 생성하기 위해 사전 학습된 BERT 모델을 로드합니다. 두 개의 Transformer 블록과 완전히 연결된 레이어로 구성된 사용자 정의 TextFeatureExtractor 네트워크는 BERT 모델에서 생성된 텍스트 임베딩에서 기능을 추출하는 데 사용됩니다. 액세스 사용자의 사용자 정보와 타임스탬프를 사전 학습된 BERT 모델에 입력하고 사용자 지정된 TextFeatureExtractor 네트워크를 통해 텍스트 노이즈를 동적으로 생성합니다.

입력 이미지 I은 Qwen2.5-VL-7B-Instruct 다중 모드 모델에 공급됩니다. 구조화된 프롬프트에 따라 모델은 간결한 텍스트 설명 T_q를 생성합니다. 이렇게 생성된 텍스트 T_q는 사전 학습된 BERT 기반 대소문자 없는 언어 모델에 입력됩니다. 작업별 재작성 프롬프트를 통해 시스템은 표현을 변경하면서 의미를 보존하는 교란된 텍스트 figure-protocol-10 를 생성합니다. TextFeatureExtractor 네트워크는 교란된 텍스트 figure-protocol-11 를 고차원 의미론적 임베딩 벡터 EG에 매핑합니다.

다중 대상 섭동 생성
텍스트 임베딩과 이미지 섭동 간의 호환성을 보장하기 위해 이미지 섭동의 치수와 일치하도록 텍스트 임베딩의 모양을 조정합니다. _ET와 E_q는 텍스트 임베딩을 나타내고 _PL은 이미지 섭동을 나타냅니다. 재형성 프로세스를 통해 ET 및 E_q가 PL과 동일한 차원으로 변환됩니다. figure-protocol-12 여기서 C, H, W는 PL의 치수입니다. 텍스트 임베딩 섭동과 이미지 섭동을 융합하여 텍스트의 주의 가중치에 따라 섭동을 동적으로 조정하는 주의 메커니즘 융합 모듈을 정의합니다. 융합은 다음과 같습니다.

figure-protocol-13

여기서 α는 주의 메커니즘 매개변수의 동적 조정입니다. δ^T는 E_q와 E_T에 의해 생성된 텍스트 교란입니다. 과적합을 방지하기 위해 학습 프로세스에 정규화 항을 추가합니다. 정규화 항은 섭동에 페널티를 부과하는 텍스트 임베딩의 L2 규범입니다. 다중 목적 손실 함수는 교차 엔트로피 손실과 융합 섭동을 결합하며 다중 목적 손실 함수는 다음과 같습니다.

figure-protocol-14

손실 함수의 목표는 다음과 같습니다.

figure-protocol-15

여기서 λ 는 과도한 섭동 또는 과적합을 억제할 목적으로 섭동의 페널티력을 제어하는 데 사용되는 정규화 계수입니다. 적대적 공격에 대한 연구에서 인간의 눈으로 감지할 수 있는 섭동 한계가 밝혀졌습니다 figure-protocol-16 . 섭동 생성, 손실 계산, 모델 훈련 등을 포함한 훈련 및 평가 프로세스가 정의됩니다.

비교 실험
우리는 제안된 동적 오류 최소화 노이즈(DEM)에 대해 세 가지 기존 방법인 오류 최소화 노이즈(EM), TAP(Transferable Adversarial Perturbations) 및 SEM(Stable Error-Minimizing Noise)에 대한 포괄적인 평가를 수행했습니다. 이러한 방법은 다양한 실험 조건을 보장하기 위해 널리 채택된 4가지 신경망 아키텍처(VGG-16, ResNet-18, ResNet-50 및 DenseNet-121)를 사용하여 CIFAR-10, CIFAR-100 및 ImageNet의 하위 집합인 세 가지 벤치마크 데이터 세트에서 테스트되었습니다.

또한 확산 기반 노이즈 제거 모델을 적용하여 방어 노이즈를 제거하고 테스트 데이터 세트에서 노이즈 제거된 예제의 정확도를 측정하여 이러한 방법의 견고성을 조사했습니다. 이 단계는 적대적인 조건에서 복구 공격에 저항하고 데이터 개인 정보 보호 무결성을 유지하는 각 방법의 능력을 평가하는 것을 목표로 했습니다. 결과는 DEM이 모든 데이터 세트와 아키텍처에서 견고성과 정확성 모두에서 다른 방법보다 성능이 뛰어나 개인 정보 보호 프레임워크로서의 효율성을 입증한다는 것을 나타냅니다.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

블록체인 및 스마트 계약 프레임워크
실험 결과는 제안된 B-UEGMF(Blockchain-Integrated Unlearnable Example Generation and Management Framework)가 스마트 계약과 결합되어 데이터에 대한 클라이언트별 액세스를 효과적으로 동적으로 관리할 수 있음을 보여주었습니다. 승인된 사용자의 경우 검색된 클린 데이터는 CIFAR-10 데이터 세트에서 평가된 ResNet-18 대리 모델에서 90.2%의 테스트 정확도를 달성했습니다. 반면, DEM에서 생성된 UE에 액세스하는 무단 사용자는 13.0%로 현저히 낮은 테스트 정확도를 얻었습니다. 이러한 결과는 그림 2에서 볼 수 있듯이 강력한 학습 불가능한 예제를 통해 데이터 개인 정보를 보호하면서 액세스 제어를 효과적으로 시행하는 B-UEGMF의 기능을 검증합니다. 더 많은 실험 결과는 표 1에 나와 있습니다.

...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

블록체인과 UE의 통합은 데이터 액세스 관리를 위한 투명하고 분산된 솔루션을 제공함으로써 데이터 개인 정보 보호 분야를 발전시켰습니다. 종종 섭동 기술에만 의존하는 기존의 개인 정보 보호 방법과 달리³¹, 이 연구는 데이터 보호와 책임 추적 사이의 격차를 해소합니다. 연합 학습 시나리오에서 제안된 프레임워크는 분산형 데이터 세트 전반에 걸쳐 안전한 비공개 모델 훈련을 보장하여 무단 데이터 복구 위험을 완화합니다. 또한 DEM에 내장된 주의 메커니즘은 적응성과 견고성을 향상시켜 복잡한 실제 시나리오에 적용할 수 있는 길을 열어줍니다.

기여에도 불구하고 이 연구에는 몇 가지 한계가 있습니다. 첫째, 현재 프레임워크는 주로 이미지 분류 작업에서 개인 정보 보호를 목표로 하며 다른 다운스트림 작업에서의 성능은 아직 탐구되지 않았습니다. 둘째, 스토리지 및 트랜잭션 비용을 포함한 블록체...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

저자는 이 간행물과 관련된 공개할 내용이 없습니다.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이 작업은 우수한 연구 환경과 학술 자원을 제공한 정저우 대학교 사이버 공간 보안 학교의 지원을 받았습니다. 우리는 이 연구 전반에 걸쳐 귀중한 지도, 통찰력 있는 제안 및 지속적인 격려에 대해 지도교수인 Zijiao Zhang 교수에게 깊은 감사를 드립니다. 또한 본 연구의 성공적인 구현에 필수적인 실험 서버, 고성능 컴퓨팅 리소스 및 블록체인 테스트베드 인프라를 제공한 정저우 대학의 네트워크 관리 센터에도 진심으로 감사드립니다.

저자 기여:
Ruijia Li는 연구를 구상하고, 방법론을 개발하고, 실험을 수행하고, 데이터 분석을 수행하고, 원본 원고를 작성했습니다. Zijiao Zhang은 감독, 방법론 검증 및 비판적 원고 검토를 제공했습니다. Shouli Fu는 블록체인 구현 지침에 기여했습니다. Lin Zhu는 데이터 큐레이션 및 검증을 지원했습니다. Qunpeng Lei는 이론적 프레임워크 개발에 기여했습니다. Buwei Wang은 기술 지원을 제공했습니다. 모든 저자는 최종 원고를 검토하고 승인했습니다.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Comments
쿠다 12.1	엔비디아	딥 러닝 애플리케이션의 성능을 향상시키는 데 사용됩니다.
NVIDIA A800 80GB PCIe A800 80GB PCIe	엔비디아	딥러닝 모델 학습에 사용
파이썬 3.10	파이썬 소프트웨어 재단	데이터 전처리 및 분석에 사용
파이토치 2.5.1	페이스북	모델 학습에 사용되는 딥러닝 프레임워크
우분투 22.04	교회법에 의거한	환경 설정에 사용되는 운영 체제

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Multi-level Cross-view Contrastive Learning for Knowledge-aware Recommender System. Zou, D., Chen, Y., Wang, X. Proc 45th Int ACM SIGIR Conf Res Dev Info Retrieval, , 1358-1368 (2022).
A simple framework for contrastive learning of visual representations. Chen, T., Kornblith, S., Norouzi, M., Hinton, G. Proc 37th Int Conf Mach Learn, 119, 1597-1607 (2020).
Guo, J., et al. Domain watermark: Effective and harmless dataset copyright protection is closed at hand. arXiv. , (2023).
Hill, K. The Secretive Company That Might End Privacy as We Know It. , The New York Times. (2020).
Prabhu, V. U., Birhane, A. Large Image Datasets: A Pyrrhic Win for Computer Vision. arXiv. , (2020).
Unlearnable examples detection via iterative filtering. Yu, Y., Jiang, X., Wang, Y. Proc Int Conf Artificial Neural Net, , 241-256 (2024).
Jiang, Y., Ma, X., Erfani, S. M., Bailey, J. Unlearnable examples for time series. Adv Knowledge Disc Data Mining. , 213-225 (2024).
Unlearnable clusters: Towards label-agnostic unlearnable examples. Zhang, J., Liu, Y., Zhou, Q. Proc IEEE/CVF Conf Comput Vision Pattern Recognit, , 3984-3993 (2023).
Unlearnable examples: Making personal data unexploitable. Huang, H., Ma, X., Erfani, S. M., Bailey, J., Wang, Y. Int Conf Learning Representat, , 1-17 (2021).
Game-theoretic unlearnable example generator. Liu, S., Wang, Y., Gao, X. S. Proc AAAI Conf Artificial Intellig, 38, 21349-21358 (2024).
Robust unlearnable examples: Protecting data privacy against adversarial learning. Fu, S., He, F., Liu, Y., Shen, L., Tao, D. ICLR 2022 Proc Int Conf Learning Representat, , 1-22 (2022).
Stable unlearnable example: Enhancing the robustness of unlearnable examples via stable error-minimizing noise. Liu, S., Xu, K., Sun, L. Proc AAAI Conf Artificial Intellig, 37, 2473-2481 (2023).
Defensive unlearning with adversarial training for robust concept erasure in diffusion models. Zhang, Y., et al. NeurIPS 2024 Proc 38th Conf Neural Informat Process Syst, , 1-29 (2024).
Unlearnable examples give a false sense of security: Piercing through unexploitable data with learnable examples. Jiang, W., et al. MM 2023 Proc 31st ACM Int Conf Multimedia, , 8910-8921 (2023).
VQUNet: Vector quantization U-Net for defending adversarial attacks by regularizing unwanted noise. He, Z., Singhal, M. ICMVA 2024 Proc 2024 7th Int Conf Machine Vis Applicat, , 69-76 (2024).
Li, Z., et al. UnGANable: Defending Against GAN-based Face Manipulation. 32nd USENIX Secur Sympos. , 7213-7230 (2023).
Narcissus: A Practical Clean-Label Backdoor Attack with Limited Information. Zeng, Y., et al. Proc 2023 ACM SIGSAC Conf Comput Communicat Secur, , 771-785 (2023).
Meng, R., Chen, J., Liu, Z. Semantic deep hiding for robust unlearnable examples. IEEE Transact Info Forens Secur. 19 (12), 6545-6558 (2024).
Detection and defense of unlearnable examples. Zhu, Y., Yu, L., Gao, X. S. Proc AAAI Conf Artif Intellig, 38 (15), 17211-17219 (2024).
Unlearnable examples: Protecting open-source software from unauthorized neural code learning. Ji, Z., Ma, P., Wang, S. Proc Int Conf Software Eng Knowledge Eng, , 525-530 (2022).
Purify unlearnable examples via rate-constrained variational autoencoders. Yu, Y., et al. ICML 2024 Proc 41st Int Conf Mach Learn, 2379, 57678-57702 (2024).
Triggerless backdoor attack for NLP tasks with clean labels. Gan, L., Zhang, W., Li, X. Proc 2022 Conf North Am Chapter Associat Computat Linguist Human Lang Technol, , 2942-2952 (2022).
Punia, A., et al. A systematic review on blockchain-based access control systems in cloud environment. J Cloud Comput. 13, 146(2024).
SoK: Understanding Design Choices and Pitfalls of Trusted Execution Environments. Li, M., Yang, Y., Chen, G., Yan, M., Zhang, Y. Proc 19th ACM Asia Conf Comput Commun Secur, , 1600-1616 (2024).
Kayikci, S., Khoshgoftaar, T. M. Blockchain meets machine learning: a survey. J Big Data. 11, 9(2024).
Ullah, F., et al. Blockchain-enabled EHR access auditing: Enhancing healthcare data security. Heliyon. 10 (16), e34407(2024).
Tripathi, G., Ahad, M. A., Casalino, G. A comprehensive review of blockchain technology: Underlying principles and historical background with future challenges. Dec Anal J. 9, 100344(2023).
Saleh, A. M. S. Blockchain for secure and decentralized artificial intelligence in cybersecurity: A comprehensive review. Blockchain Res Appl. 5 (3), 100193(2024).
Badra, M., Borghol, R. An efficient blockchain-based privacy preservation scheme for smart grids. Front Communicat Net. 6, 1584152(2025).
Fine-Grained Access Control in the Era of Cloud Computing: An Analytical Review. Albulayhi, K., Abuhussein, A., Alsubaei, F., Sheldon, F. T. 2020 10th Ann Comput Communicat Workshop Conf, , 0748-0755 (2020).
Turgay, S., İlter, İ Perturbation Methods for Protecting Data Privacy: A Review of Techniques and Applications. Automat Machine Learning. 4, 31-41 (2023).
Williamson, S. M., Prybutok, V. Balancing Privacy and Progress: A Review of Privacy Challenges, Systemic Oversight, and Patient Perceptions in AI-Driven Healthcare. Appl Sci. 14 (2), 675(2024).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

데이터 개인 정보 보호 및 액세스 제어 강화를 위한 학습 불가능한 예제 생성 및 관리를 위한 블록체인 기반 프레임워크

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles