מסגרת מבוססת בלוקצ'יין ליצירה וניהול של דוגמאות בלתי ניתנות ללמידה לשיפור פרטיות הנתונים ובקרת הגישה

Ruijia Li; Zijiao Zhang; Shouli Fu; Lin Zhu; Qunpeng Lei; Buwei Wang

doi:10.3791/68338

Research Article

מסגרת מבוססת בלוקצ'יין ליצירה וניהול של דוגמאות בלתי ניתנות ללמידה לשיפור פרטיות הנתונים ובקרת הגישה

DOI:

10.3791/68338

⸱

August 22nd, 2025

Ruijia Li¹ , Zijiao Zhang¹ , Shouli Fu¹ , Lin Zhu¹ , Qunpeng Lei¹ , Buwei Wang¹

¹School of Cyberspace Security, Zhengzhou University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

מאמר זה מציע מסגרת מבוססת בלוקצ'יין ליצירת דוגמאות בלתי ניתנות ללמידה, המשלבת הפרעה דינמית עם בקרת גישה. זה משפר את הגנת הפרטיות על ידי הבטחה שמשתמשים לא מורשים יקבלו נתונים מופרעים, שמירה על מידע רגיש תוך מתן אפשרות לניהול וגישה יעילים לנתונים באמצעות חוזים חכמים.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

בהקשר של ההתפתחות המהירה של מודלים גדולים של שפה (LLMs), למידה ניגודית אומצה באופן נרחב בשל יכולתה לעקוף הערות נתונים יקרות על ידי מינוף כמויות עצומות של נתוני רשת לאימון מודלים. עם זאת, שימוש נרחב זה מעלה חששות משמעותיים לגבי הגנה על פרטיות הנתונים. דוגמאות בלתי ניתנות ללמידה (UEs), טכניקה המשבשת את למידת המודלים על ידי הפרעה לנתונים, מונעת למעשה ממודלים לא מורשים לעשות שימוש לרעה בנתונים רגישים. עם זאת, השיטות הקיימות ליצירת UEs מתמודדות עם שני אתגרים עיקריים: ראשית, ניתן להפוך הפרעות באמצעות טכניקות כגון טיהור הפוך או דה-נוז, כולל מודלים של דיפוזיה המסירים הפרעות הגנה ב-UE של תמונה; שנית, לאחר פרסום הנתונים, הבטחת מעקב אחר נתונים וניהול בקרת גישה הופכת לקשה. כדי לטפל בסוגיות אלה, מאמר זה מציע מסגרת יצירה וניהול דוגמה בלתי ניתנת ללמידה משולבת בלוקצ'יין (B-UEGMF) ליצירה וניהול של UEs. על ידי מינוף המאפיינים המבוזרים והבלתי ניתנים לשינוי של בלוקצ'יין, אנו מאחסנים ערכי גיבוב לדוגמה בבלוקצ'יין ומנהלים באופן דינמי זכויות גישה לנתונים באמצעות חוזים חכמים. בנוסף, UEs נוצרים באמצעות טכניקת הפרעה רב-תכליתית, רעש דינמי למזעור שגיאות (DEM), המשפרת את החוסן כנגד שיטות היפוך. אנו מספקים גם הערכה כמותית של יכולות הגנת הפרטיות של הדוגמאות שנוצרו. תוצאות הניסוי מראות כי המסגרת המוצעת שיפרה משמעותית את ההגנה על UEs מפני התקפות הפוכות תוך הבטחת ניהול יעיל של פרטיות נתונים.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

בשנים האחרונות, עם ההתקדמות המהירה של למידה עמוקה ומודלים גדולים של שפה, למידה ניגודית התגלתה כגישת למידה יעילה ללא פיקוח בשל עצמאותה מהערות ידניות יקרות ^1,2. עם זאת, השימוש הנרחב במערכי נתונים ציבוריים העלה חששות משמעותיים לגבי הפרות פרטיות ושימוש לרעה בנתונים. מקרים של שימוש לא מורשה בנתונים הזמינים לציבור לצורך אימון מודלים הפכו נפוצים יותר^{ויותר 3}. לדוגמה, בשנת 2017 נעשה שימוש בתצלומים ציבוריים לא מורשים כדי להכשיר דוגמניות לזיהוי פנים⁴. באופן דומה, אמזון השתמשה בנתוני ביקורת ציבור צרכנים כדי לאמן את מערכות ההמלצות שלה מבלי להבטיח הסכמה מפורשת מכל המשתמשים, וחשפה נקודות תורפה במנגנוני הגנת הפרטיות⁵.

כדי לטפל בבעיות אלה, דוגמאות בלתי ניתנות ללמידה (UEs) התגלו כטכניקה חדשה להגנה על פרטיות נתונים. UEs מוסיפים הפרעות בלתי מורגשות לדגימות נתונים, ומציגים קיצור דרך המונע ממודלים ללמוד מידע רגיש תוך שמירה על התפיסה האנושית של הנתונים ^6,7,8. השיטות הקיימות ליצירת UEs כוללות בעיקר הפרעות רעש ממזער שגיאות (EM)⁹, יצירת הפרעות על ידי רשתות יריבות גנרטיביות (GANs)¹⁰, רעש ממזער שגיאות חזק (REM) ורעש ממזער שגיאות יציב (SEM) המותאם באמצעות אימון יריב^11,12. בנוסף, מודלים של דיפוזיה יושמו לאחרונה כדי ליצור רעש תווית שגוי, מה שמשפר עוד יותר את הגנת הפרטיות¹³.

למרות ההתקדמות המשמעותית ביצירת UEs, נותרו מספר אתגרים, במיוחד ביישומים בעולם האמיתי שבהם השפעות הגנת הפרטיות של שיטות אלה לא אומתו במלואן. באופן ספציפי, האתגרים העיקריים כוללים:
בעיות שחזור: מודלים של דיפוזיה יכולים לשחזר חלקית דוגמאות בלתי ניתנות ללמידה על ידי חיזוי והסרה של ההפרעות המוטמעות בנתונים, ובכך לשחזר את יכולת הלמידה ולפגוע בהגנת הפרטיות^14,15. גם כאשר הנתונים מופרעים במהלך האימון, מידע רגיש עדיין עשוי להיחשף לאחר השחזור.
מעקב אחר נתונים ובקרת גישה: לאחר שחרור דוגמאות בלתי ניתנות ללמידה, מנגנונים יעילים להתחקות אחר מקורם ולאכוף הגבלות גישה נשארים מאתגרים מבחינה טכנית¹⁶.
איזון הגנת פרטיות וביצועי מודל: בעוד שהשיטות הקיימות מתמקדות ביצירת דוגמאות בלתי ניתנות ללמידה כדי להגן על הפרטיות, שמירה על איזון בין הגנת הפרטיות לביצועי אימון המודל נותרה לא פתורה 17,18,19. רוב המחקרים הנוכחיים נותנים עדיפות להגנה על הפרטיות אך מקדישים תשומת לב מוגבלת להפחתת ירידה בביצועים במהלך אימון המודל^20,21. כתוצאה מכך, גישה וניצול נתונים הפכו לדאגות קריטיות בהגנה על פרטיות²².

בעוד שפתרונות מרכזיים וסביבות ביצוע מהימנות (TEE) מציעים גישות חלופיות לבקרת גישה לנתונים, הם מתמודדים עם מגבלות מובנות בתרחישים רפואיים/משפטיים: (1) מערכות מרכזיות מציגות נקודות כשל בודדות ותלות בביקורת²³; (2) TEEs דורשים חומרה מיוחדת וחסרים קונצנזוס מבוזר²⁴. בלוקצ'יין מתגלה כפתרון האופטימלי מכיוון שמאפייני הספר הבלתי ניתנים לשינוי שלו נותנים מענה ישיר לשלוש דרישות קריטיות לניהול UE: עמידה ניתנת להוכחה בתקנות ממשל נתונים (למשל, מסלולי ביקורת HIPAA), בקרת גישה עמידה לצנזורה במסגרות מרובות מוסדות, ומעקב אחר מוצא פרטני באמצעות עסקאות עם חותמת זמן 25,26,27.

המסגרת שלנו הדגימה ביצועים מיטביים עבור מערכי נתונים בקנה מידה בינוני עם האצת GPU, והשגת יצירת הפרעות בזמן אמת. בעוד שפעולות בלוקצ'יין מציגות תקורה מדידה, פשרה זו מוצדקת בתרחישים הדורשים יומני גישה בלתי ניתנים לשינוי, כגון מחקר רפואי רב-מוסדי או שווקי נתונים מוסדרים. המערכת מתרחבת באופן ליניארי עם גודל מערך הנתונים אך דורשת ≥ 16 GB RAM ומעבדים 4 ליבות לפעולה יציבה, מה שהופך אותה לפחות מתאימה להתקני קצה מוגבלים במשאבים.

כדי להתמודד עם אתגרים אלה, מאמר זה מציע מסגרת יצירה וניהול דוגמה בלתי ניתנת ללמידה משולבת בלוקצ'יין (B-UEGMF). בלוקצ'יין, כטכנולוגיית ספר חשבונות מבוזר ובלתי ניתנת לשינוי, מתעדת ביעילות גיבובים של גישה לנתונים ומנהלת באופן דינמי הרשאות גישה על ידי חוזים חכמים, ובכך משפרת את יכולות הגנת הפרטיות של דוגמאות בלתי ניתנות ללמידה^28,29. במסגרת זו, משתמשים מורשים יכולים לגשת לנתונים נקיים, בעוד שמשתמשים לא מורשים יכולים לגשת רק לדוגמאות בלתי ניתנות ללמידה שנוצרו באופן דינמי. כדי להתמודד עם בעיות קיימות, מאמר זה מציג שיטה חדשה ליצירת רעש דינמי ממזער שגיאות (DEM). על ידי שילוב מידע ספציפי ללקוח ופרמטרים זמניים, DEM מטמיע באופן דינמי הפרעות בנתונים, יוצר הפרעות ייחודיות לכל בקשת נתונים ומבטיח הן פרטיות נתונים והן חוסר יכולת למידה. תהליך יצירת ה-DEM מתואר באיור 1. התרומות העיקריות של מאמר זה הן כדלקמן:
מעקב דינמי וניהול גישה: מאמר זה מתייחס לבעיות העקיבות ובקרת הגישה הקשורות לשחרור דוגמאות בלתי ניתנות ללמידה על ידי הצעת מסגרת B-UEGMF. האופי המבוזר של הבלוקצ'יין פותר את בעיית הצד השלישי המהימן במערכות מסורתיות, בעוד שהשקיפות שלו מאפשרת יומני גישה הניתנים לאימות מבלי לחשוף נתונים גולמיים. על ידי מינוף השקיפות והקביעות של בלוקצ'יין, בשילוב עם בקרת הגישה הדינמית המופעלת על ידי חוזים חכמים, המסגרת מבטיחה שמשתמשים לא מורשים לא יוכלו לשחזר או להפיץ נתונים נקיים, ובכך לשפר משמעותית את אבטחת הנתונים.

מנגנון יצירת הפרעות דינמי: מוצגת תוכנית יצירת דוגמאות דינמיות בלתי ניתנות ללמידה, שבה חוזים חכמים מנהלים בקשות מלקוחות שונים. הפרעות DEM נוצרות באופן דינמי עבור בקשות לקוח לא מורשות בהתבסס על מידע ספציפי ללקוח ופרמטרים זמניים. זה מבטיח שהשפעות ההפרעה משתנות בין בקשות, ובכך מחזק את ההתנגדות לשיטות הסרת רעש מבוססות דיפוזיה ומגביל משתמשים לא מורשים מגישה למערכי נתונים בקנה מידה גדול בבת אחת.

ניסויים שנערכו על מערכי נתונים של CIFAR-10, CIFAR-100 ו-ImageNet מראים כי DEM עולה על השיטות הקיימות (למשל, EM, TAP ו-SEM) במונחים של הגנה על הפרטיות ועמידות בפני התקפות הנדסה לאחור, כפי שמודגם באיור 2, תוך שיפור העמידות בפני התקפות הסרת רעש ב-57% בהשוואה ל-EM ו-25% בהשוואה ל-SEM, כפי שמודגם באיור 3, הדגשת הישימות הפוטנציאלית שלו בתרחישים בעולם האמיתי.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ההתקנה
שקלנו משימת סיווג מפוקחת עם מערך figure-protocol-1 נתונים , שבו figure-protocol-2 מייצג את תכונות הקלט ומציין figure-protocol-3 את תוויות המחלקה המתאימות לבעיה במחלקה K. מערך הנתונים D מחולק למערך נתוני אימון נקי ומערך נתוני בדיקה.

המטרה היא לשנות את מערך הנתונים של האימון הנקי על ידי הצגת הפרעות קטנות ובלתי מורגשות δ ליצור מערך figure-protocol-4 נתונים בלתי ניתן ללמידה , כאשר figure-protocol-5 + δ. δ ההפרעה מוגבלת על ידי figure-protocol-6 , מה שמבטיח שהיא לא תשנה באופן משמעותי את התועלת הרגילה של הנתונים. המטרה העיקרית היא לשבש את הלמידה על ידי אילוץ המודל f_θ, המאומן על D_u, להתמקד בדפוסים לא רלוונטיים המושרים על ידי הרעש במקום בתכונות המשמעותיות, וכתוצאה מכך הכללה לקויה על מערך נתונים נקי של מבחן:

figure-protocol-7

הדמיית סביבת בלוקצ'יין
כדי להתקין כלי בלוקצ'יין, מסגרת Hardhat משמשת להדמיית רשת Ethereum בסביבה מקומית לפריסת חוזים חכמים ובדיקת יצירת דוגמאות בלתי ניתנות ללמידה. כדי להשיק רשת מקומית, רשת בלוקצ'יין מדומה עם מספר צמתים וחשבונות מאותחלת. לכל צומת מוקצים משאבים כמו Ether כדי להקל על הדמיות טרנזקציות. כדי לפתח חוזים חכמים, הם מיושמים לניהול דינמי של הרשאות משתמש. משתמשים מורשים יכולים לגשת לנתונים נקיים, בעוד שמשתמשים לא מורשים מוגבלים לגישה לדוגמאות בלתי ניתנות ללמידה. ראשית, הגדר סביבת פיתוח המבוססת על Node.js v16.x ו- Hardhat 2.8.4, והשתמש במהדר Solidity 0.8.17 כדי להשלים את ההידור והאופטימיזציה של החוזה החכם. תהליך ההידור מבוצע על ידי שורת הפקודה באמצעות הידור npx hardhat כדי ליצור חפצי בנייה המכילים את ה-ABI ו-bytecode. לאחר מכן, פרוס את החוזה ברשת הבדיקה של Sepolia על ידי הפעלת סקריפט הפריסה npx hardhat להריץ סקריפטים/deploy.js --network sepolia, ולרשום את כתובת חוזה הפלט ואת גיבוב עסקת הפריסה. במהלך שלב בדיקת הביצועים, שלוש בדיקות ליבה מבוצעות ברצף: בדיקת עלות העסקה מתעדת את צריכת הגז על ידי הפעלה מחזורית של שיטת grantAccess של החוזה; בדיקת תפוקה משתמשת בכלי הארטילריה כדי לדמות בקשות משתמשים עם עומס הולך וגדל; עסקאות בדיקה ואימות, כולל אחסון ואחזור נתונים, מתבצעות כדי לאמת את הפונקציונליות של החוזה החכם.

בניית משתמשים בשרשרת ומנגנוני הרשאה
חשבונות משתמשים ייחודיים נוצרים באמצעות ארנקי בלוקצ'יין (למשל, MetaMask), שכל אחד מהם כולל מפתח פרטי ומפתח ציבורי. יישום אב הטיפוס משתמש בסביבת בלוקצ'יין מדומה שבה ישויות משתמשים סינתטיות מעלות מערכי נתונים זמינים לציבור למערכת המבוזרת, ומאחסנות רק ערכי גיבוב קריפטוגרפיים בספר החשבונות המבוזר. זה מבטיח את שלמות הנתונים מבלי לאחסן את הנתונים בפועל בשרשרת, מה שיהיה לא יעיל ויקר. הנתונים בפועל מאוחסנים מחוץ לשרשרת, בדרך כלל באמצעות מערכות אחסון מבוזרות כמו IPFS, מה שמבטיח ניהול נתונים יעיל תוך שמירה על אבטחה ופרטיות. עבור אסימונים שאינם ניתנים להחלפה (NFTs) ובקרת גישה, מחקר זה מיישם מנגנון בקרת גישה עדין באמצעות NFTs התואמים לתקן ERC-721. כל מערך נתונים של דוגמאות בלתי ניתנות ללמידה משויך ל-tokenId ייחודי, המשמש כמפתח לגישה לנתונים. משתמשים מבקשים גישה על ידי הגשת הוכחות מרקל. הוכחות אלו מאמתות את זהות המשתמש בצורה מאובטחת ומבוזרת. לאחר אימות הוכחה מוצלח, החוזה מטביע NFT ייחודי ומעביר אותו לארנק המשתמש. NFT זה מייצג את זכותו של המשתמש לגשת לנתונים המשויכים לאותה דוגמה ספציפית שאינה ניתנת ללמידה. השימוש ב-NFTs מבטיח שרק משתמשים מורשים יוכלו לגשת לנתונים, בהתבסס על רשומה מבוזרת ובלתי ניתנת לשינוי. זאת בניגוד לבקרת גישה מבוססת תפקידים (RBAC) מסורתית, הפועלת בדרך כלל ברמת הקבוצה ועשויה שלא לספק את הפירוט הדרוש עבור יישומים בעלי אבטחה גבוהה³⁰.

החוזה החכם מאמת באופן רציף הרשאות גישה באמצעות פונקציית ownerOf, ובודק את הבעלות על ה-NFT כדי להבטיח שרק משתמשים מורשים יכולים לגשת לנתונים הנקיים. מנהלי מערכת יכולים לבטל גישה על ידי השמדת ה-NFT באמצעות פונקציית revokeAccess, מה שמבטיח גמישות בניהול גישת המשתמשים לאורך זמן. זרימת העבודה התפעולית מורכבת מארבעה שלבים קריטיים: (1) משתמשים מגישים בקשות גישה המכילות הוכחות מרקל; (2) החוזה מאמת את תקפותן של הוכחות אלה; (3) לאחר אימות מוצלח, החוזה מטביע את ה-NFT המתאים; (4) משתמשים מאחזרים נתונים מוצפנים באמצעות מזהה תוכן IPFS (CID) המוטמע במטא נתונים של ה-NFT. על ידי מינוף NFTs, אנו משיגים מספר יתרונות על פני מנגנוני בקרת גישה מסורתיים, כגון בקרת הרשאות עדינה (רמת נתונים לעומת רמת קבוצה), יכולת ביקורת טובה יותר (רשומות בלתי ניתנות לשינוי בשרשרת) ויכולת העברת הרשאות (עסקאות שוק NFT).

חוזים מרובי חתימות מיושמים לעדכון גיבוב השורש של מרקל, ומונעים שיבוש לא מורשה של נתונים. המערכת משלבת מנגנוני אנטי-סיביל על ידי קשירת כל מערך נתונים ל-tokenId ייחודי, מה שמבטיח ששחקנים זדוניים לא יוכלו ליצור אסימונים מזויפים כדי לגשת לנתונים לא מורשים. ה-UEs מוצפנים באמצעות AES-256 לפני שהם מועלים לרשת מערכת הקבצים הבין-פלנטרית (IPFS). גיבובי הנתונים המוצפנים מאוחסנים בשרשרת, בעוד מערכי הנתונים המלאים נשארים ב-IPFS, מה שמפחית את תקורת אחסון הבלוקצ'יין. הגישה ההיברידית של שילוב אחסון בשרשרת ומחוץ לשרשרת יוצרת איזון בין הבטחת זמינות נתונים והפחתת עלויות האחסון, דאגה נפוצה ביישומים מבוססי בלוקצ'יין.

חוזים חכמים משמשים לניהול דינמי של הרשאות משתמשים. לכל משתמש ניתנת גישה לנתונים נקיים רק אם הוא מחזיק ב-NFT המתאים, המשמש כאסימון ההרשאה שלו. חוזים חכמים רושמים את כל הגישה לנתונים ביומני אירועים, ומספקים מעקב מלא. יומנים אלה אינם ניתנים לשינוי וניתנים לביקורת, ומציעים שקיפות ואחריות. החוזה החכם משתמש בפונקציה grantAccess כדי לאמת בקשות גישה. החוזה בודק אם המשתמש מחזיק ב-NFT המתאים, ואם הוא תקף, מעניק גישה לנתונים המבוקשים. כל אירוע גישה נרשם בבלוקצ'יין, מה שמבטיח שכל פעילויות אחזור הנתונים ניתנות לאימות. כל אירוע גישה לנתונים נרשם בזמן אמת על ידי החוזה החכם, שמפעיל אירוע AccessGranted. אירוע זה מכיל מידע חשוב כגון כתובת הארנק של המשתמש, חותמת הזמן של הגישה ומזהה ה-NFT המתאים. האופי הדינמי של חוזים חכמים מאפשר ניהול הרשאות בזמן אמת. זה שימושי במיוחד ביישומים מבוזרים, שבהם בקרת הגישה צריכה להיות גמישה מאוד וניתנת להתאמה לתנאים משתנים.

כדי לטפל בחששות פרטיות בסביבות בלוקצ'יין ציבוריות, המערכת מאחסנת תמונות ממוזערות ברזולוציה נמוכה (למשל, 64 x 64 פיקסלים) בבלוקצ'יין, בעוד שהתמונות המקוריות ברזולוציה גבוהה מוצפנות ומאוחסנות מחוץ לשרשרת ב-IPFS. רק משתמשים מורשים המחזיקים ב-NFT המתאים יכולים לאחזר את מפתחות הפענוח לגישה לנתונים ברזולוציה גבוהה. משתמשים לא מורשים מקבלים גרסאות של הנתונים עם הפרעות DEM בזמן אמת, מה שמבטיח שהם לא יכולים לגשת לנתונים המקוריים.

צור הפרעה בתמונה
טען מערכי נתונים של CIFAR10, CIFAR100 ו-ImageNet. התמונות במערכי הנתונים משתנות באופן אחיד ומומרות לטנזור PyTorch, וטנזור התמונה מנורמל באמצעות הממוצע וסטיית התקן. אתחול רעש אקראי δ¹, באמצעות התפלגות גאוס כדי ליצור את ההפרעה הראשונית. רעש אקראי מוחל על כל תמונה x, וההפסד בין תווית היעד לחיזוי המודל מחושב על סמך אובדן האנטרופיה הצולבת. במערך נתונים של מחלקה C, עבור מדגם i, y_i הוא ערך תווית היעד, p_i הוא הסתברות חיזוי המודל, המכמתת את ההבדל בין התפלגות ההסתברות שחזתה המודל לבין התווית בפועל, וממקסמת את ההפסד כך שהמודל מייצר תחזיות שגויות. אובדן האנטרופיה הצולבת הוא:

figure-protocol-8

השפעת הפרעת התמונה על החיזוי המחושבת על פי פונקציית ההפסד, ההתפשטות ההפוכה מעדכנת את ההפרעה, וטווח ההפרעה וערך ההפרעה מתעדכנים כל הזמן באמצעות איטרציות מרובות. עבור קצב הלמידה η, נוסחת העדכון להפרעה היא:

figure-protocol-9

צור הפרעות טקסט
טען מודלים של BERT מאומנים מראש ליצירת הטמעות טקסט. רשת TextFeatureExtractor מותאמת אישית המורכבת משני בלוקים של שנאי ושכבה מחוברת במלואה משמשת לחילוץ תכונות מהטמעות טקסט שנוצרו על ידי דגמי BERT. הזן את פרטי המשתמש וחותמת הזמן של משתמש הגישה למודל ה-BERT המאומן מראש וצור באופן דינמי רעשי טקסט באמצעות רשת TextFeatureExtractor המותאמת אישית.

תמונת הקלט I מוזנת למודל הרב-מודאלי Qwen2.5-VL-7B-Instruct. בהנחיית הנחיה מובנית, המודל מייצר תיאור טקסטואלי תמציתי T_q. טקסט זה שנוצר T_q מוזן למודל השפה המאומן מראש של BERT-base-uncased. באמצעות הנחיות שכתוב ספציפיות למשימה, המערכת מייצרת טקסט figure-protocol-10 מופרע המשמר סמנטיקה תוך שינוי הביטוי. רשת TextFeatureExtractor ממפה את הטקסט figure-protocol-11 המופרע לווקטור הטמעה סמנטי בעל מימדים גבוהים E_g.

יצירת הפרעות מרובות מטרות
כדי להבטיח תאימות בין הטמעות טקסט להפרעות בתמונה, אנו מתאימים את צורת הטמעת הטקסט כך שתתאים למידות הפרעת התמונה. תן ל -_{E T} ו- E_q לייצג את הטמעות הטקסט, ו - P_L את הפרעת התמונה. תהליך העיצוב מחדש מבטיח ש-E_T ו-E_q יהפכו לאותה מימד כמו P_L: figure-protocol-12 , כאשר C, H, W הם הממדים של P_L. הגדר מודול היתוך מנגנון קשב הממזג הפרעות הטמעת טקסט והפרעות תמונה, ומתאים באופן דינמי את ההפרעות בהתאם למשקלי הקשב של הטקסט. המיזוג הוא:

figure-protocol-13

כאשר α היא ההתאמה הדינמית של הפרמטרים של מנגנון הקשב. δ^T היא הפרעת הטקסט שנוצרת על ידי ה-E_q וה-E_T. הוסף מונח הסדרה לתהליך האימון כדי למנוע התאמת יתר. מונח ההסדרה הוא הנורמה L2 של הטמעת הטקסט, המענישה הפרעות. פונקציית ההפסד הרב-אובייקטיבית משלבת אובדן אנטרופיה צולבת והפרעת היתוך, ופונקציית ההפסד הרב-אובייקטיבית היא כדלקמן:

figure-protocol-14

המטרות של פונקציית ההפסד הן:

figure-protocol-15

כאשר λ הוא מקדם רגולציה המשמש לשליטה בכוח העונשין של ההפרעה, במטרה לעכב הפרעה מוגזמת או התאמת יתר. בחקר התקפות יריבות, נמצא כי figure-protocol-16 זהו גבול ההפרעה המורגש לעין האנושית. תהליך ההדרכה וההערכה מוגדר, כולל יצירת הפרעות, חישוב הפסדים, אימון מודלים וכו'.

ניסויים השוואתיים
ערכנו הערכה מקיפה של הרעש הדינמי הממזער שגיאות (DEM) המוצע מול שלוש שיטות קיימות: רעש מזעור שגיאות (EM), הפרעות יריבות ניתנות להעברה (TAP) ורעש ממזער שגיאות יציב (SEM). שיטות אלו נבדקו על שלושה מערכי נתונים בנצ'מרק: CIFAR-10, CIFAR-100 ותת-קבוצה של ImageNet, תוך שימוש בארבע ארכיטקטורות רשת עצבית שאומצו באופן נרחב: VGG-16, ResNet-18, ResNet-50 ו-DenseNet-121, כדי להבטיח תנאי ניסוי מגוונים.

בנוסף, בחנו את החוסן של שיטות אלו על ידי יישום מודלים של הפחתת רעשים מבוססי דיפוזיה כדי להסיר רעש הגנתי ומדידת הדיוק של הדוגמאות המנופחות במערכי הנתונים של הבדיקה. צעד זה נועד להעריך את יכולתה של כל שיטה להתנגד להתקפות שחזור ולשמור על שלמות פרטיות הנתונים בתנאים עוינים. התוצאות מצביעות על כך שה-DEM שלנו עולה על שיטות אחרות הן בחוסן והן בדיוק בכל מערכי הנתונים והארכיטקטורות, מה שמדגים את יעילותו כמסגרת לשמירה על פרטיות.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

מסגרת בלוקצ'יין וחוזים חכמים
תוצאות הניסוי הראו כי מסגרת היצירה והניהול המשולבת בבלוקצ'יין (B-UEGMF), בשילוב עם חוזים חכמים, אפשרה ניהול דינמי יעיל של גישה ספציפית ללקוח לנתונים. עבור משתמשים מורשים, הנתונים הנקיים שאוחזרו השיגו דיוק בדיקה של 90.2% במודל חלופי של ResNet-18 שהוערך במערך הנתונים CIFAR-10. לעומת זאת, משתמשים לא מורשים שניגשים ל-UEs שנוצרו על ידי DEM השיגו דיוק בדיקה נמוך משמעותית של 13.0%. תוצאות אלו מאמתות את היכולת של B-UEGMF לאכוף ביעילות בקרת גישה תוך שמירה על פרטיות הנתונים באמצעות ...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

השילוב של בלוקצ'יין ו-UEs קידם את תחום הגנת פרטיות הנתונים על ידי מתן פתרון שקוף ומבוזר לניהול גישה לנתונים. בניגוד לשיטות קונבנציונליות לשמירה על פרטיות, המסתמכות לעתים קרובות אך ורק על טכניקות הפרעה³¹, מחקר זה מגשר על הפער בין הגנה על נתונים למעקב אחר אחריות. בתרחישי למידה מאוחדים, המסגרת המוצעת מבטיחה אימון מאובטח ופרטי על פני מערכי נתונים מבוזרים, ומפחית את הסיכון לשחזור נתונים לא מורשה. בנוסף, מנגנון הקשב המוטמע ב-DEM משפר את יכולת ההסתגלות והחוסן, וסולל את ה...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

למחברים אין שום דבר רלוונטי לפרסום זה לחשוף.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

עבודה זו נתמכה על ידי בית הספר לאבטחת מרחב הסייבר, אוניברסיטת ז'נגג'ואו, שסיפק סביבת מחקר ומשאבים אקדמיים מצוינים. אנו אסירי תודה למנחה שלנו, פרופ' זיג'יאו ז'אנג, על הדרכתו שלא תסולא בפז, הצעותיו מלאות התובנות והעידוד המתמשך לאורך כל המחקר הזה. אנו גם מודים מקרב לב למרכז ניהול הרשת של אוניברסיטת ג'נגז'ו על אספקת שרתים ניסיוניים, משאבי מחשוב בעלי ביצועים גבוהים ותשתית בדיקות בלוקצ'יין, שהיו חיוניים ליישום מוצלח של מחקר זה.

תרומת המחבר:
רויג'יה לי הגתה את המחקר, פיתח את המתודולוגיה, ערך ניסויים, ביצע ניתוח נתונים וכתב את כתב היד המקורי. זיג'יאו ז'אנג סיפק פיקוח, אימות מתודולוגיה וסקירת כתבי יד ביקורתית. שולי פו תרמה להדרכה ליישום בלוקצ'יין. לין ג'ו סייע באוצר נתונים ואימות. Qunpeng Lei תרם לפיתוח המסגרת התיאורטית. בו-וויי וואנג סיפק תמיכה טכנית. כל המחברים בדקו ואישרו את כתב היד הסופי.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Comments
קודה - CUDA 12.1	NVIDIA	משמש לשיפור הביצועים של יישומי למידה עמוקה
NVIDIA A800 PCIe A800 בנפח 80 גיגה-בתים PCIe בנפח 80 גיגה-בתים	NVIDIA	משמש לאימון מודלים של למידה עמוקה
פייתון 3.10	קרן התוכנה של פייתון	משמש לעיבוד מקדים וניתוח נתונים
פייטורץ' - PyTorch 2.5.1	פייסבוק	מסגרת למידה עמוקה המשמשת לאימון מודלים
אובונטו 22.04	הקנוני	מערכת הפעלה המשמשת להגדרת הסביבה

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Multi-level Cross-view Contrastive Learning for Knowledge-aware Recommender System. Zou, D., Chen, Y., Wang, X. Proc 45th Int ACM SIGIR Conf Res Dev Info Retrieval, , 1358-1368 (2022).
A simple framework for contrastive learning of visual representations. Chen, T., Kornblith, S., Norouzi, M., Hinton, G. Proc 37th Int Conf Mach Learn, 119, 1597-1607 (2020).
Guo, J., et al. Domain watermark: Effective and harmless dataset copyright protection is closed at hand. arXiv. , (2023).
Hill, K. The Secretive Company That Might End Privacy as We Know It. , The New York Times. (2020).
Prabhu, V. U., Birhane, A. Large Image Datasets: A Pyrrhic Win for Computer Vision. arXiv. , (2020).
Unlearnable examples detection via iterative filtering. Yu, Y., Jiang, X., Wang, Y. Proc Int Conf Artificial Neural Net, , 241-256 (2024).
Jiang, Y., Ma, X., Erfani, S. M., Bailey, J. Unlearnable examples for time series. Adv Knowledge Disc Data Mining. , 213-225 (2024).
Unlearnable clusters: Towards label-agnostic unlearnable examples. Zhang, J., Liu, Y., Zhou, Q. Proc IEEE/CVF Conf Comput Vision Pattern Recognit, , 3984-3993 (2023).
Unlearnable examples: Making personal data unexploitable. Huang, H., Ma, X., Erfani, S. M., Bailey, J., Wang, Y. Int Conf Learning Representat, , 1-17 (2021).
Game-theoretic unlearnable example generator. Liu, S., Wang, Y., Gao, X. S. Proc AAAI Conf Artificial Intellig, 38, 21349-21358 (2024).
Robust unlearnable examples: Protecting data privacy against adversarial learning. Fu, S., He, F., Liu, Y., Shen, L., Tao, D. ICLR 2022 Proc Int Conf Learning Representat, , 1-22 (2022).
Stable unlearnable example: Enhancing the robustness of unlearnable examples via stable error-minimizing noise. Liu, S., Xu, K., Sun, L. Proc AAAI Conf Artificial Intellig, 37, 2473-2481 (2023).
Defensive unlearning with adversarial training for robust concept erasure in diffusion models. Zhang, Y., et al. NeurIPS 2024 Proc 38th Conf Neural Informat Process Syst, , 1-29 (2024).
Unlearnable examples give a false sense of security: Piercing through unexploitable data with learnable examples. Jiang, W., et al. MM 2023 Proc 31st ACM Int Conf Multimedia, , 8910-8921 (2023).
VQUNet: Vector quantization U-Net for defending adversarial attacks by regularizing unwanted noise. He, Z., Singhal, M. ICMVA 2024 Proc 2024 7th Int Conf Machine Vis Applicat, , 69-76 (2024).
Li, Z., et al. UnGANable: Defending Against GAN-based Face Manipulation. 32nd USENIX Secur Sympos. , 7213-7230 (2023).
Narcissus: A Practical Clean-Label Backdoor Attack with Limited Information. Zeng, Y., et al. Proc 2023 ACM SIGSAC Conf Comput Communicat Secur, , 771-785 (2023).
Meng, R., Chen, J., Liu, Z. Semantic deep hiding for robust unlearnable examples. IEEE Transact Info Forens Secur. 19 (12), 6545-6558 (2024).
Detection and defense of unlearnable examples. Zhu, Y., Yu, L., Gao, X. S. Proc AAAI Conf Artif Intellig, 38 (15), 17211-17219 (2024).
Unlearnable examples: Protecting open-source software from unauthorized neural code learning. Ji, Z., Ma, P., Wang, S. Proc Int Conf Software Eng Knowledge Eng, , 525-530 (2022).
Purify unlearnable examples via rate-constrained variational autoencoders. Yu, Y., et al. ICML 2024 Proc 41st Int Conf Mach Learn, 2379, 57678-57702 (2024).
Triggerless backdoor attack for NLP tasks with clean labels. Gan, L., Zhang, W., Li, X. Proc 2022 Conf North Am Chapter Associat Computat Linguist Human Lang Technol, , 2942-2952 (2022).
Punia, A., et al. A systematic review on blockchain-based access control systems in cloud environment. J Cloud Comput. 13, 146(2024).
SoK: Understanding Design Choices and Pitfalls of Trusted Execution Environments. Li, M., Yang, Y., Chen, G., Yan, M., Zhang, Y. Proc 19th ACM Asia Conf Comput Commun Secur, , 1600-1616 (2024).
Kayikci, S., Khoshgoftaar, T. M. Blockchain meets machine learning: a survey. J Big Data. 11, 9(2024).
Ullah, F., et al. Blockchain-enabled EHR access auditing: Enhancing healthcare data security. Heliyon. 10 (16), e34407(2024).
Tripathi, G., Ahad, M. A., Casalino, G. A comprehensive review of blockchain technology: Underlying principles and historical background with future challenges. Dec Anal J. 9, 100344(2023).
Saleh, A. M. S. Blockchain for secure and decentralized artificial intelligence in cybersecurity: A comprehensive review. Blockchain Res Appl. 5 (3), 100193(2024).
Badra, M., Borghol, R. An efficient blockchain-based privacy preservation scheme for smart grids. Front Communicat Net. 6, 1584152(2025).
Fine-Grained Access Control in the Era of Cloud Computing: An Analytical Review. Albulayhi, K., Abuhussein, A., Alsubaei, F., Sheldon, F. T. 2020 10th Ann Comput Communicat Workshop Conf, , 0748-0755 (2020).
Turgay, S., İlter, İ Perturbation Methods for Protecting Data Privacy: A Review of Techniques and Applications. Automat Machine Learning. 4, 31-41 (2023).
Williamson, S. M., Prybutok, V. Balancing Privacy and Progress: A Review of Privacy Challenges, Systemic Oversight, and Patient Perceptions in AI-Driven Healthcare. Appl Sci. 14 (2), 675(2024).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

מסגרת מבוססת בלוקצ'יין ליצירה וניהול של דוגמאות בלתי ניתנות ללמידה לשיפור פרטיות הנתונים ובקרת הגישה

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles