$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Dans le contexte du développement rapide des grands modèles de langage (LLM), l’apprentissage contrastif est devenu largement adopté en raison de sa capacité à contourner l’annotation de données coûteuse en exploitant de grandes quantités de données de réseau pour l’entraînement des modèles. Cependant, cette utilisation généralisée soulève des préoccupations importantes en matière de protection de la confidentialité des données. Les exemples non apprenants, une technique qui perturbe l’apprentissage des modèles en perturbant les données, empêchent efficacement les modèles non autorisés d’utiliser à mauvais escient des données sensibles. Cependant, les méthodes existantes de génération d’UE se heurtent à deux défis principaux : premièrement, les perturbations peuvent être inversées à l’aide de techniques telles que la purification inverse ou le débruitage, y compris des modèles de diffusion qui éliminent les perturbations protectrices dans les UE d’images ; Deuxièmement, une fois les données publiées, il devient difficile d’assurer la traçabilité des données et de gérer le contrôle d’accès. Pour résoudre ces problèmes, cet article propose un cadre de génération et de gestion d’exemples inapprenants intégrés à la blockchain (B-UEGMF) pour la génération et la gestion des UE. En exploitant les propriétés décentralisées et immuables de la blockchain, nous stockons des exemples de valeurs de hachage sur la blockchain et gérons dynamiquement les droits d’accès aux données par le biais de contrats intelligents. De plus, les UE sont générées à l’aide d’une technique de perturbation multi-objectif, le bruit dynamique minimisant les erreurs (DEM), qui améliore la robustesse contre les méthodes d’inversion. Nous fournissons également une évaluation quantitative des capacités de protection de la vie privée des exemples générés. Les résultats expérimentaux démontrent que le cadre proposé a considérablement amélioré la défense des UE contre les attaques inverses tout en assurant une gestion efficace de la confidentialité des données.