$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Validation expérimentale et analyse de performance
Validation basée sur le cloud
Pour tester l’efficacité et la faisabilité de l’algorithme proposé, des tests de simulation ont été réalisés dans un laboratoire en réseau contrôlé. La vérification a été effectuée sur le système d’exploitation Windows, et l’algorithme de base est codé dans des outils de programmation VC (Visual C++).
Dans le cas des données expérimentales, nous avons choisi le jeu de données de KDDCUP_10 % disponible publiquement (http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html) courant dans la détection d’intrusion et la modélisation du comportement des réseaux. Le processus expérimental général est très similaire à l’approche décrite précédemment10 afin d’assurer la comparabilité et la crédibilité des résultats.
Les principaux paramètres de l’algorithme étaient fixés à : intervalle de temps T = 10 s ; nombre de ronds d’échantillonnage h = 20 ; Échantillons de données n = 1000.
A calculé les caractéristiques numériques du modèle de confiance cloud en utilisant ces paramètres. Ensuite, l’algorithme de similarité du cloud a été utilisé pour identifier le cloud de confiance le plus similaire des candidats, ce qui permettait de classifier et d’évaluer les états du réseau.
Le tableau 2 présente les valeurs de l’échantillon de système sélectionné et les résultats de la situation d’analyse de réseau. Ces éléments confirment que le système d’évaluation de confiance basé sur le cloud proposé a le potentiel de représenter et d’encapsuler efficacement le dynamisme et les incertitudes des paramètres réseau multifacettes.
L’expérience confirme la possibilité de mettre en œuvre des modèles cloud en conjonction avec une évaluation de confiance en temps réel et fournit un cadre pour une application ultérieure dans le système de gestion adaptative de la sécurité.
Vérification de l’attaque
Pour effectuer une vérification approfondie des performances de l’algorithme proposé dans cette expérience, il est nécessaire d’évaluer les capacités de détection d’attaques de la classification binaire, de la multi-classification et du HMC dans un environnement de cloud computing. L’évaluation expérimentale est divisée en trois phases principales : l’application des données d’attaque DDoS pour vérifier la fonctionnalité du module IA, l’évaluation des fonctionnalités de divers algorithmes d’apprentissage automatique, et l’analyse des fonctionnalités des modèles DL pour prévoir les attaques.
Vérification de la performance de la classification binaire
Dans la première phase de l’expérience, le jeu de données d’attaque DDoS a été utilisé pour vérifier le module IA, dont le principal objectif était de tester la précision de la prédiction du modèle dans un environnement de cloud computing. Nous avons utilisé une méthode de validation croisée à 5 fois, et le ratio entre les données d’entraînement et les données de test était fixé à 8:2, c’est-à-dire que 80 % des données étaient utilisées pour l’entraînement et 20 % pour les tests. Dans chaque expérience, un ensemble de test différent était utilisé pour vérifier le modèle afin de s’assurer que chaque échantillon apparaissait comme un ensemble de test une fois. Le processus de formation durait 5 époques, et le résultat moyen était obtenu.
L’ensemble de données est classé en deux groupes : normal et anormal. Pour comparer les performances de différents classificateurs, les huit classificateurs ML courants suivants ont été sélectionnés : arbre de décision (DT), forêt aléatoire (RF), Bayes naïve (NB), K-plus proche voisin (KNN), machine à vecteurs de support (noyau RBF) (SVM-RBF), machine à vecteurs de support linéaire (L-SVM), ainsi que les algorithmes de Bagging and Boosting pour l’apprentissage en ensemble. Les résultats de la comparaison de performance sont présentés à la Figure 6. Grâce à la comparaison des performances de ces classificateurs, leur performance dans la détection d’attaques DDoS peut être évaluée de manière exhaustive 20,21.
Vérification de performance multi-classification
Dans la seconde phase de l’expérience, l’ensemble de données a été étendu à des problèmes de multi-classification, impliquant différents types d’attaques réseau, notamment DDoS, U2R (attaque utilisateur-racine), R2L (attaque distante vers local), données normales, etc. Les problèmes de multi-classification testent la capacité du modèle à identifier et organiser plusieurs types d’attaques.
Cinq classificateurs DL ont été utilisés pour la validation, dont MLP, CNN, RNN, le réseau à mémoire longue et courte durée (LSTM) et le réseau GRU. Les paramètres spécifiques de chaque modèle sont présentés dans les Tables 1, 3 et 4. Lors de la validation multi-classification, la précision et la mémoire du modèle dans plusieurs catégories ont été évaluées en détail.
Vérification des performances multi-classification du HMC
À la troisième étape, l’algorithme HMC a été utilisé pour comparer les performances de tous les modèles ML et DL ci-dessus dans des tâches de classification multiclasse. L’algorithme HMC améliore considérablement la précision de la détection d’attaques fines (telles que U2R, R2L, etc.) en décomposant des problèmes complexes multiclasses en plusieurs sous-problèmes de classification binaire. Les avantages du HMC ont été vérifiés en améliorant la précision de la détection d’attaque par rapport aux méthodes traditionnelles de classification.
Résultats expérimentaux et analyses
Grâce aux expériences des trois étapes ci-dessus, nous avons obtenu les indicateurs de performance de chaque classificateur et modèle DL sous différents types d’attaque. Le tableau 3 présente des indicateurs de performance tels que la précision, le taux de rappel, la valeur F1, etc., dans différentes méthodes de classification. Dans l’expérience, le HMC a montré une grande précision et robustesse dans la détection des attaques multiclasses, notamment lors des attaques U2R et R2L. Comparé aux méthodes traditionnelles SVM et RF, HMC a connu une amélioration significative.
Grâce à ces résultats expérimentaux, nous avons vérifié l’efficacité du module d’IA proposé pour la détection d’attaques dans un environnement de cloud computing, et fourni une base fiable pour l’optimisation ultérieure des modèles et le déploiement des applications.
Les résultats expérimentaux indiquent que parmi les modèles ML, l’arbre de décision (DT), la forêt aléatoire (RF) et les méthodes d’ensemble (Bagging, Boosting) ont obtenu des performances supérieures, avec des scores F1 atteignant 1,0. Cela valide leur robustesse et leur précision pour distinguer les schémas DDoS du trafic normal. En revanche, le modèle naïf Bayes (NB) a mal performé en prédiction anormale des paquets, avec un score F1 de 0,62, ce qui indique que le modèle présente un certain risque de mauvaise classification face à des types d’attaques complexes.
La figure 7 montre la performance de MLP, CNN, RNN, LSTM et GRU. Après optimisation des paramètres, les scores binaires F1 des modèles DL étaient respectivement de 0,93 et 0,98, indiquant que les modèles DL capturent efficacement les caractéristiques profondes des données, notamment lors du traitement des séries temporelles et de la reconnaissance complexe de motifs, et qu’ils performent mieux que les modèles ML traditionnels.
Une analyse complète montre que les arbres de décision, les méthodes d’apprentissage en ensemble et les modèles de réseaux de neurones affichent tous d’excellentes performances pour détecter les attaques DDoS, mais dans des applications spécifiques, la sélection d’un modèle adapté doit toujours prendre en compte des facteurs tels que le type d’attaque, le volume de données et les ressources informatiques. Pour renforcer davantage la capacité de détection du modèle, plusieurs modèles pourront être intégrés à l’avenir afin d’obtenir une plus grande précision et un taux de fausse alerte plus faible.
La Figure 8 démontre la performance supérieure des modèles DL par rapport aux bases traditionnelles de ML, en maintenant des valeurs F1 entre 0,96 et 0,99, en particulier sur des ensembles de données déséquilibrés. La performance prédictive de la classe U2R reste cependant inférieure à la moyenne dans les catégories plus détaillées, et la performance de la classification cyberattaque n’est que de 0,49. La performance de reconnaissance de quelques catégories d’échantillons (y compris U2R, cyberattaques, BFA et botnets) doit être améliorée, selon les résultats combinés de la Figure 9 et de la Figure 10.
Lors de la troisième étape, 13 classificateurs simples, identiques aux précédents mais concentrés sur la classe minoritaire, ont été utilisés pour comparer les performances du HMC. Selon les résultats, la conception HMC basée sur AdaBoost surpasse le sachage. Dans la classe U2R, le HMC basé sur AdaBoost a un score F1 de 0,5 (le F1 initial est 0), tandis que le HMC basé sur le Baggings a un score F1 de 0,67 (avec 0,4 comme F1 initial) pour la classe minoritaire. Le HMC basé sur AdaBoost a obtenu un score F1 de 0,88 (le F1 original était de 0,71), tandis que le HMC basé sur le Bagging-a obtenu un score F1 de 0,9 (le F1 original était 0) pour la classe d’attaque réseau. Ces résultats montrent que les stratégies d’apprentissage d’ensemble (telles que AdaBoost et Bagging) améliorent significativement la capacité prédictive de multiples classificateurs sur les classes minoritaires.
Cas de simulation d’attaque
Pour vérifier davantage la praticité et la robustesse du modèle proposé dans un environnement réseau réel, cet article a conçu et implémenté un cas de simulation d’attaque et a mené une expérience de simulation sur le scénario d’attaque DDoS. L’environnement de simulation est construit sur une plateforme virtuelle de cloud computing, utilisant plusieurs hôtes virtuels pour simuler l’interaction entre utilisateurs normaux et attaquants. Le scénario de simulation inclut un environnement réseau mixte où l’accès commercial normal et le trafic malveillant coexistent.
Dans l’expérience, l’attaquant a lancé des attaques UDP flood et SYN Flood sur le serveur cible via plusieurs IP sources, tentant d’épuiser les ressources du système cible et d’affecter la disponibilité des services normaux. Le système collecte constamment des informations sur le trafic réseau, et des paramètres caractéristiques majeurs liés au débit de transmission, à la durée des sessions, à la fréquence d’accès aux ports et au nombre de connexions anormales sont utilisés.
Le modèle proposé d’évaluation de la confiance et de détection d’attaque est implémenté dans le nœud de surveillance pour analyser et catégoriser le trafic en temps réel. Le système peut enregistrer une identification réussie dans les phases initiales de l’attaque via le modèle de nuage de confiance et le mécanisme de discrimination multi-classification, et étiqueter efficacement les suspects comme étant à faible confiance et activer un mécanisme de réponse.
Les résultats de la simulation indiquent que lorsque le trafic d’attaque simulé constitue plus de 30 % du trafic total. Le système proposé a atteint une précision de détection de 96 %, un faible taux de faux positifs de 3 %, et une latence de réponse inférieure à 2 s sous des conditions DDoS simulées. Ce résultat confirme que ce modèle offre des opportunités d’application prometteuses pour lutter contre les attaques distribuées et renforcer les capacités de défense sécuritaire du système.
De plus, cette expérience a également étendu le test des attaques à plusieurs rounds et des attaques non continues. Le modèle conserve une grande stabilité de détection, ce qui indique sa bonne capacité de généralisation dans les conditions complexes du réseau dynamique. Les types d’attaques seront étendus à l’avenir, y compris l’injection de données, les attaques de phishing, etc., afin de tester pleinement la flexibilité et l’évolutivité du modèle face à une variété de menaces.
Le tableau 5 représente la signification statistique des améliorations de performance. Ce tableau présente les résultats des tests t appariés qui comparent les modèles de référence avec le cadre Adaptive ML-HMC-Trust proposé en termes des principales métriques de performance. Le tableau comprend les valeurs moyennes et d’écart-types, les valeurs t, les valeurs p, ainsi que les niveaux de signification de précision, le score F1, la détection des classes minoritaires, le taux de faux positifs et la latence de détection.

Figure 1 : Méthodologie de la représentation du flux. Organigramme illustrant le cadre SDN-cloud proposé intégrant l’apprentissage automatique adaptatif, la classification hiérarchique et l’évaluation de la confiance pour la détection d’attaques en temps réel. Veuillez cliquer ici pour consulter une version agrandie de cette figure.

Figure 2 : Architecture des services cloud. La figure illustre le modèle général de service cloud appliqué dans la recherche, la couche de contrôle, la couche de transfert de données et la couche de service. L’architecture se compose de contrôleur Ryu OpenFlow, de nœuds Open vSwitch et d’hôtes cloud virtualisés. Les connexions sont toutes des flux de données en temps réel et des interactions entre le statut du lien. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 3 : Modèle topologique du réseau. La figure montre la topologie du réseau virtuel à trois couches construite dans l’environnement cloud. Il comprend les nœuds hôtes, les couches de commutation, les délais simulés de liaison ainsi que les limites de bande passante. La topologie permet la séparation du trafic, le routage multi-chemins et la redirection des flux d’attaque (en temps réel). Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 4 : Architecture de détection de sécurité basée sur le HMC. La figure illustre la hiérarchie de la classification multiclasse, combinant apprentissage en ensemble, évaluation de la confiance et détection de menaces à plusieurs niveaux. Les blocs représentent les phases de classification, montrant le passage de la détection d’attaque grossière à la détection d’attaque à grain fin. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 5 : Processus d’évaluation de confiance basé sur un modèle cloud. La figure représente les six étapes du processus d’évaluation de la confiance à travers la génération normale de nuages de confiance, l’extraction d’attributs, la formation des nuages d’attributs, le calcul de similarité des nuages, la classification au niveau de confiance et la mise à jour dynamique de la confiance. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 6 : Performance de l’apprentissage automatique sur un jeu de données DDoS. La figure examine comment huit modèles classiques d’apprentissage automatique fonctionnent dans une configuration binaire entre le trafic d’attaque normal et le trafic DDoS. Les métriques sont le rappel, la précision, le score F1 et la précision générale. Les barres d’erreur reflètent la variabilité grâce à une validation croisée en 5 parties. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 7 : Performance du modèle d’apprentissage profond sur un ensemble de données DDoS. La figure montre la performance de classification binaire des modèles MLP, CNN, RNN, LSTM et GRU. Les mesures indiquent la performance du modèle dans une série de cycles d’entraînement. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 8 : Performances du HMC vs. un seul classificateur d’apprentissage automatique. La figure montre une comparaison entre la multiclassification hiérarchique et le classificateur traditionnel des attaques minoritaires comme U2R et R2L. Les scores F1 sont présentés, y compris des barres d’erreur indiquant la variation entre les expériences répétées. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 9 : Performance du classificateur HMC vs. Deep Learning. Cette valeur indique l’amélioration de la détection multiclasse à l’aide du HMC sur les modèles DL. Les performances des minorités sont mises en avant, et elles sont nettement améliorées par rapport aux modèles DL monologes. Veuillez cliquer ici pour voir une version agrandie de cette figurine.

Figure 10 : Résultats de simulation d’attaque DDoS. La figure montre la sortie de surveillance en temps réel de l’expérience sur la simulation d’attaque, qui indique le débit de trafic, le nombre de connexions anormales, le temps de réponse de la méthode de détection et la sortie de classification du système. Les barres d’échelle indiquent le temps (en secondes) et le volume de trafic. Veuillez cliquer ici pour voir une version agrandie de cette figurine.
| Modèle | Taux d’apprentissage | Taille du lot | Époques | Fonction d’activation |
| MLP | 0.001 | 64 | 30 | ReLU |
| CNN | 0.0005 | 32 | 50 | LeakyReLU |
| RNN | 0.001 | 64 | 40 | Tanh |
| LSTM | 0.0001 | 128 | 60 | Sigmoïde |
| GRU | 0.001 | 64 | 45 | ReLU |
Tableau 1 : Paramètres des paramètres du modèle d’apprentissage profond. Ce tableau contient les hyperparamètres des expériences d’apprentissage profond : la taille du lot, le taux d’apprentissage, le nombre d’époques et les spécifications architecturales.
| ID d’exemple | Temps d’échantillonnage (secondes) | Degré de fiducie ExExEx | Entropy EnEnEn | Hyper-entropie HeHeHe | Score de similarité | Niveau de confiance |
| 1 | 10 | 0.75 | 0.65 | 0.8 | 0.85 | Haut |
| 2 | 20 | 0.8 | 0.6 | 0.75 | 0.82 | Haut |
| 3 | 30 | 0.68 | 0.7 | 0.85 | 0.8 | Moyen |
| 4 | 40 | 0.6 | 0.72 | 0.9 | 0.78 | Moyen |
| 5 | 50 | 0.5 | 0.8 | 0.95 | 0.7 | Low |
| 6 | 60 | 0.45 | 0.85 | 0.96 | 0.65 | Low |
Tableau 2 : Valeurs d’échantillonnage système et analyse de la situation réseau. Ce tableau présente certaines des valeurs d’exemple de l’environnement cloud, telles que les statistiques de trafic, les valeurs de confiance et les sorties de classification.
| Classificateur | Précision | Précision | Rappel | F1 Score |
| Arbre de décision (DT) | 85.20% | 84.30% | 86.10% | 85.20% |
| Forêt aléatoire (RF) | 90.10% | 89.30% | 91.00% | 90.10% |
| Naïve Bayes (NB) | 82.50% | 81.70% | 83.40% | 82.50% |
| K-Voisins les plus proches (KNN) | 87.40% | 86.80% | 88.10% | 87.40% |
| SVM-RBF | 88.90% | 88.10% | 89.50% | 88.80% |
| SVM linéaire (L-SVM) | 87.80% | 87.20% | 88.50% | 87.80% |
| Sachage | 91.20% | 90.50% | 91.70% | 91.10% |
| Propulsion | 92.30% | 91.90% | 92.60% | 92.20% |
Tableau 3 : Comparaison des performances des classificateurs d’apprentissage automatique. Le tableau présente le rappel, la précision, l’exactitude et les scores F1 pour tous les modèles ML testés.
| Modèle | Précision | Précision | Rappel | F1 Score |
| MLP | 89.50% | 88.70% | 90.30% | 89.50% |
| CNN | 91.20% | 90.70% | 91.50% | 91.10% |
| RNN | 88.30% | 87.60% | 88.80% | 88.20% |
| LSTM | 92.10% | 91.80% | 92.40% | 92.10% |
| GRU | 91.80% | 91.40% | 92.10% | 91.70% |
Tableau 4 : Comparaison des performances des classificateurs en apprentissage profond. Ce tableau présente les métriques de performance des modèles MLP, CNN, RNN, LSTM et GRU sur la base de la détection multiclasse.
| Mesure de performance | Moyenne de référence (DS) | Moyenne modélaire proposée (SD) | valeur t | valeur p | Importance |
| Précision | 0.89 (0.04) | 0.96 (0.02) | 8.72 | <0,001 | Significatif |
| F1-Score | 0.84 (0.05) | 0.94 (0.03) | 9.15 | <0,001 | Significatif |
| Détection de classe minoritaire (U2R/R2L) | 0.52 (0.08) | 0.81 (0.06) | 10.44 | <0,001 | Significatif |
| Taux de faux positifs | 0.11 (0.03) | 0.04 (0.02) | –7.98 | <0,001 | Significatif |
| Latence de détection (secondes) | 3.10 (0.41) | 1.82 (0.33) | –9.27 | <0,001 | Significatif |
Tableau 5 : Signification statistique des améliorations de performance. Ce tableau présente les résultats des tests t appariés qui comparent les modèles de référence avec le cadre Adaptive ML -HMC-Trust proposé en termes des principales métriques de performance. Le tableau comprend les valeurs moyennes et d’écart-types, les valeurs t, les valeurs p, ainsi que les niveaux de signification de précision, le score F1, la détection des classes minoritaires, le taux de faux positifs et la latence de détection.