$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Experimentelle Validierung und Leistungsanalyse
Cloudbasierte Validierung
Um die Effizienz und Machbarkeit des vorgeschlagenen Algorithmus zu testen, wurden Simulationstests in einem kontrollierten Netzwerklabor durchgeführt. Die Überprüfung erfolgte auf dem Windows-Betriebssystem, und der Kernalgorithmus ist in VC (Visual C++) Programmierwerkzeugen programmiert.
Im Fall experimenteller Daten wählten wir den öffentlich verfügbaren KDDCUP_10%-Datensatz(http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html), der bei der Störungserkennung und Modellierung von Netzwerkverhalten üblich ist. Der allgemeine experimentelle Prozess ähnelt sehr dem zuvorbeschriebenen Ansatz 10 , um die Vergleichbarkeit und Glaubwürdigkeit der Ergebnisse sicherzustellen.
Die wichtigsten Algorithmusparameter wurden gesetzt auf: Zeitintervall T = 10 s; Anzahl der Stichprobenrunden h = 20; Datenproben n = 1000.
Die digitalen Eigenschaften des Trust-Cloud-Modells wurden mit diesen Parametern berechnet. Anschließend wurde der Algorithmus der Cloud-Ähnlichkeit verwendet, um die ähnlichste Vertrauenswolke der Kandidaten zu identifizieren, was die Möglichkeit bot, die Netzwerkzustände zu klassifizieren und zu bewerten.
Tabelle 2 zeigt die Werte der ausgewählten Systemstichprobe und die Ergebnisse der Netzwerkanalyse. Diese bestätigen, dass das vorgeschlagene cloudbasierte Vertrauensbewertungssystem das Potenzial hat, die Dynamik und Unsicherheiten vielschichtiger Netzwerkumgebungen effizient darzustellen und einzukapseln.
Das Experiment bestätigt die Möglichkeit, Cloud-Modelle in Verbindung mit Echtzeit-Vertrauensbewertung zu implementieren, und bietet einen Rahmen für weitere Anwendungen im adaptiven Sicherheitsmanagementsystem.
Angriffsverifikation
Um die Leistung des vorgeschlagenen Algorithmus in diesem Experiment gründlich zu überprüfen, ist es notwendig, die Angriffserkennungsfähigkeiten von binärer Klassifikation, Multiklassifikation und HMC innerhalb einer Cloud-Computing-Umgebung zu bewerten. Die experimentelle Bewertung ist in drei Hauptphasen unterteilt: die Anwendung von DDoS-Angriffsdaten zur Überprüfung der Funktionalität des KI-Moduls, die Bewertung der Funktionalität verschiedener ML-Algorithmen und die Analyse der Funktionalität der DL-Modelle zur Vorhersage von Angriffen.
Binäre Klassifikations-Leistungsverifikation
In der ersten Phase des Experiments wurde der DDoS-Angriffsdatensatz zur Verifizierung des KI-Moduls verwendet, dessen Hauptzweck es war, die Vorhersagegenauigkeit des Modells in einer Cloud-Computing-Umgebung zu testen. Wir verwendeten eine 5-fache Kreuzvalidierungsmethode, und das Verhältnis von Trainingsdaten zu Testdaten wurde auf 8:2 gesetzt, das heißt, 80 % der Daten wurden für das Training genutzt und 20 % für Tests. In jedem Experiment wurde ein anderer Testsatz verwendet, um das Modell zu überprüfen und sicherzustellen, dass jede Probe einmal als Testsatz erschien. Der Ausbildungsprozess dauerte fünf Epochen, und das durchschnittliche Ergebnis wurde angegeben.
Der Datensatz wird in zwei Gruppen unterteilt: normal und abnormal. Um die Leistung verschiedener Klassifikatoren zu vergleichen, wurden die folgenden acht gängigen ML-Klassifikatoren ausgewählt: Entscheidungsbaum (DT), Random Forest (RF), naiver Bayes (NB), K-nächster Nachbar (KNN), Support Vector Machine (RBF-Kernel) (SVM-RBF), lineare Support Vector Machine (L-SVM) und Bagging and Boosting-Algorithmen für Ensemble Learning. Die Leistungsvergleichsergebnisse sind in Abbildung 6 dargestellt. Durch den Leistungsvergleich dieser Klassifikatoren kann ihre Leistung bei der DDoS-Angriffserkennung umfassend bewertet werden: 20,21.
Leistungsverifikation durch mehrere Klassifizierungen
In der zweiten Phase des Experiments wurde der Datensatz auf Multiklassifikationsprobleme erweitert, die verschiedene Arten von Netzwerkangriffen umfassten, darunter DDoS, U2R (User-to-Root-Angriff), R2L (Remote-to-Local-Angriff), normale Daten usw. Multiklassifizierungsaufgaben testen die Fähigkeit des Modells, mehrere Angriffstypen zu identifizieren und zu organisieren.
Für die Validierung wurden fünf DL-Klassifikatoren verwendet, darunter MLP, CNN, RNN, das Langzeit-Kurzzeitgedächtnis-(LSTM)-Netzwerk und das GRU-Netzwerk. Die spezifischen Parametereinstellungen jedes Modells werden in Tabelle 1, Tabelle 3 und Tabelle 4 dargestellt. Bei der Durchführung der Multiklassifikationsvalidierung wurden die Genauigkeit und der Abruf des Modells über mehrere Kategorien hinweg detailliert bewertet.
Überprüfung der Multiklassifikationsleistung von HMC
In der dritten Stufe wurde der HMC-Algorithmus verwendet, um die Leistung aller oben genannten ML- und DL-Modelle in Multiclass-Klassifikationsaufgaben zu vergleichen. Der HMC-Algorithmus verbessert die Genauigkeit bei der Erkennung feingranulärer Angriffe (wie U2R, R2L usw.) erheblich, indem er komplexe Multiklassenprobleme in mehrere binäre Klassifikations-Teilprobleme zerlegt. Die Vorteile von HMC wurden durch eine Verbesserung der Angriffserkennungsgenauigkeit im Vergleich zu traditionellen Klassifikationsmethoden bestätigt.
Experimentelle Ergebnisse und Analyse
Durch die Experimente in den oben genannten drei Stufen erhielten wir die Leistungsindikatoren jedes Klassifikators und DL-Modells unter verschiedenen Angriffstypen. Tabelle 3 zeigt Leistungsindikatoren wie Genauigkeit, Rückrufrate, F1-Wert usw. in verschiedenen Klassifikationsmethoden. Im Experiment zeigte HMC hohe Genauigkeit und Robustheit bei der Erkennung von Multiclass-Angriffen, insbesondere bei U2R- und R2L-Angriffen. Im Vergleich zu traditionellen SVM- und RF-Methoden hat HMC erhebliche Verbesserungen erzielt.
Durch diese experimentellen Ergebnisse haben wir die Wirksamkeit des vorgeschlagenen KI-Moduls zur Angriffserkennung in einer Cloud-Computing-Umgebung überprüft und eine verlässliche Grundlage für die anschließende Modelloptimierung und Anwendungsbereitstellung bereitgestellt.
Experimentelle Ergebnisse zeigen, dass unter den ML-Modellen Decision Tree (DT), Random Forest (RF) und Ensemble-Methoden (Bagging, Boosting) eine überlegene Leistung erzielten, wobei F1-Werte bis zu 1,0 erreichten. Dies bestätigt ihre Robustheit und Präzision bei der Unterscheidung von DDoS-Mustern von normalem Datenverkehr. Im Gegensatz dazu schnitt das naive Bayes-(NB)-Modell bei der abnormen Paketvorhersage schlecht ab, mit einem F1-Wert von 0,62, was darauf hindeutet, dass das Modell bei komplexen Angriffstypen ein gewisses Risiko einer Fehlklassifizierung birgt.
Abbildung 7 zeigt die Leistung von MLP, CNN, RNN, LSTM und GRU. Nach der Optimierung der Parameter lagen die binären F1-Werte der DL-Modelle bei 0,93 bzw. 0,98, was darauf hindeutet, dass die DL-Modelle die tiefen Datenmerkmale effektiv erfassen, insbesondere bei der Verarbeitung von Zeitreihendaten und komplexer Mustererkennung, und sie schneiden besser ab als traditionelle ML-Modelle.
Umfassende Analysen zeigen, dass Entscheidungsbäume, Ensemble-Lernmethoden und neuronale Netzwerkmodelle alle hervorragende Leistungen bei der Erkennung von DDoS-Angriffen zeigen, aber in spezifischen Anwendungen muss bei der Auswahl eines geeigneten Modells weiterhin Faktoren wie Angriffstyp, Datenvolumen und Rechenressourcen berücksichtigt werden. Um die Erkennungsfähigkeit des Modells weiter zu verbessern, können in Zukunft mehrere Modelle integriert werden, um eine höhere Genauigkeit und eine geringere Fehlalarmrate zu erreichen.
Abbildung 8 zeigt die überlegene Leistung von DL-Modellen gegenüber traditionellen ML-Baselines und hält F1-Werte zwischen 0,96 und 0,99, insbesondere bei unsymmetrischen Datensätzen. Die Vorhersageleistung der U2R-Klasse ist in den feingranulären Kategorien jedoch immer noch unterdurchschnittlich, und die Cyberangriffsklassifikation liegt nur bei 0,49. Die Erkennungsleistung einiger Stichprobenkategorien (einschließlich U2R, Cyberangriffe, BFA und Botnets) muss gemäß den kombinierten Ergebnissen von Abbildung 9 und Abbildung 10 verbessert werden.
In der dritten Stufe wurden 13 einzelne Klassifikatoren verwendet, die mit den vorherigen identisch sind, sich aber auf die Minderheitenklasse konzentrieren, um die Leistung von HMC zu vergleichen. Das auf AdaBoost basierende HMC-Design übertrifft laut den Ergebnissen das Verpacken. In der U2R-Klasse hat das auf AdaBoost basierende HMC eine F1-Punktzahl von 0,5 (das anfängliche F1 ist 0), während das Bagging-basierte HMC für die Minderheitenklasse eine F1-Punktzahl von 0,67 (mit 0,4 als Anfangs-F1) erreicht. AdaBoost-basierte HMC erreichte einen F1-Wert von 0,88 (ursprüngliches F1 war 0,71), während Bagging-basierte HMC für die Netzwerkangriffsklasse einen F1-Wert von 0,9 erhielt (ursprüngliches F1 war 0). Diese Ergebnisse zeigen, dass Ensemble-Lernstrategien (wie AdaBoost und Bagging) die Vorhersagefähigkeit mehrerer Klassifikatoren bei Minderheitenklassen signifikant verbessern.
Angriffssimulationsfall
Um die Praktikabilität und Robustheit des vorgeschlagenen Modells in einer tatsächlichen Netzwerkumgebung weiter zu überprüfen, entwarf und implementierte dieses Paper einen Angriffssimulationsfall und führte ein Simulationsexperiment zum DDoS-Angriffsszenario durch. Die Simulationsumgebung basiert auf einer virtuellen Cloud-Computing-Plattform und verwendet mehrere virtuelle Hosts, um die Interaktion zwischen normalen Nutzern und Angreifern zu simulieren. Das Simulationsszenario umfasst eine gemischte Netzwerkumgebung, in der normaler Geschäftszugang und bösartiger Datenverkehr koexistieren.
Im Experiment startete der Angreifer UDP-Flood-Angriffe und SYN-Flood-Angriffe über mehrere Quell-IPs auf den Zielserver, um die Ressourcen des Zielsystems zu erschöpfen und die Verfügbarkeit normaler Dienste zu beeinträchtigen. Das System sammelt ständig Netzwerkverkehrsinformationen, und wichtige Charakteristika wie Übertragungsrate, Sitzungsdauer, Portzugriffsfrequenz und Anzahl abnormaler Verbindungen werden verwendet.
Das vorgeschlagene Modell der Vertrauensbewertung und Angriffserkennung wird im Überwachungsknoten implementiert, um Echtzeitverkehr zu analysieren und zu kategorisieren. Das System kann eine erfolgreiche Identifikation in den frühen Phasen des Angriffs über das Trust-Cloud-Modell und den Multi-Klassifikations-Diskriminierungsmechanismus aufzeichnen und die verdächtigen effizient als Low Trust markieren und einen Reaktionsmechanismus aktivieren.
Die Simulationsergebnisse zeigen, dass der simulierte Angriffsverkehr über 30 % des gesamten Verkehrs ausmacht. Das vorgeschlagene System erreichte eine Erkennungsgenauigkeit von 96 %, eine niedrige Fehlalarmrate von 3 % und eine Antwortlatenz von weniger als 2 Sekunden unter simulierten DDoS-Bedingungen. Dieses Ergebnis bestätigt, dass dieses Modell vielversprechende Anwendungsmöglichkeiten bietet, um verteilte Angriffe zu bewältigen und die Sicherheitsverteidigungsfähigkeiten des Systems zu verbessern.
Darüber hinaus erweiterte dieses Experiment auch die Tests von Mehrrundenangriffen und nicht-kontinuierlichen Angriffen. Das Modell behält eine hohe Erkennungsstabilität, was auf seine gute Verallgemeinerungsfähigkeit unter komplexen dynamischen Netzwerkbedingungen hinweist. Die Arten von Angriffen werden in Zukunft erweitert, einschließlich Dateninjektion, Phishing-Angriffen usw., um die Flexibilität und Skalierbarkeit des Modells bei verschiedenen Bedrohungen vollständig zu testen.
Tabelle 5 stellt die statistische Signifikanz von Leistungsverbesserungen dar. Diese Tabelle zeigt die Ergebnisse gepaarter t-Tests, die Baseline-Modelle mit dem vorgeschlagenen Adaptive ML-HMC-Trust-Framework hinsichtlich der wichtigsten Leistungskennzahlen vergleichen. Die Tabelle besteht aus den Mittelwerten und Standardabweichungen, t-Werten, p-Werten sowie den Signifikanzstufen der Genauigkeit, F1-Wert, Minderheitenklassenerkennung, Falsch-Positiv-Rate und Erkennungslatenz.

Abbildung 1: Methodische Flussdarstellung. Flussdiagramm, das das vorgeschlagene SDN-Cloud-Framework illustriert, das adaptives ML, hierarchische Klassifikation und Vertrauensbewertung für die Echtzeit-Angriffserkennung integriert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Abbildung 2: Cloud-Service-Architektur. Die Abbildung zeigt das allgemeine Cloud-Service-Modell, das in der Forschung angewandt wird, die Kontrollschicht, die Datenweiterleitungsschicht und die Service-Schicht. Die Architektur besteht aus Ryu OpenFlow Controller, Open vSwitch-Knoten und virtualisierten Cloud-Hosts. Die Verbindungen sind alle Echtzeit-Datenfluss- und Link-Status-Interaktionen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Abbildung 3: Netzwerktopologiemodell. Die Abbildung zeigt die dreischichtige virtuelle Netzwerktopologie, die in der Cloud-Umgebung aufgebaut ist. Es umfasst die Host-Knoten, Schaltschichten, simulierte Link-Verzögerungen sowie Bandbreitenbegrenzungen. Die Topologie ermöglicht Verkehrstrennung, Mehrweg-Routing und Echtzeit-Umleitung von Angriffsflussen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Abbildung 4: HMC-basierte Sicherheitserkennungsarchitektur. Die Abbildung zeigt die Hierarchie der Multiclass-Klassifikationshierarchie, die Ensemble-Lernen, Vertrauensbewertung und Multi-Level-Bedrohungserkennung kombiniert. Die Blöcke stellen die Klassifikationsphasen dar und zeigen den Fluss von grobkörniger zur feinkörnigen Angriffserkennung. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Abbildung 5: Prozess der Vertrauensbewertung auf Basis des Cloud-Modells. Die Abbildung stellt die sechs Schritte des Vertrauensbewertungsprozesses dar: die normale Trust-Cloud-Generierung, Attribut-Extraktion, Attribut-Cloud-Bildung, Cloud-Ähnlichkeitsberechnung, Trust-Level-Klassifikation und dynamische Trust-Aktualisierung. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Abbildung 6: Leistung des maschinellen Lernens im DDoS-Datensatz. Die Abbildung untersucht, wie acht klassische ML-Modelle in einer binären Anordnung von normalem vs. DDoS-Angriffsverkehr abschneiden. Die Kennzahlen sind Abruf, Präzision, F1-Score und allgemeine Genauigkeit. Fehlerbalken spiegeln die Variabilität durch fünffache Kreuzvalidierung wider. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Abbildung 7: Performance des Deep-Learning-Modells auf DDoS-Datensatz. Die Abbildung zeigt die binäre Klassifikationsleistung der MLP-, CNN-, RNN-, LSTM- und GRU-Modelle. Messungen zeigen die Modellleistung in einer Reihe von Trainingszyklen an. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Abbildung 8: HMC vs. Leistung eines einzelnen maschinellen Lernklassifikators. Die Abbildung zeigt einen Vergleich zwischen der hierarchischen Multiklassifikation und dem traditionellen Klassifikator von Minderheitenangriffen wie U2R und R2L. F1-Werte werden präsentiert, einschließlich Fehlerbalken, die Unterschiede zwischen wiederholten Experimenten anzeigen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Abbildung 9: HMC vs. Deep-Learning-Klassifikatorleistung. Der Wert zeigt die Verbesserung der Multiclass-Detektion mit HMC auf DL-Modellen an. Die Minderheitsleistung wird hervorgehoben und ist im Vergleich zu Single-DL-Modellen deutlich verbessert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.

Abbildung 10: Ergebnisse der DDoS-Angriffssimulation. Die Abbildung zeigt die Echtzeit-Überwachungsausgabe des Experiments in der Angriffssimulation, die die Verkehrsrate, die Anzahl abnormaler Verbindungen, die Reaktionszeit der Erkennungsmethode und die Systemklassifikationsausgabe angibt. Die Skalenbalken zeigen die Zeit (in Sekunden) und das Verkehrsvolumen an. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzusehen.
| Modell | Lernrate | Chargengröße | Epochen | Aktivierungsfunktion |
| MLP | 0.001 | 64 | 30 | ReLU |
| CNN | 0.0005 | 32 | 50 | LeakyReLU |
| RNN | 0.001 | 64 | 40 | Tanh |
| LSTM | 0.0001 | 128 | 60 | Sigmoid |
| GRU | 0.001 | 64 | 45 | ReLU |
Tabelle 1: Parametereinstellungen für Deep-Learning-Modelle. Diese Tabelle enthält die Hyperparameter von Deep-Learning-Experimenten: die Batchgröße, die Lernrate, die Anzahl der Epochen und die Architekturspezifikationen.
| Beispiel-ID | Abtastzeit (Sekunden) | Trust Degree ExExEx | Entropy EnEnEn | Hyper-Entropie HeHeHe | Ähnlichkeitswert | Vertrauensstufe |
| 1 | 10 | 0.75 | 0.65 | 0.8 | 0.85 | Hoch |
| 2 | 20 | 0.8 | 0.6 | 0.75 | 0.82 | Hoch |
| 3 | 30 | 0.68 | 0.7 | 0.85 | 0.8 | Medium |
| 4 | 40 | 0.6 | 0.72 | 0.9 | 0.78 | Medium |
| 5 | 50 | 0.5 | 0.8 | 0.95 | 0.7 | Niedrig |
| 6 | 60 | 0.45 | 0.85 | 0.96 | 0.65 | Niedrig |
Tabelle 2: Systemstichprobenwerte und Netzwerksituationsanalyse. Diese Tabelle gibt einige der Stichprobenwerte der Cloud-Umgebung an, wie Verkehrsstatistiken, Vertrauenswerte und Klassifikationsausgaben.
| Klassifikator | Genauigkeit | Präzision | Rückruf | F1-Ergebnis |
| Entscheidungsbaum (DT) | 85.20% | 84.30% | 86.10% | 85.20% |
| Zufallswald (RF) | 90.10% | 89.30% | 91.00% | 90.10% |
| Naive Bayes (NB) | 82.50% | 81.70% | 83.40% | 82.50% |
| K-Nächstgelegene Nachbarn (KNN) | 87.40% | 86.80% | 88.10% | 87.40% |
| SVM-RBF | 88.90% | 88.10% | 89.50% | 88.80% |
| Lineares SVM (L-SVM) | 87.80% | 87.20% | 88.50% | 87.80% |
| Einpacken | 91.20% | 90.50% | 91.70% | 91.10% |
| Boosting | 92.30% | 91.90% | 92.60% | 92.20% |
Tabelle 3: Leistungsvergleich des maschinellen Lern-Klassifikators. Die Tabelle zeigt den Rückruf, die Präzision, die Genauigkeit und die F1-Ergebnisse aller getesteten ML-Modelle.
| Modell | Genauigkeit | Präzision | Rückruf | F1-Ergebnis |
| MLP | 89.50% | 88.70% | 90.30% | 89.50% |
| CNN | 91.20% | 90.70% | 91.50% | 91.10% |
| RNN | 88.30% | 87.60% | 88.80% | 88.20% |
| LSTM | 92.10% | 91.80% | 92.40% | 92.10% |
| GRU | 91.80% | 91.40% | 92.10% | 91.70% |
Tabelle 4: Leistungsvergleich von Deep-Learning-Klassifikatoren. Diese Tabelle präsentiert Leistungskennzahlen der MLP-, CNN-, RNN-, LSTM- und GRU-Modelle auf Basis der Multiclass-Erkennung.
| Leistungskennzahl | Basismittelwert (SD) | Vorgeschlagener Modellmittelwert (SD) | T-Wert | p-Wert | Bedeutung |
| Genauigkeit | 0.89 (0.04) | 0.96 (0.02) | 8.72 | <0,001 | Bedeutend |
| F1-Score | 0.84 (0.05) | 0.94 (0.03) | 9.15 | <0,001 | Bedeutend |
| Minderheitenklasse-Detektion (U2R/R2L) | 0.52 (0.08) | 0.81 (0.06) | 10.44 | <0,001 | Bedeutend |
| Falsch-Positiv-Rate | 0.11 (0.03) | 0.04 (0.02) | –7.98 | <0,001 | Bedeutend |
| Erkennungslatenz (Sekunden) | 3.10 (0.41) | 1.82 (0.33) | –9.27 | <0,001 | Bedeutend |
Tabelle 5: Statistische Signifikans von Leistungsverbesserungen. Diese Tabelle zeigt die Ergebnisse gepaarter t-Tests, die Basismodelle mit dem vorgeschlagenen Adaptive ML-HMC-Trust-Framework hinsichtlich der wichtigsten Leistungskennzahlen vergleichen. Die Tabelle besteht aus den Mittelwerten und Standardabweichungen, t-Werten, p-Werten sowie den Signifikanzstufen der Genauigkeit, F1-Wert, Minderheitenklassenerkennung, Falsch-Positiv-Rate und Erkennungslatenz.