$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Validazione sperimentale e analisi delle prestazioni
Validazione basata sul cloud
Per testare l'efficienza e la fattibilità dell'algoritmo proposto, sono stati eseguiti test di simulazione in un laboratorio di rete controllato. La verifica è stata effettuata sul sistema operativo Windows e l'algoritmo di base è codificato in strumenti di programmazione VC (Visual C++).
Nel caso dei dati sperimentali, abbiamo scelto il dataset del KDDCUP_10% disponibile pubblicamente (http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html) comune nel rilevamento delle intrusioni e nella modellazione del comportamento di rete. Il processo sperimentale generale è molto simile all'approccio descritto inprecedenza 10 per garantire la comparabilità e la credibilità degli esiti.
I principali parametri dell'algoritmo erano impostati a: intervallo di tempo T = 10 s; numero di round campioni h = 20; Campioni dati n = 1000.
Calcolò le caratteristiche digitali del modello trust cloud utilizzando questi parametri. Successivamente, l'algoritmo di cloud similarity è stato utilizzato per identificare il cloud di fiducia più simile dei candidati, offrendo così la possibilità di classificare e valutare gli stati della rete.
La Tabella 2 mostra i valori del campione di sistema selezionato e gli esiti della situazione di analisi della rete. Questi confermano che il sistema di valutazione della fiducia basato su cloud suggerito ha il potenziale di rappresentare e racchiudere in modo efficiente il dinamismo e le incertezze delle impostazioni di rete multifaccettate.
L'esperimento conferma la possibilità di implementare modelli cloud in combinazione con la valutazione della fiducia in tempo reale e fornisce un quadro per ulteriori applicazioni nel sistema di gestione della sicurezza adattivo.
Verifica dell'attacco
Per effettuare una verifica approfondita delle prestazioni dell'algoritmo proposto in questo esperimento, è necessario valutare le capacità di rilevamento degli attacchi della classificazione binaria, multi-classificazione e HMC all'interno di un ambiente di cloud computing. La valutazione sperimentale è suddivisa in tre fasi principali: l'applicazione dei dati di attacco DDoS per verificare la funzionalità del modulo AI, la valutazione delle funzionalità di vari algoritmi ML e l'analisi delle funzionalità dei modelli DL per prevedere attacchi.
Verifica delle prestazioni della classificazione binaria
Nella prima fase dell'esperimento, il dataset di attacco DDoS è stato utilizzato per verificare il modulo AI, il cui scopo principale era testare l'accuratezza delle previsioni del modello in un ambiente di cloud computing. Abbiamo utilizzato un metodo di validazione incrociata a 5 volte, e il rapporto tra dati di addestramento e dati di test è stato impostato a 8:2, cioè l'80% dei dati è stato utilizzato per l'addestramento e il 20% per i test. In ogni esperimento, veniva utilizzato un set di test diverso per verificare il modello e assicurarsi che ogni campione apparisse come set di prova una sola volta. Il processo di addestramento durò 5 epoche e il risultato medio fu raggiunto.
Il dataset è suddiviso in due gruppi: normali e anomali. Per confrontare le prestazioni dei diversi classificatori, sono stati selezionati i seguenti otto classificatori ML comuni: albero decisionale (DT), foresta casuale (RF), Bayes naïve (NB), K-vicino più prossimo (KNN), macchina a vettori di supporto (kernel RBF) (SVM-RBF), macchina a vettori di supporto lineari (L-SVM) e algoritmi di Bagging e Boosting per l'apprendimento in ensemble. I risultati del confronto delle prestazioni sono mostrati nella Figura 6. Attraverso il confronto delle prestazioni di questi classificatori, le loro prestazioni nel rilevamento degli attacchi DDoS possono essere valutate in modo completo 20,21.
Verifica delle prestazioni multi-classificazione
Nella seconda fase dell'esperimento, il dataset è stato ampliato a problemi di multi-classificazione, coinvolgendo diversi tipi di attacchi di rete, tra cui DDoS, U2R (attacco utente-root), R2L (attacco remota a locale), dati normali, ecc. I problemi multi-classificazione testano la capacità del modello di identificare e organizzare molteplici tipi di attacco.
Cinque classificatori DL furono utilizzati per la validazione, tra cui MLP, CNN, RNN, rete a memoria a lungo termine (LSTM) e rete GRU. Le specifiche impostazioni dei parametri di ciascun modello sono presentate nella Tabella 1, Tabella 3 e Tabella 4. Durante l'esecuzione della validazione multi-classificazione, la precisione e il richiamo del modello in più categorie sono stati valutati in dettaglio.
Verifica delle prestazioni multi-classificazione dell'HMC
Nella terza fase, l'algoritmo HMC è stato utilizzato per confrontare le prestazioni di tutti i modelli ML e DL sopra menzionati nei compiti di classificazione multiclasse. L'algoritmo HMC migliora significativamente la precisione nel rilevare attacchi a grana fine (come U2R, R2L, ecc.) scomponendo problemi complessi multiclasse in sotto-problemi di classificazione binaria multipla. I vantaggi dell'HMC sono stati verificati migliorando la precisione del rilevamento degli attacchi rispetto ai metodi tradizionali di classificazione.
Risultati sperimentali e analisi
Attraverso gli esperimenti nelle tre fasi sopra elencate, abbiamo ottenuto gli indicatori di performance di ciascun classificatore e modello DL sotto diversi tipi di attacco. La Tabella 3 mostra indicatori di performance come accuratezza, tasso di richiamo, valore F1, ecc. in diversi metodi di classificazione. Nell'esperimento, HMC mostrò grande accuratezza e robustezza nel rilevamento di attacchi multiclasse, specialmente quando si trattava di attacchi U2R e R2L. Rispetto ai metodi tradizionali SVM e RF, HMC ha ottenuto miglioramenti significativi.
Attraverso questi risultati sperimentali, abbiamo verificato l'efficacia del modulo AI proposto per il rilevamento degli attacchi in un ambiente di cloud computing, fornendo una base affidabile per l'ottimizzazione successiva del modello e la distribuzione delle applicazioni.
I risultati sperimentali indicano che tra i modelli ML, i metodi Decision Tree (DT), Random Forest (RF) e ensemble (Bagging, Boosting) hanno raggiunto prestazioni superiori, con punteggi F1 che hanno raggiunto 1,0. Questo conferma la loro robustezza e precisione nel distinguere i pattern DDoS dal traffico normale. Al contrario, il modello di Bayes naïve (NB) ha avuto scarsi risultati nella previsione anomala dei pacchetti, con un punteggio F1 di 0,62, indicando che il modello presenta un certo rischio di classificazione errata quando si trova di fronte a tipi di attacco complessi.
La Figura 7 mostra le prestazioni di MLP, CNN, RNN, LSTM e GRU. Dopo aver ottimizzato i parametri, i punteggi binari F1 dei modelli DL erano rispettivamente 0,93 e 0,98, indicando che i modelli DL catturano efficacemente le caratteristiche dei dati profondi, specialmente durante l'elaborazione di serie temporali e riconoscimento di pattern complessi, e hanno prestazioni migliori rispetto ai modelli ML tradizionali.
Un'analisi completa mostra che alberi decisionali, metodi di apprendimento in ensemble e modelli di reti neurali mostrano tutti eccellenti prestazioni nel rilevare attacchi DDoS, ma in applicazioni specifiche la selezione di un modello adatto deve comunque considerare fattori come il tipo di attacco, il volume dei dati e le risorse di calcolo. Per migliorare ulteriormente la capacità di rilevamento del modello, in futuro potranno essere integrati più modelli per ottenere maggiore precisione e un tasso di falsi allarmi più basso.
La Figura 8 dimostra le prestazioni superiori dei modelli DL rispetto alle tradizionali basi ML, mantenendo valori F1 tra 0,96 e 0,99, in particolare su dataset sbilanciati. Tuttavia, la performance di previsione della classe U2R è ancora inferiore nelle categorie più dettagliate, mentre la performance della classificazione dei cyberattacchi è solo 0,49. Le prestazioni di riconoscimento di alcune categorie campionarie (inclusi U2R, attacchi informatici, BFA e botnet) devono essere migliorate, secondo i risultati combinati della Figura 9 e della Figura 10.
Nella terza fase, sono stati utilizzati 13 classificatori singoli, identici ai precedenti ma concentrati sulla classe minoritaria, per confrontare le prestazioni dell'HMC. Il design HMC basato su AdaBoost supera il bagking, secondo i risultati. Nella classe U2R, l'HMC basato su AdaBoost ha un punteggio F1 di 0,5 (il punteggio iniziale F1 è 0), mentre l'HMC basato su Baging ha un punteggio F1 di 0,67 (con 0,4 come F1 iniziale) per la classe minoritaria. L'HMC basato su AdaBoost ha ottenuto un punteggio F1 di 0,88 (l'originale F1 era 0,71), mentre l'HMC basato su Sacchetti ha ottenuto un punteggio F1 di 0,9 (l'originale F1 era 0) per la classe di attacco di rete. Questi risultati mostrano che le strategie di apprendimento in ensemble (come AdaBoost e Bagging) migliorano significativamente la capacità predittiva di più classificatori sulle classi minoritarie.
Caso di simulazione di attacco
Per verificare ulteriormente la praticità e la robustezza del modello proposto in un ambiente di rete reale, questo articolo ha progettato e implementato un caso di simulazione di attacco e condotto un esperimento di simulazione sullo scenario di attacco DDoS. L'ambiente di simulazione è costruito su una piattaforma di cloud computing virtuale, utilizzando più host virtuali per simulare l'interazione tra utenti normali e attaccanti. Lo scenario di simulazione include un ambiente di rete misto dove l'accesso normale al business e il traffico dannoso coesistono.
Nell'esperimento, l'attaccante ha lanciato attacchi UDP flood e SYN Flood sul server target tramite più IP sorgente, cercando di esaurire le risorse del sistema target e influenzare la disponibilità dei servizi normali. Il sistema raccoglie costantemente informazioni sul traffico di rete e vengono utilizzati parametri caratteristici principali relativi alla velocità di trasmissione, alla durata delle sessioni, alla frequenza di accesso alle porte e al conteggio delle connessioni anomale.
Il modello proposto di valutazione della fiducia e rilevamento degli attacchi è implementato nel nodo di monitoraggio per analizzare e categorizzare il traffico in tempo reale. Il sistema può registrare l'identificazione di successo nelle fasi iniziali dell'attacco tramite il modello di trust cloud e il meccanismo di discriminazione multi-classificazione, e contrassegnare efficacemente i modelli sospetti come a bassa fiducia e attivare un meccanismo di risposta.
I risultati della simulazione indicano che quando il traffico di attacco simulato costituisce oltre il 30% del traffico totale. Il sistema proposto ha raggiunto una precisione di rilevamento del 96%, un basso tasso di falsi positivi del 3% e una latenza di risposta inferiore a 2 secondi in condizioni simulate di DDoS. Questo risultato conferma che questo modello offre promettenti opportunità di applicazione nell'affrontare attacchi distribuiti e nel migliorare le capacità di difesa di sicurezza del sistema.
Inoltre, questo esperimento ha esteso anche il test degli attacchi multiround e degli attacchi non continui. Il modello mantiene un'elevata stabilità di rilevamento, che indica la sua buona capacità di generalizzazione nelle complesse condizioni di rete dinamica. I tipi di attacchi saranno estesi in futuro, inclusi data injection, attacchi di phishing, ecc., per testare pienamente la flessibilità e la scalabilità del modello con una varietà di minacce.
La Tabella 5 rappresenta la significatività statistica dei miglioramenti delle prestazioni. Questa tabella mostra i risultati dei t test accoppiati che confrontano i modelli di base con il framework proposto Adaptive ML-HMC-Trust in termini delle principali metriche di prestazione. La tabella è composta dai valori media e deviazione standard, valori t, valori p e i livelli di precisione di significatività, punteggio F1, rilevamento di classi minoritarie, tasso di falsi positivi e latenza di rilevamento.

Figura 1: Metodologia rappresentazione del flusso. Diagramma di flusso che illustra il framework proposto SDN-cloud che integra ML adattivo, classificazione gerarchica e valutazione della fiducia per il rilevamento di attacchi in tempo reale. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 2: Architettura dei servizi cloud. La figura mostra il modello generale di servizi cloud applicato nella ricerca, il livello di controllo, il livello di inoltro dati e il livello di servizio. L'architettura è composta da controller Ryu OpenFlow, nodi Open vSwitch e host cloud virtualizzati. Le connessioni sono tutte interazioni di flusso di dati in tempo reale e stato collegamento. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 3: Modello di topologia della rete. La figura mostra la topologia di rete virtuale a tre livelli costruita nell'ambiente cloud. Comprende i nodi host, i livelli di commutazione, i ritardi simulati dei collegamenti e i limiti di larghezza di banda. La topologia consente la separazione del traffico, l'instradamento multi-percorso e la reindirizzazione del flusso di attacco (in tempo reale). Clicca qui per visualizzare una versione più grande di questa figura.

Figura 4: Architettura di rilevamento di sicurezza basata su HMC. La figura dimostra la gerarchia della gerarchia della classificazione multiclasse, che combina apprendimento in ensemble, valutazione della fiducia e rilevamento delle minacce multilivello. I blocchi rappresentano le fasi di classificazione, mostrando il flusso dal rilevamento degli attacchi a grana grossa a quello a granula fine. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 5: Processo di valutazione della fiducia basato su modelli cloud. La figura rappresenta i sei passaggi del processo di valutazione della fiducia attraverso la normale generazione di trust cloud, l'estrazione degli attributi, la formazione delle nuvole di attributi, il calcolo della somiglianza delle nuvole, la classificazione a livello di trust e l'aggiornamento dinamico della fiducia. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 6: Prestazioni di machine learning su dataset DDoS. La figura esamina come otto modelli classici di ML si comportano in un sistema binario tra traffico di attacco normale e DDoS. Le metriche sono richiamo, precisione, punteggio F1 e accuratezza generale. Le barre di errore riflettono la variabilità tramite la validazione incrociata a 5 volte. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 7: Prestazioni del modello di deep learning su dataset DDoS. La figura mostra le prestazioni di classificazione binaria dei modelli MLP, CNN, RNN, LSTM e GRU. Le misurazioni indicano le prestazioni del modello in una serie di cicli di addestramento. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 8: Prestazioni HMC vs. singolo classificatore di machine learning. La figura mostra un confronto tra la multi-classificazione gerarchica e il classificatore tradizionale degli attacchi delle minoranze come U2R e R2L. Vengono presentati punteggi F1, inclusi i barre di errore che indicano variazioni tra esperimenti ripetuti. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 9: Prestazioni HMC vs. classificatore di deep learning. Il valore indica il miglioramento del rilevamento multiclasse usando HMC sui modelli DL. Le prestazioni delle minoranze sono evidenziate e sono significativamente migliorate rispetto ai modelli a singolo DL. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 10: Risultati della simulazione di attacco DDoS. La figura mostra l'output di monitoraggio in tempo reale dell'esperimento sulla simulazione dell'attacco, che indica la velocità del traffico, il numero di connessioni anomale, il tempo di risposta del metodo di rilevamento e l'output della classificazione del sistema. Le barre della scala indicano l'ora (in secondi) e il volume del traffico. Clicca qui per visualizzare una versione più grande di questa figura.
| Modello | Tasso di apprendimento | Dimensione del lotto | Epoche | Funzione di attivazione |
| MLP | 0.001 | 64 | 30 | ReLU |
| CNN | 0.0005 | 32 | 50 | LeakyReLU |
| RNN | 0.001 | 64 | 40 | Tanh |
| LSTM | 0.0001 | 128 | 60 | Sigmoid |
| GRU | 0.001 | 64 | 45 | ReLU |
Tabella 1: Impostazioni dei parametri del modello di deep learning. Questa tabella contiene gli iperparametri degli esperimenti di deep learning: la dimensione del lotto, la velocità di apprendimento, il numero di epoche e le specifiche dell'architettura.
| ID campione | Tempo di campionamento (secondi) | Grado Fiduciario ExExEx | Entropy EnEnEn | Iper-entropia HeHeHe | Punteggio di Somiglianza | Livello di fiducia |
| 1 | 10 | 0.75 | 0.65 | 0.8 | 0.85 | Alto |
| 2 | 20 | 0.8 | 0.6 | 0.75 | 0.82 | Alto |
| 3 | 30 | 0.68 | 0.7 | 0.85 | 0.8 | Medium |
| 4 | 40 | 0.6 | 0.72 | 0.9 | 0.78 | Medium |
| 5 | 50 | 0.5 | 0.8 | 0.95 | 0.7 | Basso |
| 6 | 60 | 0.45 | 0.85 | 0.96 | 0.65 | Basso |
Tabella 2: Valori campionari di sistema e analisi della situazione della rete. Questa tabella fornisce alcuni dei valori campioni dell'ambiente cloud, come statistiche di traffico, valori di fiducia e output di classificazione.
| Classificatore | Accuratezza | Precisione | Richiamo | Punteggio F1 |
| Albero decisionale (DT) | 85.20% | 84.30% | 86.10% | 85.20% |
| Foresta Casuale (RF) | 90.10% | 89.30% | 91.00% | 90.10% |
| Naive Bayes (NB) | 82.50% | 81.70% | 83.40% | 82.50% |
| K-Vicini più prossimi (KNN) | 87.40% | 86.80% | 88.10% | 87.40% |
| SVM-RBF | 88.90% | 88.10% | 89.50% | 88.80% |
| SVM Lineare (L-SVM) | 87.80% | 87.20% | 88.50% | 87.80% |
| Imballaggio | 91.20% | 90.50% | 91.70% | 91.10% |
| Potenziamento | 92.30% | 91.90% | 92.60% | 92.20% |
Tabella 3: Confronto delle prestazioni dei classificatori di machine learning. La tabella presenta il richiuto, la precisione, l'accuratezza e i punteggi F1 per tutti i modelli ML testati.
| Modello | Accuratezza | Precisione | Richiamo | Punteggio F1 |
| MLP | 89.50% | 88.70% | 90.30% | 89.50% |
| CNN | 91.20% | 90.70% | 91.50% | 91.10% |
| RNN | 88.30% | 87.60% | 88.80% | 88.20% |
| LSTM | 92.10% | 91.80% | 92.40% | 92.10% |
| GRU | 91.80% | 91.40% | 92.10% | 91.70% |
Tabella 4: Confronto delle prestazioni dei classificatori di deep learning. Questa tabella presenta le metriche di performance dei modelli MLP, CNN, RNN, LSTM e GRU sulla base del rilevamento multiclasse.
| Metrica di Prestazioni | Media di base (SD) | Proposta di Medio Modello (SD) | valore t | p-valore | Significato |
| Accuratezza | 0.89 (0.04) | 0.96 (0.02) | 8.72 | <0.001 | Significativi |
| F1-Score | 0.84 (0.05) | 0.94 (0.03) | 9.15 | <0.001 | Significativi |
| Rilevamento di Classe Minoritaria (U2R/R2L) | 0.52 (0.08) | 0.81 (0.06) | 10.44 | <0.001 | Significativi |
| Tasso di falsi positivi | 0.11 (0.03) | 0.04 (0.02) | –7.98 | <0.001 | Significativi |
| Latenza di rilevamento (secondi) | 3.10 (0.41) | 1.82 (0.33) | –9.27 | <0.001 | Significativi |
Tabella 5: Significatività statistica dei miglioramenti delle prestazioni. Questa tabella mostra i risultati dei t-test accoppiati che confrontano i modelli di base con il framework proposto Adaptive ML -HMC-Trust in termini delle principali metriche di prestazione. La tabella è composta dai valori media e deviazione standard, valori t, valori p e i livelli di precisione di significatività, punteggio F1, rilevamento di classi minoritarie, tasso di falsi positivi e latenza di rilevamento.