$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Validação experimental e análise de desempenho
Validação baseada em nuvem
Para testar a eficiência e viabilidade do algoritmo proposto, testes de simulação foram realizados em um laboratório de rede controlado. A verificação foi realizada no sistema operacional Windows, e o algoritmo central é codificado em ferramentas de programação VC (Visual C++).
No caso de dados experimentais, escolhemos o conjunto de dados de KDDCUP_10% disponível publicamente, http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html que é comum na detecção de intrusão e na modelagem do comportamento da rede. O processo experimental geral é muito semelhante à abordagem descritaanteriormente 10 para garantir a comparabilidade e credibilidade dos resultados.
Os principais parâmetros do algoritmo foram definidos para: Intervalo de tempo T = 10 s; número de rodadas de amostragem h = 20; Amostras de dados n = 1000.
Calculou as características digitais do modelo de nuvem de confiança usando esses parâmetros. Em seguida, o algoritmo de similaridade de nuvem foi usado para identificar a nuvem de confiança mais semelhante dos candidatos, o que permitiu classificar e avaliar os estados da rede.
A Tabela 2 mostra os valores da amostra selecionada do sistema e os resultados da situação de análise de rede. Esses sistemas confirmam que o sistema de avaliação de confiança baseado em nuvem sugerido tem potencial para representar e encapsular de forma eficiente o dinamismo e as incertezas das configurações de rede multifacetadas.
O experimento confirma a possibilidade de implementar modelos em nuvem em conjunto com avaliação de confiança em tempo real e fornece uma estrutura para aplicações futuras no sistema adaptativo de gestão de segurança.
Verificação de ataque
Para realizar uma verificação completa do desempenho do algoritmo proposto neste experimento, é necessário avaliar as capacidades de detecção de ataques da classificação binária, multiclassificação e HMC dentro de um ambiente de computação em nuvem. A avaliação experimental é dividida em três fases principais: a aplicação de dados de ataques DDoS para verificar a funcionalidade do módulo de IA, a avaliação da funcionalidade de vários algoritmos de ML e a análise da funcionalidade dos modelos DL para prever ataques.
Verificação de desempenho em classificação binária
Na primeira fase do experimento, o conjunto de dados de ataques DDoS foi usado para verificar o módulo de IA, cujo principal objetivo era testar a precisão da previsão do modelo em um ambiente de computação em nuvem. Usamos um método de validação cruzada de 5 vezes, e a razão entre dados de treinamento e dados de teste foi definida para 8:2, ou seja, 80% dos dados foram utilizados para treinamento e 20% para testes. Em cada experimento, um conjunto de teste diferente foi usado para verificar o modelo e garantir que cada amostra aparecesse como um conjunto de teste uma vez. O processo de treinamento durou 5 épocas, e o resultado médio foi obtido.
O conjunto de dados é categorizado em dois grupos: normal e anormal. Para comparar o desempenho de diferentes classificadores, foram selecionados os seguintes oito classificadores comuns de ML: árvore de decisão (DT), floresta aleatória (RF), Naive Bayes (NB), K-vizinho mais próximo (KNN), máquina vetorial de suporte (kernel RBF) (SVM-RBF), máquina vetorial linear de suporte (L-SVM) e algoritmos de Ensacamento e Reforço para aprendizado em conjunto. Os resultados da comparação de desempenho são mostrados na Figura 6. Por meio da comparação de desempenho desses classificadores, seu desempenho na detecção de ataques DDoS pode ser avaliado de forma abrangente 20,21.
Verificação de desempenho multi-classificação
Na segunda fase do experimento, o conjunto de dados foi expandido para problemas de multi-classificação, envolvendo diferentes tipos de ataques de rede, incluindo DDoS, U2R (ataque usuário-para-raiz), R2L (ataque remoto para local), dados normais, etc. Problemas de multiclassificação testam a capacidade do modelo de identificar e organizar múltiplos tipos de ataque.
Cinco classificadores DL foram usados para validação, incluindo MLP, CNN, RNN, rede de memória longa e curta duração (LSTM) e rede GRU. As configurações específicas de parâmetros de cada modelo são apresentadas nas Tabelas 1, 3 e 4. Ao realizar validação multi-classificação, a precisão e a recordação do modelo em múltiplas categorias foram avaliadas em detalhes.
Verificação do desempenho multi-classificação do HMC
No terceiro estágio, o algoritmo HMC foi usado para comparar o desempenho de todos os modelos ML e DL acima em tarefas de classificação multiclasse. O algoritmo HMC melhora significativamente a precisão na detecção de ataques de granulação fina (como U2R, R2L, etc.) ao decompor problemas complexos de multiclasse em múltiplos subproblemas de classificação binária. As vantagens do HMC foram verificadas ao melhorar a precisão da detecção de ataques em comparação com os métodos tradicionais de classificação.
Resultados experimentais e análise
Por meio dos experimentos nas três etapas acima, obtivemos os indicadores de desempenho de cada classificador e modelo DL sob diferentes tipos de ataque. A Tabela 3 mostra indicadores de desempenho como precisão, taxa de recall, valor F1, etc., em diferentes métodos de classificação. No experimento, o HMC demonstrou alta precisão e robustez na detecção de ataques multiclasse, especialmente ao lidar com ataques U2R e R2L. Comparado aos métodos tradicionais SVM e RF, o HMC obteve melhorias significativas.
Por meio desses resultados experimentais, verificamos a eficácia do módulo de IA proposto para detecção de ataques em um ambiente de computação em nuvem, e fornecemos uma base confiável para a otimização subsequente do modelo e implantação de aplicações.
Resultados experimentais indicam que, entre os modelos de ML, Árvore de Decisão (DT), Floresta Aleatória (RF) e métodos de conjunto (Embalagem, Reforço) alcançaram desempenho superior, com pontuações F1 chegando a 1,0. Isso valida sua robustez e precisão na distinção de padrões DDoS do tráfego normal. Em contraste, o modelo de Bayes ingênuo (NB) teve desempenho ruim na previsão anormal de pacotes, com um escore F1 de 0,62, indicando que o modelo apresenta certo risco de classificação incorreta ao enfrentar tipos de ataques complexos.
A Figura 7 mostra o desempenho de MLP, CNN, RNN, LSTM e GRU. Após otimizar os parâmetros, as pontuações binárias F1 dos modelos DL foram 0,93 e 0,98, respectivamente, indicando que os modelos DL capturam efetivamente as características de dados profundos, especialmente ao processar dados de séries temporais e reconhecimento complexo de padrões, e têm desempenho melhor do que os modelos tradicionais de ML.
Análises abrangentes mostram que árvores de decisão, métodos de aprendizado em conjunto e modelos de redes neurais apresentam excelente desempenho na detecção de ataques DDoS, mas em aplicações específicas, a seleção de um modelo adequado ainda precisa considerar fatores como tipo de ataque, volume de dados e recursos computacionais. Para aprimorar ainda mais a capacidade de detecção do modelo, múltiplos modelos podem ser integrados no futuro para alcançar maior precisão e menor taxa de alarmes falsos.
A Figura 8 demonstra o desempenho superior dos modelos DL em relação às linhas de base tradicionais de ML, mantendo valores F1 entre 0,96 e 0,99, especialmente em conjuntos de dados desbalanceados. O desempenho previsivo da classe U2R ainda é abaixo da média nas categorias detalhadas, e o desempenho da classificação de ciberataque é apenas 0,49. O desempenho de reconhecimento de algumas categorias amostrais (incluindo U2R, ciberataques, BFA e botnets) precisa ser melhorado, de acordo com os resultados combinados da Figura 9 e da Figura 10.
Na terceira etapa, 13 classificadores únicos, idênticos aos anteriores mas concentrados na classe minoritária, foram usados para comparar o desempenho do HMC. O design HMC baseado em AdaBoost supera o ensacamento, segundo os resultados. Na classe U2R, o HMC baseado em AdaBoost tem uma pontuação F1 de 0,5 (a classificação inicial F1 é 0), enquanto a HMC baseada em Baggings tem uma pontuação F1 de 0,67 (com 0,4 como F1 inicial) para a classe minoritária. O HMC baseado em AdaBoost obteve uma pontuação F1 de 0,88 (a F1 original era 0,71), enquanto a HMC baseada em Bolsa obteve uma pontuação F1 de 0,9 (a F1 original era 0) para a classe de ataque em rede. Esses resultados mostram que estratégias de aprendizado em conjunto (como AdaBoost e Bagging) melhoram significativamente a capacidade preditiva de múltiplos classificadores em classes minoritárias.
Caso de simulação de ataque
Para verificar ainda mais a praticidade e robustez do modelo proposto em um ambiente real de rede, este artigo projetou e implementou um caso de simulação de ataque e conduziu um experimento de simulação no cenário de ataque DDoS. O ambiente de simulação é construído sobre uma plataforma virtual de computação em nuvem, utilizando múltiplos hosts virtuais para simular a interação entre usuários normais e atacantes. O cenário de simulação inclui um ambiente de rede misto onde o acesso normal ao negócio e o tráfego malicioso coexistem.
No experimento, o atacante lançou ataques UDP flood e SYN Flood para o servidor alvo por meio de múltiplos IPs de origem, tentando esgotar os recursos do sistema alvo e afetar a disponibilidade dos serviços normais. O sistema está constantemente coletando informações de tráfego de rede, e parâmetros característicos principais relacionados à taxa de transmissão, duração das sessões, frequência de acesso à porta e contagem de conexões anormais são utilizados.
O modelo proposto de avaliação de confiança e detecção de ataques é implementado no nó de monitoramento para analisar e categorizar o tráfego em tempo real. O sistema pode registrar a identificação bem-sucedida nas fases iniciais do ataque por meio do modelo de nuvem de confiança e do mecanismo de discriminação multi-classificação, e marcar eficientemente os suspeitos como de baixa confiança e ativar um mecanismo de resposta.
Os resultados da simulação indicam que, quando o tráfego de ataque simulado constitui mais de 30% do tráfego total. O sistema proposto alcançou 96% de precisão em detecção, baixa taxa de falsos positivos de 3% e latência de resposta inferior a 2 s sob condições simuladas de DDoS. Esse resultado confirma que esse modelo apresenta oportunidades promissoras de aplicação no combate a ataques distribuídos e no aprimoramento das capacidades de defesa de segurança do sistema.
Além disso, esse experimento também estendeu o teste de ataques com múltiplas rodadas e ataques não contínuos. O modelo mantém alta estabilidade de detecção, o que indica sua boa capacidade de generalização em condições dinâmicas complexas de rede. Os tipos de ataques serão estendidos no futuro, incluindo injeção de dados, ataques de phishing, etc., para testar totalmente a flexibilidade e escalabilidade do modelo com uma variedade de ameaças.
A Tabela 5 representa a significância estatística das melhorias de desempenho. Esta tabela exibe os resultados dos t-tests pareados que comparam modelos de linha base com a proposta estrutura Adaptive ML-HMC-Trust em termos das principais métricas de desempenho. A tabela consiste nos valores de média e desvio padrão, valores t, valores p e níveis significativos de precisão, escore F1, detecção de classes minoritárias, taxa de falsos positivos e latência de detecção.

Figura 1: Representação do fluxo metodológica. Fluxograma ilustrando a proposta de framework SDN-cloud que integra ML adaptativo, classificação hierárquica e avaliação de confiança para detecção de ataques em tempo real. Por favor, clique aqui para ver uma versão maior desta figura.

Figura 2: Arquitetura de serviços em nuvem. A figura demonstra o modelo geral de serviço em nuvem aplicado na pesquisa, a camada de controle, a camada de encaminhamento de dados e a camada de serviço. A arquitetura consiste em controlador Ryu OpenFlow, nós Open vSwitch e hosts virtualizados em nuvem. As conexões são todas fluxos de dados em tempo real e interações entre status de link. Por favor, clique aqui para ver uma versão ampliada desta figura.

Figura 3: Modelo de topologia de rede. A figura mostra a topologia de rede virtual de três camadas construída no ambiente de nuvem. Envolve os nós hospedeiros, camadas de comutação, atrasos simulados de link, bem como limites de largura de banda. A topologia permite separação de tráfego, roteamento multi-caminho e redirecionamento de fluxo de ataque (em tempo real). Por favor, clique aqui para ver uma versão ampliada desta figura.

Figura 4: Arquitetura de detecção de segurança baseada em HMC. A figura demonstra a hierarquia da classificação multiclasse, combinando aprendizado em conjunto, avaliação de confiança e detecção de ameaças em múltiplos níveis. Os blocos representam as fases de classificação, mostrando o fluxo da detecção de ataques grosso para a detecção de granulação fina. Por favor, clique aqui para ver uma versão ampliada desta figura.

Figura 5: Processo de avaliação de confiança baseado em modelos de nuvem. A figura representa as seis etapas do processo de avaliação de confiança, incluindo a geração normal de nuvens de confiança, extração de atributos, formação de nuvens de atributos, cálculo de similaridade de nuvem, classificação em nível de confiança e atualização dinâmica de confiança. Por favor, clique aqui para ver uma versão ampliada desta figura.

Figura 6: Desempenho de aprendizado de máquina em conjunto de dados DDoS. A figura examina como oito modelos clássicos de ML se comportam em uma disposição binária de tráfego de ataque normal versus DDoS. As métricas são recordação, precisão, pontuação F1 e precisão geral. Barras de erro refletem variabilidade por meio de validação cruzada de 5 pedaços. Por favor, clique aqui para ver uma versão ampliada desta figura.

Figura 7: Desempenho do modelo de deep learning em conjunto de dados DDoS. A figura mostra o desempenho de classificação binária dos modelos MLP, CNN, RNN, LSTM e GRU. Medições indicam desempenho do modelo em uma série de ciclos de treinamento. Por favor, clique aqui para ver uma versão ampliada desta figura.

Figura 8: HMC vs. desempenho de classificador de aprendizado de máquina único. A figura mostra uma comparação entre a multiclassificação hierárquica e o classificador tradicional de ataques de minorias como U2R e R2L. São apresentadas pontuações F1, incluindo barras de erro que indicam variação entre experimentos repetidos. Por favor, clique aqui para ver uma versão ampliada desta figura.

Figura 9: HMC vs. desempenho de classificador de deep learning. O valor indica o aprimoramento da detecção multiclasse usando HMC em modelos DL. O desempenho das minorias é destacado e é significativamente melhorado em comparação com modelos DL únicos. Por favor, clique aqui para ver uma versão ampliada desta figura.

Figura 10: Resultados da simulação de ataque DDoS. A figura mostra a saída de monitoramento em tempo real do experimento na simulação de ataque, que indica a taxa de tráfego, o número de conexões anormais, o tempo de resposta do método de detecção e a saída da classificação do sistema. As barras de escala indicam o tempo (em segundos) e o volume de tráfego. Por favor, clique aqui para ver uma versão ampliada desta figura.
| Modelo | Taxa de Aprendizado | Tamanho do lote | Épocas | Função de Ativação |
| MLP | 0.001 | 64 | 30 | ReLU |
| CNN | 0.0005 | 32 | 50 | LeakyReLU |
| RNN | 0.001 | 64 | 40 | Tanh |
| LSTM | 0.0001 | 128 | 60 | Sigmoide |
| GRU | 0.001 | 64 | 45 | ReLU |
Tabela 1: Configurações de parâmetros do modelo de deep learning. Esta tabela contém os hiperparâmetros dos experimentos de aprendizado profundo: o tamanho do lote, a taxa de aprendizado, o número de épocas e as especificações da arquitetura.
| ID de Exemplo | Tempo de Amostragem (segundos) | Grau de Trust ExExEx | Entropy EnEnEn | Hiper-Entropia HeHeHe | Pontuação de Similaridade | Nível de Confiança |
| 1 | 10 | 0.75 | 0.65 | 0.8 | 0.85 | Alto |
| 2 | 20 | 0.8 | 0.6 | 0.75 | 0.82 | Alto |
| 3 | 30 | 0.68 | 0.7 | 0.85 | 0.8 | Médio |
| 4 | 40 | 0.6 | 0.72 | 0.9 | 0.78 | Médio |
| 5 | 50 | 0.5 | 0.8 | 0.95 | 0.7 | Baixo |
| 6 | 60 | 0.45 | 0.85 | 0.96 | 0.65 | Baixo |
Tabela 2: Valores de amostra do sistema e análise da situação da rede. Esta tabela apresenta alguns dos valores amostrais do ambiente em nuvem, como estatísticas de tráfego, valores de confiança e resultados de classificação.
| Classificador | Precisão | Precisão | Recall | Placar da F1 |
| Árvore de Decisão (DT) | 85.20% | 84.30% | 86.10% | 85.20% |
| Floresta Aleatória (RF) | 90.10% | 89.30% | 91.00% | 90.10% |
| Naive Bayes (NB) | 82.50% | 81.70% | 83.40% | 82.50% |
| K-Vizinhos Mais Próximos (KNN) | 87.40% | 86.80% | 88.10% | 87.40% |
| SVM-RBF | 88.90% | 88.10% | 89.50% | 88.80% |
| SVM Linear (L-SVM) | 87.80% | 87.20% | 88.50% | 87.80% |
| Sacagem | 91.20% | 90.50% | 91.70% | 91.10% |
| Reforço | 92.30% | 91.90% | 92.60% | 92.20% |
Tabela 3: Comparação de desempenho de classificadores de aprendizado de máquina. A tabela apresenta a recordação, precisão, precisão e pontuações F1 para todos os modelos de ML testados.
| Modelo | Precisão | Precisão | Recall | Placar da F1 |
| MLP | 89.50% | 88.70% | 90.30% | 89.50% |
| CNN | 91.20% | 90.70% | 91.50% | 91.10% |
| RNN | 88.30% | 87.60% | 88.80% | 88.20% |
| LSTM | 92.10% | 91.80% | 92.40% | 92.10% |
| GRU | 91.80% | 91.40% | 92.10% | 91.70% |
Tabela 4: Comparação de desempenho de classificadores de deep learning. Esta tabela apresenta métricas de desempenho dos modelos MLP, CNN, RNN, LSTM e GRU com base na detecção multiclasse.
| Métrica de Desempenho | Média Inicial (DS) | Média Modelo Proposta (SD) | valor t | valor-p | Significado |
| Precisão | 0.89 (0.04) | 0.96 (0.02) | 8.72 | <0,001 | Significativo |
| F1-Score | 0.84 (0.05) | 0.94 (0.03) | 9.15 | <0,001 | Significativo |
| Detecção de Classe Minoritária (U2R/R2L) | 0.52 (0.08) | 0.81 (0.06) | 10.44 | <0,001 | Significativo |
| Taxa de Falsos Positivos | 0.11 (0.03) | 0.04 (0.02) | –7.98 | <0,001 | Significativo |
| Latência de Detecção (segundos) | 3.10 (0.41) | 1.82 (0.33) | –9.27 | <0,001 | Significativo |
Tabela 5: Significância estatística das melhorias de desempenho. Esta tabela exibe os resultados dos testes t pareados que comparam modelos de linha de base com a proposta de framework Adaptive ML -HMC-Trust em termos das principais métricas de desempenho. A tabela consiste nos valores de média e desvio padrão, valores t, valores p e níveis significativos de precisão, escore F1, detecção de classes minoritárias, taxa de falsos positivos e latência de detecção.