$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Validación experimental y análisis del rendimiento
Validación basada en la nube
Para probar la eficiencia y viabilidad del algoritmo propuesto, se realizaron pruebas de simulación en un entorno de laboratorio de red controlado. La verificación se realizó en el sistema operativo Windows, y el algoritmo central está codificado en herramientas de programación VC (Visual C++).
En el caso de datos experimentales, elegimos el conjunto de datos KDDCUP_10% disponible pública http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html mente que es común en la detección de intrusiones y el modelado del comportamiento de la red. El proceso experimental general es muy similar al enfoque descritoanteriormente 10 para asegurar la comparabilidad y credibilidad de los resultados.
Los principales parámetros del algoritmo se establecieron en: intervalo de tiempo T = 10 s; número de rondas de muestreo h = 20; Muestras de datos n = 1000.
Calcularon las características digitales del modelo de nube de confianza usando estos parámetros. Después, se utilizó el algoritmo de similitud de la nube de confianza más similar de los candidatos, lo que permitió clasificar y evaluar los estados de la red.
La Tabla 2 muestra los valores de la muestra seleccionada del sistema y los resultados de la situación de análisis de red. Estos confirman que el sistema de evaluación de confianza basado en la nube sugerido tiene el potencial de representar y encapsular de manera eficiente el dinamismo y las incertidumbres de los entornos de red multifacéticos.
El experimento confirma la posibilidad de implementar modelos en la nube junto con la evaluación de confianza en tiempo real y proporciona un marco para su aplicación posterior en el sistema adaptativo de gestión de seguridad.
Verificación del ataque
Para realizar una verificación exhaustiva del rendimiento del algoritmo propuesto en este experimento, es necesario evaluar las capacidades de detección de ataques de la clasificación binaria, multiclasificación y HMC dentro de un entorno de computación en la nube. La evaluación experimental se divide en tres fases principales: la aplicación de datos de ataques DDoS para comprobar la funcionalidad del módulo de IA, la evaluación de la funcionalidad de varios algoritmos de ML y el análisis de la funcionalidad de los modelos DL para prever ataques.
Verificación del rendimiento en clasificación binaria
En la primera fase del experimento, se utilizó el conjunto de datos de ataques DDoS para verificar el módulo de IA, cuyo objetivo principal era probar la precisión de predicción del modelo en un entorno de computación en la nube. Utilizamos un método de validación cruzada de 5 vías, y la proporción de datos de entrenamiento respecto a datos de prueba se estableció en 8:2, es decir, el 80% de los datos se utilizó para entrenamiento y el 20% para pruebas. En cada experimento, se utilizó un conjunto de pruebas diferente para verificar el modelo y asegurar que cada muestra apareciera como un conjunto de prueba una vez. El proceso de formación duró 5 épocas y se obtuvo el resultado medio.
El conjunto de datos se divide en dos grupos: normal y anormal. Para comparar el rendimiento de diferentes clasificadores, se seleccionaron los siguientes ocho clasificadores de ML comunes: árbol de decisión (DT), bosque aleatorio (RF), Bayes ingenuo (NB), K vecino más cercano (KNN), máquina de vectores de soporte (núcleo RBF) (SVM-RBF), máquina de vectores de soporte lineal (L-SVM) y algoritmos de embolsado y potenciación para el aprendizaje en conjunto. Los resultados de la comparación de rendimiento se muestran en la Figura 6. Mediante la comparación de rendimiento de estos clasificadores, su rendimiento en la detección de ataques DDoS puede evaluarse de forma exhaustiva 20,21.
Verificación de rendimiento multiclasificación
En la segunda fase del experimento, el conjunto de datos se amplió a problemas de multiclasificación, que involucraban diferentes tipos de ataques de red, incluyendo DDoS, U2R (ataque de usuario a raíz), R2L (ataque remoto a local), datos normales, etc. Los problemas de clasificación múltiple ponen a prueba la capacidad del modelo para identificar y organizar múltiples tipos de ataque.
Se utilizaron cinco clasificadores DL para la validación, incluyendo MLP, CNN, RNN, la red de memoria a corto plazo (LSTM) y la red GRU. Los parámetros específicos de cada modelo se presentan en la Tabla 1, la Tabla 3 y la Tabla 4. Al realizar la validación multiclasificación, se evaluó en detalle la precisión y el recuerdo del modelo en múltiples categorías.
Verificación del desempeño multiclasificación del HMC
En la tercera etapa, el algoritmo HMC se utilizó para comparar el rendimiento de todos los modelos ML y DL mencionados anteriormente en tareas de clasificación multiclase. El algoritmo HMC mejora significativamente la precisión para detectar ataques de grano fino (como U2R, R2L, etc.) al descomponer problemas complejos de multiclase en múltiples subproblemas de clasificación binaria. Las ventajas del HMC se verificaron mejorando la precisión de la detección de ataques en comparación con los métodos tradicionales de clasificación.
Resultados experimentales y análisis
A través de los experimentos en las tres etapas anteriores, obtuvimos los indicadores de rendimiento de cada clasificador y modelo DL bajo diferentes tipos de ataque. La Tabla 3 muestra indicadores de rendimiento como precisión, tasa de revisión, valor F1, etc., en diferentes métodos de clasificación. En el experimento, HMC mostró alta precisión y robustez en la detección de ataques multiclase, especialmente al tratar con ataques U2R y R2L. En comparación con los métodos tradicionales de SVM y RF, HMC ha logrado una mejora significativa.
A través de estos resultados experimentales, verificamos la eficacia del módulo de IA propuesto para la detección de ataques en un entorno de computación en la nube, y proporcionamos una base fiable para la optimización posterior del modelo y el despliegue de aplicaciones.
Los resultados experimentales indican que, entre los modelos de aprendizaje automático, los métodos de Árbol de Decisión (DT), Bosque Aleatorio (RF) y conjunto (Embolsado, Impulso) lograron un rendimiento superior, con puntuaciones F1 que alcanzaron 1,0. Esto valida su robustez y precisión para distinguir patrones DDoS del tráfico normal. En contraste, el modelo de Bayes ingenuo (NB) tuvo un desempeño pobre en la predicción anormal de paquetes, con una puntuación F1 de 0,62, lo que indica que el modelo tiene cierto riesgo de clasificación errónea al enfrentarse a tipos de ataque complejos.
La Figura 7 muestra el rendimiento de MLP, CNN, RNN, LSTM y GRU. Tras optimizar los parámetros, las puntuaciones binarias F1 de los modelos DL fueron 0,93 y 0,98, respectivamente, lo que indica que los modelos DL capturan eficazmente las características de datos profundos, especialmente al procesar series temporales y reconocimiento complejo de patrones, y que rinden mejor que los modelos ML tradicionales.
Un análisis exhaustivo muestra que los árboles de decisión, los métodos de aprendizaje en conjunto y los modelos de redes neuronales muestran un rendimiento excelente en la detección de ataques DDoS, pero en aplicaciones específicas, la selección de un modelo adecuado aún debe tener en cuenta factores como el tipo de ataque, el volumen de datos y los recursos informáticos. Para mejorar aún más la capacidad de detección del modelo, se pueden integrar múltiples modelos en el futuro para lograr mayor precisión y una menor tasa de falsas alarmas.
La Figura 8 demuestra el rendimiento superior de los modelos DL respecto a las líneas base tradicionales de ML, manteniendo valores F1 entre 0,96 y 0,99, especialmente en conjuntos de datos desbalanceados. Sin embargo, el rendimiento predictivo de la clase U2R sigue siendo inferior en las categorías más detalladas, y el rendimiento de la clasificación de ciberataques es solo de 0,49. El rendimiento de reconocimiento de algunas categorías muestrales (incluyendo U2R, ciberataques, BFA y botnets) debe mejorarse, según los resultados combinados de la Figura 9 y la Figura 10.
En la tercera fase, se utilizaron 13 clasificadores individuales, idénticos a los anteriores pero centrados en la clase minoritaria, para comparar el rendimiento del HMC. El diseño HMC basado en AdaBoost supera al bagado, según los resultados. En la clase U2R, HMC basada en AdaBoost tiene una puntuación F1 de 0,5 (la F1 inicial es 0), mientras que HMC basada en Bagging tiene una puntuación F1 de 0,67 (con 0,4 como F1 inicial) para la clase minoritaria. El HMC basado en AdaBoost obtuvo una puntuación F1 de 0,88 (el F1 original era 0,71), mientras que el HMC basado en Embolsas obtuvo una puntuación F1 de 0,9 (el F1 original era 0) para la clase de ataque en red. Estos resultados muestran que las estrategias de aprendizaje en conjunto (como AdaBoost y Bagging) mejoran significativamente la capacidad predictiva de múltiples clasificadores en clases minoritarias.
Caso de simulación de ataque
Para verificar aún más la practicidad y robustez del modelo propuesto en un entorno real de red, este artículo diseñó e implementó un caso de simulación de ataque y realizó un experimento de simulación sobre el escenario de ataque DDoS. El entorno de simulación está construido sobre una plataforma virtual de computación en la nube, utilizando múltiples hosts virtuales para simular la interacción entre usuarios normales y atacantes. El escenario de simulación incluye un entorno de red mixto donde el acceso normal al negocio y el tráfico malicioso coexisten.
En el experimento, el atacante lanzó ataques UDP flood y SYN Flood al servidor objetivo a través de múltiples IPs fuente, intentando agotar los recursos del sistema objetivo y afectar la disponibilidad de servicios normales. El sistema recopila constantemente información del tráfico de red y se utilizan parámetros característicos principales relacionados con la velocidad de transmisión, la duración de las sesiones, la frecuencia de acceso al puerto y el recuento de conexiones anormales.
El modelo propuesto de evaluación de confianza y detección de ataques se implementa en el nodo de monitorización para analizar y categorizar el tráfico en tiempo real. El sistema puede registrar la identificación exitosa en las fases iniciales del ataque mediante el modelo de nube de confianza y el mecanismo de discriminación multiclasificación, y etiquetar eficientemente a los sospechosos como de baja confianza y activar un mecanismo de respuesta.
Los resultados de la simulación indican que cuando el tráfico de ataque simulado constituye más del 30% del tráfico total. El sistema propuesto alcanzó una precisión de detección del 96%, una baja tasa de falsos positivos del 3% y una latencia de respuesta inferior a 2 s bajo condiciones simuladas de DDoS. Este resultado confirma que este modelo tiene oportunidades de aplicación prometedoras para abordar ataques distribuidos y mejorar las capacidades de defensa de seguridad del sistema.
Además, este experimento amplió la prueba de ataques de varios asaltos y ataques no continuos. El modelo mantiene una alta estabilidad de detección, lo que indica su buena capacidad de generalización en condiciones dinámicas complejas de red. Los tipos de ataques se ampliarán en el futuro, incluyendo inyección de datos, ataques de phishing, etc., para probar plenamente la flexibilidad y escalabilidad del modelo con una variedad de amenazas.
La Tabla 5 representa la significación estadística de las mejoras en el rendimiento. Esta tabla muestra los resultados de las pruebas t emparejadas que comparan modelos de referencia con el marco propuesto Adaptive ML-HMC-Trust en términos de las principales métricas de rendimiento. La tabla consta de los valores de media y desviación estándar, valores t, valores p y los niveles de significación de precisión, puntuación F1, detección de clase minoritaria, tasa de falsos positivos y latencia de detección.

Figura 1: Metodología de representación del flujo. Diagrama de flujo que ilustra el marco SDN-cloud propuesto que integra ML adaptativo, clasificación jerárquica y evaluación de confianza para la detección de ataques en tiempo real. Por favor, haga clic aquí para ver una versión ampliada de esta figura.

Figura 2: Arquitectura de servicios en la nube. La figura demuestra el modelo general de servicios en la nube aplicado en la investigación, la capa de control, la capa de reenvío de datos y la capa de servicios. La arquitectura consta de un controlador Ryu OpenFlow, nodos Open vSwitch y hosts virtualizados en la nube. Las conexiones son todas flujos de datos en tiempo real e interacciones entre el estado del enlace. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Figura 3: Modelo de topología de red. La figura muestra la topología de red virtual de tres capas construida en el entorno de la nube. Incluye los nodos anfitrión, capas de conmutación, retardos simulados de enlace así como límites de ancho de banda. La topología permite la separación del tráfico, el enrutamiento multi-camino y la redirección del flujo de ataque (en tiempo real). Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Figura 4: Arquitectura de detección de seguridad basada en HMC. La figura demuestra la jerarquía de la jerarquía de clasificación multiclase que combina aprendizaje en conjunto, evaluación de confianza y detección de amenazas multinivel. Los bloques representan las fases de clasificación, mostrando el flujo desde la detección de ataques de grano grueso hasta la detección de grano fino. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Figura 5: Proceso de evaluación de confianza basado en modelos de nube. La figura representa los seis pasos del proceso de evaluación de confianza desde la generación normal de nubes de confianza, la extracción de atributos, la formación de nubes de atributos, el cálculo de similitud en la nube, la clasificación a nivel de confianza y la actualización dinámica de confianza. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Figura 6: Rendimiento del aprendizaje automático en un conjunto de datos DDoS. La figura examina cómo funcionan ocho modelos clásicos de aprendizaje automático en una disposición binaria entre tráfico de ataque normal y DDoS. Las métricas son la memoria, la precisión, la puntuación F1 y la precisión general. Las barras de error reflejan la variabilidad mediante la validación cruzada de 5 veces. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Figura 7: Rendimiento de modelos de aprendizaje profundo en un conjunto de datos DDoS. La figura muestra el rendimiento en la clasificación binaria de los modelos MLP, CNN, RNN, LSTM y GRU. Las mediciones indican el rendimiento del modelo en una serie de ciclos de entrenamiento. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Figura 8: HMC vs. rendimiento de un clasificador de aprendizaje automático único. La figura muestra una comparación entre la multiclasificación jerárquica y el clasificador tradicional de ataques de minorías como U2R y R2L. Se presentan puntuaciones F1, incluyendo barras de error que indican variaciones entre experimentos repetidos. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Figura 9: Rendimiento de HMC vs. clasificador de aprendizaje profundo. El valor indica la mejora de la detección multiclase usando HMC en modelos DL. Se destaca el rendimiento de la minoría, que mejora significativamente en comparación con los modelos DL individuales. Por favor, haz clic aquí para ver una versión ampliada de esta figura.

Figura 10: Resultados de simulación de ataque DDoS. La figura muestra la salida de monitorización en tiempo real del experimento en la simulación del ataque, que indica la tasa de tráfico, el número de conexiones anormales, el tiempo de respuesta del método de detección y la salida de clasificación del sistema. Las barras de escala indican el tiempo (en segundos) y el volumen de tráfico. Por favor, haz clic aquí para ver una versión ampliada de esta figura.
| Modelo | Ritmo de aprendizaje | Tamaño del lote | Épocas | Función de activación |
| MLP | 0.001 | 64 | 30 | ReLU |
| CNN | 0.0005 | 32 | 50 | LeakyReLU |
| RNN | 0.001 | 64 | 40 | Tanh |
| LSTM | 0.0001 | 128 | 60 | Sigmoide |
| GRU | 0.001 | 64 | 45 | ReLU |
Tabla 1: Configuración de parámetros del modelo de aprendizaje profundo. Esta tabla contiene los hiperparámetros de los experimentos de aprendizaje profundo: el tamaño del lote, la tasa de aprendizaje, el número de épocas y las especificaciones de la arquitectura.
| ID de muestra | Tiempo de muestreo (segundos) | Grado de Fideicomiso ExExEx | Entropy EnEnEn | Hiperentropía Jejeje | Puntuación de similitud | Nivel de confianza |
| 1 | 10 | 0.75 | 0.65 | 0.8 | 0.85 | Alto |
| 2 | 20 | 0.8 | 0.6 | 0.75 | 0.82 | Alto |
| 3 | 30 | 0.68 | 0.7 | 0.85 | 0.8 | Medio |
| 4 | 40 | 0.6 | 0.72 | 0.9 | 0.78 | Medio |
| 5 | 50 | 0.5 | 0.8 | 0.95 | 0.7 | Bajo |
| 6 | 60 | 0.45 | 0.85 | 0.96 | 0.65 | Bajo |
Tabla 2: Valores de muestra del sistema y análisis de la situación de la red. Esta tabla muestra algunos de los valores de muestra del entorno en la nube, como estadísticas de tráfico, valores de confianza y salidas de clasificación.
| Clasificador | Precisión | Precisión | Revocación | Puntuación de F1 |
| Árbol de Decisión (DT) | 85.20% | 84.30% | 86.10% | 85.20% |
| Bosque Aleatorio (RF) | 90.10% | 89.30% | 91.00% | 90.10% |
| Naive Bayes (NB) | 82.50% | 81.70% | 83.40% | 82.50% |
| K-Vecinos más cercanos (KNN) | 87.40% | 86.80% | 88.10% | 87.40% |
| SVM-RBF | 88.90% | 88.10% | 89.50% | 88.80% |
| SVM lineal (L-SVM) | 87.80% | 87.20% | 88.50% | 87.80% |
| Encapsulación | 91.20% | 90.50% | 91.70% | 91.10% |
| Impulso | 92.30% | 91.90% | 92.60% | 92.20% |
Tabla 3: Comparación del rendimiento de clasificadores de aprendizaje automático. La tabla presenta la recuperación, precisión, exactitud y puntuaciones F1 de todos los modelos de aprendizaje automático probados.
| Modelo | Precisión | Precisión | Revocación | Puntuación de F1 |
| MLP | 89.50% | 88.70% | 90.30% | 89.50% |
| CNN | 91.20% | 90.70% | 91.50% | 91.10% |
| RNN | 88.30% | 87.60% | 88.80% | 88.20% |
| LSTM | 92.10% | 91.80% | 92.40% | 92.10% |
| GRU | 91.80% | 91.40% | 92.10% | 91.70% |
Tabla 4: Comparación del rendimiento de clasificadores de aprendizaje profundo. Esta tabla presenta métricas de rendimiento de modelos MLP, CNN, RNN, LSTM y GRU basándose en la detección multiclase.
| Métrica de rendimiento | Media Base (DS) | Media Modelo Propuesta (SD) | valor t | valor p | Importancia |
| Precisión | 0.89 (0.04) | 0.96 (0.02) | 8.72 | <0,001 | Significativo |
| F1-Score | 0.84 (0.05) | 0.94 (0.03) | 9.15 | <0,001 | Significativo |
| Detección de Clase Minoritaria (U2R/R2L) | 0.52 (0.08) | 0.81 (0.06) | 10.44 | <0,001 | Significativo |
| Tasa de falsos positivos | 0.11 (0.03) | 0.04 (0.02) | –7.98 | <0,001 | Significativo |
| Latencia de detección (segundos) | 3.10 (0.41) | 1.82 (0.33) | –9.27 | <0,001 | Significativo |
Tabla 5: Significación estadística de las mejoras en el rendimiento. Esta tabla muestra los resultados de pruebas t emparejadas que comparan modelos de referencia con el marco propuesto Adaptive ML -HMC-Trust en términos de las principales métricas de rendimiento. La tabla consta de los valores de media y desviación estándar, valores t, valores p y los niveles de significación de precisión, puntuación F1, detección de clase minoritaria, tasa de falsos positivos y latencia de detección.