15.15: Árbol de supervivencia

Survival Tree
JoVE Core
Statistics
A subscription to JoVE is required to view this content.  Sign in or start your free trial.
JoVE Core Statistics
Survival Tree
Please note that all translations are automatically generated. Click here for the English version.

88 Views

01:19 min
January 09, 2025

Overview

Los árboles de supervivencia son un método no paramétrico utilizado en el análisis de supervivencia para modelar la relación entre un conjunto de covariables y el tiempo hasta que ocurre un evento de interés, a menudo denominado “tiempo hasta el evento” o “tiempo de supervivencia”. Este método es particularmente útil cuando se trata de datos censurados, donde el evento no ha ocurrido para algunos individuos al final del período de estudio. o cuando se desconoce la hora exacta del evento.

Construyendo un árbol de supervivencia

La construcción de un árbol de supervivencia comienza con un conjunto de datos que incluye covariables (variables predictoras) y el tiempo de supervivencia, junto con un indicador de censura para cada sujeto. El proceso implica los siguientes pasos:

  1. Preparación de los datos: El conjunto de datos se prepara asegurándose de que todas las covariables necesarias estén incluidas y con el formato adecuado. Los valores faltantes se pueden manejar utilizando métodos como la imputación o tratándolos como una categoría separada.
  2. Construcción del árbol: El árbol de supervivencia se construye mediante un proceso de partición recursiva. En cada paso, el conjunto de datos se divide en dos subconjuntos en función de la covariable que mejor diferencia los resultados de supervivencia. Por lo general, esto se hace utilizando un criterio de división, como la prueba de rango logarítmico, que compara las distribuciones de supervivencia entre los grupos.
  3. Evaluación de nodos: Cada nodo del árbol representa un subconjunto de los datos, y los nodos terminales (hojas) se evalúan en función de la estimación de Kaplan-Meier de la función de supervivencia. Esto proporciona una estimación de la probabilidad de supervivencia de los sujetos que caen en ese nodo.
  4. Poda: Para evitar el sobreajuste, el árbol se poda eliminando los nodos que no proporcionan una mejora significativa en la precisión del modelo. Este paso garantiza que el árbol sea generalizable a nuevos datos.

Ventajas y desventajas

Ventajas:

  1. Flexibilidad: Los árboles de supervivencia pueden manejar una amplia gama de tipos de datos y son robustos a los valores atípicos y faltantes.
  2. Interpretabilidad: La estructura del árbol es fácil de interpretar, lo que permite una visualización directa de la relación entre las covariables y el tiempo de supervivencia.
  3. Naturaleza no paramétrica: No requieren suposiciones sobre la distribución de los tiempos de supervivencia o la forma funcional de la relación entre las covariables y la supervivencia.

Desventajas:

  1. Sobreajuste: Sin una poda adecuada, los árboles de supervivencia pueden sobreajustar los datos de entrenamiento, lo que lleva a una generalización deficiente.
  2. Inestabilidad: Pequeños cambios en los datos pueden provocar cambios significativos en la estructura de los árboles, haciéndolos menos estables en comparación con otros métodos como los bosques de supervivencia

Transcript

Un árbol de supervivencia se utiliza para modelar y visualizar la relación entre un conjunto de covariables y el tiempo hasta que ocurre un evento de interés. Por lo general, se construye mediante un proceso de partición recursiva.

Las ramas del árbol representan las divisiones en los valores de una variable. Los nodos representan subconjuntos de los datos, y los nodos terminales indican el número de sujetos en el nodo y podrían proporcionar predicciones finales del análisis.

La construcción de un árbol de supervivencia requiere principalmente covariables, criterios de división, tamaño mínimo de nodo y umbrales de poda.

Las covariables o variables predictoras pueden ser continuas, ordinales o categóricas.

Un criterio de división es un método para elegir la mejor división en cada nodo. Se aplica para minimizar el riesgo dentro del nodo o para maximizar el grado de separación entre nodos.

El tamaño mínimo del nodo es el número más pequeño de observaciones necesarias para que un nodo se divida aún más. Esto ayuda a controlar el tamaño del árbol y evita el sobreajuste.

Por último, el umbral de poda es una medida para decidir cuándo dejar de podar el árbol.

Key Terms and definitions​

Learning Objectives

Questions that this video will help you answer

This video is also useful for