Regresión de riesgos proporcionales de Cox
Dominio: | Estadísticas ![]() ![]() ![]() ![]() |
Descripción
La regresión de Cox (o regresión de riesgos proporcionales de Cox) es un método estadístico para analizar el efecto de varios factores de riesgo sobre la supervivencia o, en general, sobre el tiempo que tarda en ocurrir un evento específico.
La probabilidad del punto final (muerte o cualquier otro evento de interés, por ejemplo, la recurrencia de una enfermedad) se denomina riesgo. El riesgo se modela como:
donde X 1... X k son una colección de variables predictoras y H 0 (t) es el riesgo base en el tiempo t, que representa el riesgo para una persona con el valor 0 para todas las variables predictoras.
Dividiendo ambos lados de la ecuación anterior por H 0 (t) y tomando logaritmos, obtenemos:
Llamamos H(t)/H2 (t) el cociente de riesgos. Los coeficientes b1... b2 se estiman mediante regresión de Cox y pueden interpretarse de forma similar a la regresión logística múltiple.
Supongamos que la covariable (factor de riesgo) es dicotómica y se codifica como 1 si está presente y 0 si está ausente. Entonces, la cantidad exp(b i) puede interpretarse como el riesgo relativo instantáneo de un evento, en cualquier momento, para un individuo con el factor de riesgo presente en comparación con un individuo sin el factor de riesgo, dado que ambos individuos son iguales en todas las demás covariables.
Supongamos que la covariable es continua, entonces la cantidad exp(bi) es el riesgo relativo instantáneo de un evento, en cualquier momento, para un individuo con un aumento de 1 en el valor de la covariable en comparación con otro individuo, dado que ambos individuos son iguales en todas las demás covariables.
Entrada requerida
Tiempo de supervivencia : Nombre de la variable que contiene el tiempo para llegar al evento de interés, o el tiempo de seguimiento.
Punto final : El nombre de una variable que contiene los códigos 1 para los casos que alcanzaron el punto final, o código 0 para los casos que no lo alcanzaron, ya sea porque se retiraron del estudio o porque se llegó al final del estudio. Si sus datos tienen una codificación diferente, puede usar la herramienta Definir estado para recodificarlos.
Variables predictoras : nombres de variables que espera que predigan el tiempo de supervivencia.
El modelo de regresión proporcional de Cox asume que los efectos de las variables predictoras son constantes a lo largo del tiempo. Además, debe existir una relación lineal entre el punto final y las variables predictoras. Las variables predictoras con una distribución muy asimétrica pueden requerir una transformación logarítmica para reducir el efecto de los valores extremos. La transformación logarítmica de una variable var se puede obtener introduciendo LOG(var) como variable predictora.
Filtro : Un filtro para incluir sólo un subgrupo seleccionado de casos en el gráfico.
Opciones
- Método: seleccionar la forma en que se ingresan las variables independientes en el modelo.
- Introducir: introduce todas las variables en el modelo en un solo paso, sin marcar
- Adelante: ingrese variables significativas secuencialmente
- Hacia atrás: primero ingrese todas las variables en el modelo y luego elimine secuencialmente las variables no significativas
- Paso a paso: ingrese las variables significativas de manera secuencial; después de ingresar una variable en el modelo, verifique y posiblemente elimine las variables que se volvieron no significativas.
- Ingresar variable si P<
Se ingresa una variable en el modelo si su nivel de significancia asociado es menor que este valor P. - Eliminar variable si P>
se elimina una variable del modelo si su nivel de significancia asociado es mayor que este valor P. - Categórico: haga clic en este botón para identificar variables categóricas.
Opciones de gráficos
- Gráfico:
- Probabilidad de supervivencia (%): grafica la probabilidad de supervivencia (%) en función del tiempo (curvas descendentes)
- 100 - Probabilidad de supervivencia (%): gráfica 100 - Probabilidad de supervivencia (%) frente al tiempo (curvas ascendentes)
- Subgrupos del gráfico : aquí puede seleccionar una de las variables predictoras. El gráfico mostrará diferentes curvas de supervivencia para todos los valores de esta covariable (que debe ser categórica y no puede contener más de ocho categorías). Si no se selecciona ninguna covariable, el gráfico mostrará la supervivencia en la media de las covariables del modelo.
Resultados
En el ejemplo (tomado de Bland, 2000), el 'tiempo de supervivencia' es el tiempo transcurrido hasta la recurrencia de los cálculos biliares tras su disolución (variable Tiempo). La recurrencia se codifica en la variable Recurrencia (1 = sí, 0 = no). Las variables predictoras son Dis (= número de meses que tardaron en disolverse los cálculos biliares previos), Mult (1 en caso de múltiples cálculos biliares previos, 0 en caso de un solo cálculo biliar previo) y Diam (diámetro máximo de los cálculos biliares previos).
Tiempo de supervivencia | Hora |
---|---|
Punto final | Remisión |
Método | Adelante |
---|---|
Introducir variable si P< | 0.05 |
Eliminar variable si P> | 0.1 |
Resumen de casos
Número de eventos a | 39 | 27.08% |
---|---|---|
Número de censurados b | 105 | 72.92% |
Número total de casos | 144 | 100.00% |
a Remisión = 1
b Remisión = 0
Ajuste de modelo general
Modelo nulo basado en la log-verosimilitud -2 | 339.097 |
---|---|
Modelo completo basado en la log-verosimilitud -2 | 326.933 |
Chi-cuadrado | 12.164 |
GL | 2 |
Nivel de significación | P = 0.0023 |
Coeficientes y errores típicos
Covariable | b | ET | Wald | P | Exp(b) | IC del 95 % de Exp(b) |
---|---|---|---|---|---|---|
Dis | 0.04292 | 0.01657 | 6.7106 | 0.0096 | 1.0439 | 1.0105 a 1.0783 |
Mult | 0.9635 | 0.3528 | 7.4599 | 0.0063 | 2.6208 | 1.3127 a 5.2326 |
Variables no incluidas en el modelo |
---|
Diam |
Función de riesgo acumulado de línea base [Mostrar]
Función de riesgo acumulado de línea base [Ocultar]
| Línea base | En la media de las covarianzas | |
---|---|---|---|
Tiempo | Riesgo acumulado | Riesgo acumulado | Supervivencia |
6 | 0.011 | 0.030 | 0.971 |
7 | 0.016 | 0.043 | 0.958 |
8 | 0.025 | 0.065 | 0.937 |
9 | 0.028 | 0.073 | 0.930 |
10 | 0.031 | 0.081 | 0.922 |
11 | 0.040 | 0.105 | 0.900 |
12 | 0.057 | 0.150 | 0.861 |
13 | 0.061 | 0.160 | 0.852 |
16 | 0.069 | 0.182 | 0.833 |
17 | 0.073 | 0.194 | 0.824 |
18 | 0.082 | 0.218 | 0.804 |
19 | 0.087 | 0.231 | 0.794 |
24 | 0.094 | 0.247 | 0.781 |
25 | 0.100 | 0.264 | 0.768 |
26 | 0.106 | 0.281 | 0.755 |
28 | 0.113 | 0.299 | 0.741 |
29 | 0.127 | 0.336 | 0.714 |
30 | 0.142 | 0.376 | 0.687 |
32 | 0.151 | 0.400 | 0.671 |
38 | 0.168 | 0.444 | 0.641 |
43 | 0.201 | 0.529 | 0.589 |
60 | 0.302 | 0.796 | 0.451 |
Concordancia
Harrell's C-index | 0.673 |
---|---|
Intervalo de confianza del 95 % | 0.577 a 0.768 |
![]() ![]() | Guardar índices pronósticos |
Resumen de casos
Esta tabla muestra el número de casos que llegaron al punto final (Número de eventos), el número de casos que no llegaron al punto final (Número censurado) y el número total de casos.
Ajuste general del modelo
La estadística Chi-cuadrado prueba la relación entre el tiempo y todas las covariables del modelo.
Coeficientes y errores estándar
Utilizando el método de selección hacia adelante, se ingresaron en el modelo las dos covariables Dis y Mult que contribuyen significativamente (0,0096 para Dis y 0,0063 para Mult) a la predicción del tiempo.
MedCalc enumera el coeficiente de regresión b, su error estándar, la estadística de Wald (b/SE)2, el valor P, Exp(b) y el intervalo de confianza del 95 % para Exp(b).
Exp(b) y razón de riesgo
- Para una covariable continua, Exp(b) es el aumento del índice de riesgo por un cambio de 1 unidad de la variable continua.
Cuando b es negativo, entonces Exp(b) es menor que 1 y Exp(b) es la disminución del índice de riesgo para un cambio de 1 unidad de la variable continua.
- Para una covariable dicotómica, Exp(b) es el cociente de riesgo.
El coeficiente de meses para la disolución (variable continua Dis) es 0,0429. Exp(b) = Exp(0,0429) es 1,0439 (con un intervalo de confianza del 95 % de 1,0107 a 1,0781), lo que significa que, para un aumento de 1 mes en la disolución de cálculos biliares previos, el cociente de riesgo de recurrencia se multiplica por 1,04. Para 2 meses, el cociente de riesgo se multiplica por 1,04.
El coeficiente para cálculos biliares múltiples (variable dicotómica Mult) es 0,9335. Exp(b) = Exp(0,9635) es 2,6208, lo que significa que un caso con cálculos biliares previos tiene 2,6208 (con un intervalo de confianza del 95 % de 1,3173 a 5,2141) más probabilidades de presentar una recurrencia que un caso con un solo cálculo.
Variables no incluidas en el modelo
Se encontró que la variable Diam no contribuía significativamente a la predicción del tiempo y no se incluyó en el modelo.
Función de riesgo acumulativo de referencia
Por último, el programa enumera el riesgo acumulado basal H0(t), con el riesgo acumulado y la supervivencia en la media de todas las covariables del modelo.
El riesgo acumulado de referencia se puede utilizar para calcular la probabilidad de supervivencia S(t) para cualquier caso en el tiempo t:
donde PI es un índice pronóstico:
Concordancia
El índice C de Harrell (Harrell et al., 1996), también conocido como índice de concordancia, es una medida de bondad de ajuste para modelos que generan puntuaciones de riesgo. Véase Park et al. (2021) para una descripción detallada.
Valores de C cercanos a 1 indican que el modelo de regresión de Cox es eficaz para predecir cuál de los dos pacientes tardará más en presentar el evento de interés. Valores de C cercanos a 0,5 indican que el modelo no es más eficaz que un lanzamiento de moneda para determinar qué paciente presentará primero el evento de interés. Valores cercanos a 0 indican que el modelo tiene un rendimiento inferior al de un lanzamiento de moneda.
El intervalo de confianza del índice C de Harrell se calcula utilizando el método τ modificado según Pencina (2004).
Gráfico
El gráfico muestra las curvas de supervivencia para todas las categorías de la variable categórica Mult (1 en caso de múltiples cálculos biliares previos, 0 en caso de un solo cálculo biliar previo) y para los valores medios de todas las demás covariables del modelo.
Si no se seleccionó ninguna covariable para Gráfico - Subgrupos, o si la variable seleccionada no se incluyó en el modelo, entonces el gráfico muestra una única curva de supervivencia en la media de todas las covariables en el modelo.
Consideraciones sobre el tamaño de la muestra
Con base en el trabajo de Peduzzi et al. (1995) se puede sugerir la siguiente guía sobre el número mínimo de casos a incluir en un estudio.
Sea p la menor de las proporciones de casos positivos (casos que llegaron al punto final) y casos negativos (casos que no llegaron al punto final) en la población y k el número de variables predictoras, entonces el número mínimo de casos a incluir es:
N = 10 k/p
Por ejemplo: tiene 3 variables predictoras para incluir en el modelo y la proporción de casos positivos en la población es 0,20 (20%). El número mínimo de casos requerido es
N = 10 x 3 / 0,20 = 150
Si el número resultante es menor que 100 debes aumentarlo a 100 como sugiere Long (1997).
Literatura
- Christensen E (1987) Multivariate survival analysis using Cox's regression model. Hepatology 7:1346-1358.
- Harrell FE Jr, Lee KL, Mark DB (1996) Multivariable prognostic models: issues in developing models, evaluating assumptions and adequacy, and measuring and reducing errors. Statistics in Medicine 15:361-387.
- Long JS (1997) Regression Models for categorical and limited dependent variables. Thousand Oaks, CA: Sage Publications.
- Park SY, Park JE, Kim H, Park SH (2021) Review of statistical methods for evaluating the performance of survival or other time-to-event prediction models (from conventional to deep learning approaches). Korean Journal of Radiology.
- Peduzzi P, Concato J, Feinstein AR, Holford TR (1995) Importance of events per independent variable in proportional hazards regression analysis. II. Accuracy and precision of regression estimates. Journal of Clinical Epidemiology 48:1503-1510.
- Pencina MJ, D'Agostino RB (2004) Overall C as a measure of discrimination in survival analysis: model specific population value and confidence interval estimation. Statistics in Medicine 23:2109-2123.
- Rosner B (2006) Fundamentals of Biostatistics. 6th ed. Pacific Grove: Duxbury.