Saltar al contenido principal

Esta página fue traducida del inglés usando IA. Puedes encontrar el original aquí.

Regresión logística

Descripción

La regresión logística es un método estadístico para analizar un conjunto de datos con una o más variables independientes que determinan un resultado. Este resultado se mide con una variable dicotómica (en la que solo hay dos resultados posibles).

En la regresión logística, la variable dependiente es binaria o dicotómica, es decir, sólo contiene datos codificados como 1 (VERDADERO, éxito, embarazada, etc.) o 0 (FALSO, fracaso, no embarazada, etc.).

El objetivo de la regresión logística es encontrar el modelo más adecuado (y biológicamente razonable) para describir la relación entre la característica dicotómica de interés (variable dependiente = variable de respuesta o de resultado) y un conjunto de variables independientes (predictoras o explicativas). La regresión logística genera los coeficientes (y sus errores estándar y niveles de significancia) de una fórmula para predecir una transformación logit de la probabilidad de presencia de la característica de interés:

$$ logit(p) = b_0 + b_1 X_1 + b_2 X_2 + b_3 X_3 +... + b_k X_k $$

Donde p es la probabilidad de presencia de la característica de interés. La transformación logit se define como el logaritmo de las probabilidades:

$$ odds\ = \frac {p}{1-p} = \frac {Probabilidad\ de\ presencia\ de\ la\ característica} {Probabilidad\ de\ ausencia\ de\ la\ característica} $$

y

$$ logit(p) = \ln \left ( \frac {p} {1-p} \right ) $$

En lugar de elegir parámetros que minimicen la suma de errores cuadrados (como en la regresión ordinaria), la estimación en regresión logística elige parámetros que maximizan la probabilidad de observar los valores de la muestra.

Cómo introducir datos

En el siguiente ejemplo, hay dos variables predictoras: EDAD y FUMAR. La variable dependiente, o variable de respuesta, es RESULTADO. Esta variable se codifica como 0 (negativo) y 1 (positivo).

Cómo ingresar datos para la regresión logística

Entrada requerida

Cuadro de diálogo de regresión logística

Variable dependiente

La variable cuyos valores desea predecir. La variable dependiente debe ser binaria o dicotómica y solo debe contener datos codificados como 0 o 1. Si sus datos tienen una codificación diferente, puede usar la herramienta 'Definir estado' para recodificarlos.

Variables independientes

Seleccione las diferentes variables que espera que influyan en la variable dependiente.

Filtrar

(Opcionalmente) ingrese un filtro de datos para incluir solo un subgrupo seleccionado de casos en el análisis.

Opciones

  • Método: seleccionar la forma en que se ingresan las variables independientes en el modelo.

    • Introducir: introduce todas las variables en el modelo en un solo paso, sin marcar
    • Adelante: ingrese variables significativas secuencialmente
    • Hacia atrás: primero ingrese todas las variables en el modelo y luego elimine secuencialmente las variables no significativas
    • Paso a paso: ingrese las variables significativas de manera secuencial; después de ingresar una variable en el modelo, verifique y posiblemente elimine las variables que se volvieron no significativas.
  • Introduzca la variable si P<

    Se introduce una variable en el modelo si su nivel de significancia asociado es menor que este valor P.

  • Eliminar variable si P>

    Se elimina una variable del modelo si su nivel de significancia asociado es mayor que este valor P.

  • Valor de corte de la tabla de clasificación: un valor entre 0 y 1 que se utilizará como valor de corte para una tabla de clasificación. La tabla de clasificación es un método para evaluar el modelo de regresión logística. En esta tabla, se realizan clasificaciones cruzadas entre los valores observados para el resultado dependiente y los valores predichos (en el valor de corte seleccionado).
  • Categórico: haga clic en este botón para identificar variables categóricas.

Gráfico

La opción de trazar un gráfico que muestre la curva de regresión logística solo está disponible cuando hay una sola variable independiente.

Resultados

Después de hacer clic Aceptar Se muestran los siguientes resultados:

Estadísticas de regresión logística

Y dependiente

RESULTADO

Método

Introducir

Tamaño muestral

100

Casos positivos a

47 (47.00%)

Casos negativos b

53 (53.00%)

a RESULTADO = 1
b RESULTADO = 0

Ajuste de modelo general

Modelo nulo basado en la log-verosimilitud -2

138.269

Modelo completo basado en la log-verosimilitud -2 

97.166

Chi-cuadrado

41.104

GL

2

Nivel de significación

P < 0.0001

Cox & Snell R2

0.3370

Nagelkerke R2

0.4499

Coeficientes y errores típicos

Variable

Coeficiente

Típ. Error

Wald

P

EDAD

0.25140

0.053161

22.3640

<0.0001

FUMAR

0.97233

0.51586

3.5528

0.0594

Constante

-8.98604

1.87453

22.9802

<0.0001

Razón de ventajas e intervalos de confianza del 95 %

Variable

Razón de ventajas

IC del 95 %

EDAD

1.2858

1.1586 a 1.4270

FUMAR

2.6441

0.9620 a 7.2675

Prueba de Hosmer-Lemeshow

Chi-cuadrado

15.8286

GL

7

Nivel de significación

P = 0.0267

Tabla de contingencia para la prueba de Hosmer-Lemeshow [Ocultar]

Grupo

Y=0

Y=1

Total

Observado

Esperado

Observado

Esperado

1

10

9.657

0

0.343

10

2

9

10.678

3

1.322

12

3

12

9.978

1

3.022

13

4

4

6.423

6

3.577

10

5

6

6.347

6

5.653

12

6

6

4.598

6

7.402

12

7

6

2.795

4

7.205

10

8

0

1.661

10

8.339

10

9

0

0.863

11

10.137

11

Tabla de clasificación (valor de corte p=0.5)

Grupo actual

Grupo predicho

Porcentaje correcto

0

1

Y = 0        

39

14

73.58%

Y        

12

35

74.47%

Porcentaje de casos correctamente clasificado

74.00%

Análisis de la curva ROC

Área Bajo la Curva ROC (AUC) 

0.840

Error típico

0.0384

Intervalo de confianza del 95 %

0.753 a 0.906

Tamaño de la muestra y casos con resultado negativo y positivo

En primer lugar, el programa proporciona el tamaño de la muestra y el número y proporción de casos con un resultado negativo (Y=0) y positivo (Y=1).

Ajuste general del modelo

El modelo nulo −2 Log Likelihood se da por −2 * ln(L0) donde L 0 es la probabilidad de obtener las observaciones si las variables independientes no tuvieran efecto en el resultado.

El modelo completo −2 Log Likelihood se da por −2 * ln(L) donde L es la probabilidad de obtener las observaciones con todas las variables independientes incorporadas en el modelo.

La diferencia de estos dos produce una estadística de Chi-Cuadrado, que es una medida de qué tan bien las variables independientes afectan el resultado o la variable dependiente.

Si el valor P para la estadística de ajuste general del modelo es menor que el 0,05 convencional, entonces hay evidencia de que al menos una de las variables independientes contribuye a la predicción del resultado.

El R2 de Cox y Snell, y el R2 de Nagelkerke son otras medidas de bondad de ajuste conocidas como pseudo R2. Cabe destacar que el pseudo R2 de Cox y Snell tiene un valor máximo distinto de 1. El R2 de Nagelkerke ajusta el de Cox y Snell para que el rango de valores posibles se extienda hasta 1.

Coeficientes de regresión

Los coeficientes de regresión logística son los coeficientes b0, b1, b2... bk de la ecuación de regresión:

$$ logit(p) = b_0 + b_1 X_1 + b_2 X_2 + b_3 X_3 +... + b_k X_k $$

Una variable independiente con un coeficiente de regresión no significativamente diferente de 0 (P>0,05) se puede eliminar del modelo de regresión (presione la tecla de función F7 Para repetir el procedimiento de regresión logística). Si P < 0,05, la variable contribuye significativamente a la predicción de la variable de resultado.

Los coeficientes de regresión logística muestran el cambio (aumento cuando bi > 0, disminución cuando bi < 0) en las probabilidades logarítmicas previstas de tener la característica de interés para un cambio de una unidad en las variables independientes.

Cuando las variables independientes X a y X b son variables dicotómicas (por ejemplo, tabaquismo, sexo), entonces la influencia de estas variables sobre la variable dependiente se puede comparar simplemente comparando sus coeficientes de regresión ba y bb.

La estadística de Wald es el coeficiente de regresión dividido por su error estándar al cuadrado: (b/SE)2.

Odds ratios con IC del 95%

Tomando la exponencial de ambos lados de la ecuación de regresión como se indica arriba, la ecuación se puede reescribir como:

$$ odds\ =\ \frac {p}{1-p}\ =\ e^{b_0} \times e^{b_1 X_1} \times e^{b_2 X_2} \times e^{b_3 X_3} \times... \times e^{b_k X_k} $$

Está claro que cuando una variable Xi aumenta en 1 unidad, y todos los demás factores permanecen sin cambios, las probabilidades aumentarán en un factor e b i.

$$ e^{b_i ( 1 + X_i ) } - e^{b_i X_i} = e ^{ b_i ( 1 + X_i) - b_i X_i} = e^{b_i + b_i X_i - b_i X_i} = e^{b_i} $$

Este factor ebi es la razón de probabilidades (OR) 'ajustada' para la variable independiente Xiy da la cantidad relativa en la que las probabilidades del resultado aumentan (OR mayor que 1) o disminuyen (OR menor que 1) cuando el valor de la variable independiente aumenta en 1 unidad.

Por ejemplo, la variable FUMAR se codifica como 0 (= no fumar) y 1 (= fumar), y su razón de probabilidades es de 2,64. Esto significa que, en el modelo, la probabilidad de un resultado positivo en los casos de fumadores es 2,64 veces mayor que en los de no fumadores.

Interpretación de la ecuación de regresión logística ajustada

La ecuación de regresión logística es:

$$ logit(p) = -8.986 + 0.251 \times Edad + 0.972 \times Fumar $$

Por lo tanto, para los casos de personas fumadoras de 40 años, el logit(p) es igual a 2,026. El logit(p) puede transformarse a p mediante la siguiente fórmula:

$$ p = \frac {1} { 1 + e^{-logit(p)}} $$

Como alternativa, puede usar la tabla Logit o la calculadora de funciones ALOGIT. Para logit(p)=2,026, la probabilidad p de un resultado positivo es de 0,88.

Prueba de Hosmer-Lemeshow

La prueba de Hosmer-Lemeshow es una prueba estadística de bondad de ajuste para el modelo de regresión logística. Los datos se dividen en aproximadamente diez grupos, definidos por orden creciente de riesgo estimado. Se calcula el número observado y esperado de casos en cada grupo y se calcula el estadístico Chi-cuadrado de la siguiente manera:

$$\chi^2_{HL} = \sum_{g=1}^{G}{\frac {(O_g-E_g)^2} {E_g(1-E_g/n_g) } } $$

Con Og, Eg y ng como eventos observados, eventos esperados y número de observaciones para el g-ésimo grupo decil de riesgo, y G como número de grupos. El estadístico de prueba sigue una distribución de chi-cuadrado con G−2 grados de libertad.

Un valor grande de Chi-cuadrado (con un valor p pequeño < 0,05) indica un ajuste deficiente y valores pequeños de Chi-cuadrado (con un valor p mayor y cercano a 1) indican un buen ajuste del modelo de regresión logística.

La tabla de contingencia para la prueba de Hosmer y Lemeshow muestra los detalles de la prueba con el número observado y esperado de casos en cada grupo.

Tabla de clasificación

La tabla de clasificación es otro método para evaluar la precisión predictiva del modelo de regresión logística. En esta tabla, se cruzan los valores observados del resultado dependiente y los valores predichos (con un valor de corte definido por el usuario, por ejemplo, p = 0,50). En nuestro ejemplo, el modelo predice correctamente el 74 % de los casos.

Análisis de la curva ROC

Otro método para evaluar el modelo de regresión logística utiliza el análisis de la curva ROC. En este análisis, la capacidad de los valores predichos del modelo para discriminar entre casos positivos y negativos se cuantifica mediante el área bajo la curva ROC (AUC). El AUC, a veces denominado estadístico C (o índice de concordancia), es un valor que varía entre 0,5 (capacidad de discriminación igual o inferior al azar) y 1,0 (capacidad de discriminación perfecta).

Para realizar un análisis completo de la curva ROC con las probabilidades predichas, puede guardarlas y usar esta nueva variable en el análisis de la curva ROC. La variable dependiente utilizada en la regresión logística actúa entonces como variable de clasificación en el cuadro de diálogo de análisis de la curva ROC.

Puntuaciones de propensión

Los puntajes de propensión son probabilidades predichas de un modelo de regresión logística. Para guardar los puntajes de propensión en su hoja de datos, haga clic en el enlace 'Guardar probabilidades predichas' en la ventana de resultados.

Consideraciones sobre el tamaño de la muestra

El cálculo del tamaño de muestra para la regresión logística es un problema complejo, pero basándose en el trabajo de Peduzzi et al. (1996) se puede sugerir la siguiente guía sobre un número mínimo de casos a incluir en el estudio.

Sea p la menor de las proporciones de casos negativos o positivos en la población y k el número de covariables (el número de variables independientes), entonces el número mínimo de casos a incluir es:

N = 10 k/p

Por ejemplo: tiene 3 covariables para incluir en el modelo y la proporción de casos positivos en la población es 0,20 (20%). El número mínimo de casos requerido es

N = 10 x 3 / 0,20 = 150

Si el número resultante es menor que 100 debes aumentarlo a 100 como sugiere Long (1997).

Gráfico

MedCalc puede trazar la curva de regresión logística cuando solo hay una única variable independiente:

Se crea el siguiente gráfico:

curva de regresión logística

Regresión logística

Referencias

  • Hosmer DW Jr, Lemeshow S, Sturdivant RX (2013) Applied Logistic Regression. Third Edition. New Jersey: John Wiley & Sons.
  • Long JS (1997) Regression Models for categorical and limited dependent variables. Thousand Oaks, CA: Sage Publications.
  • Pampel FC (2020) Logistic regression: A primer. Quantitative Applications in the Social Sciences, 132. Thousand Oaks, CA: Sage Publications.
  • Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology 49:1373-1379. PubMed

Véase también

Enlaces externos