Regresión logística
Dominio: | Estadística![]() ![]() ![]() ![]() |
Descripción
La regresión logística es un método estadístico para analizar un conjunto de datos con una o más variables independientes que determinan un resultado. Este resultado se mide con una variable dicotómica (en la que solo hay dos resultados posibles).
En la regresión logística, la variable dependiente es binaria o dicotómica, es decir, sólo contiene datos codificados como 1 (VERDADERO, éxito, embarazada, etc.) o 0 (FALSO, fracaso, no embarazada, etc.).
El objetivo de la regresión logística es encontrar el modelo más adecuado (y biológicamente razonable) para describir la relación entre la característica dicotómica de interés (variable dependiente = variable de respuesta o de resultado) y un conjunto de variables independientes (predictoras o explicativas). La regresión logística genera los coeficientes (y sus errores estándar y niveles de significancia) de una fórmula para predecir una transformación logit de la probabilidad de presencia de la característica de interés:
Donde p es la probabilidad de presencia de la característica de interés. La transformación logit se define como el logaritmo de las probabilidades:
y
En lugar de elegir parámetros que minimicen la suma de errores cuadrados (como en la regresión ordinaria), la estimación en regresión logística elige parámetros que maximizan la probabilidad de observar los valores de la muestra.
Cómo introducir datos
En el siguiente ejemplo, hay dos variables predictoras: EDAD y FUMAR. La variable dependiente, o variable de respuesta, es RESULTADO. Esta variable se codifica como 0 (negativo) y 1 (positivo).
Entrada requerida
Variable dependiente
La variable cuyos valores desea predecir. La variable dependiente debe ser binaria o dicotómica y solo debe contener datos codificados como 0 o 1. Si sus datos tienen una codificación diferente, puede usar la herramienta 'Definir estado' para recodificarlos.
Variables independientes
Seleccione las diferentes variables que espera que influyan en la variable dependiente.
Filtrar
(Opcionalmente) ingrese un filtro de datos para incluir solo un subgrupo seleccionado de casos en el análisis.
Opciones
- Método: seleccionar la forma en que se ingresan las variables independientes en el modelo.
- Introducir: introduce todas las variables en el modelo en un solo paso, sin marcar
- Adelante: ingrese variables significativas secuencialmente
- Hacia atrás: primero ingrese todas las variables en el modelo y luego elimine secuencialmente las variables no significativas
- Paso a paso: ingrese las variables significativas de manera secuencial; después de ingresar una variable en el modelo, verifique y posiblemente elimine las variables que se volvieron no significativas.
- Introduzca la variable si P< Se introduce una variable en el modelo si su nivel de significancia asociado es menor que este valor P.
- Eliminar variable si P> Se elimina una variable del modelo si su nivel de significancia asociado es mayor que este valor P.
- Valor de corte de la tabla de clasificación: un valor entre 0 y 1 que se utilizará como valor de corte para una tabla de clasificación. La tabla de clasificación es un método para evaluar el modelo de regresión logística. En esta tabla, se realizan clasificaciones cruzadas entre los valores observados para el resultado dependiente y los valores predichos (en el valor de corte seleccionado).
- Categórico: haga clic en este botón para identificar variables categóricas.
Gráfico
La opción de trazar un gráfico que muestre la curva de regresión logística solo está disponible cuando hay una sola variable independiente.
Resultados
Después de hacer clic Aceptar Se muestran los siguientes resultados:
Y dependiente | RESULTADO |
---|
Método | Introducir |
---|
Tamaño muestral | 100 |
---|---|
Casos positivos a | 47 (47.00%) |
Casos negativos b | 53 (53.00%) |
a RESULTADO = 1
b RESULTADO = 0
Ajuste de modelo general
Modelo nulo basado en la log-verosimilitud -2 | 138.269 |
---|---|
Modelo completo basado en la log-verosimilitud -2 | 97.166 |
Chi-cuadrado | 41.104 |
GL | 2 |
Nivel de significación | P < 0.0001 |
Cox & Snell R2 | 0.3370 |
Nagelkerke R2 | 0.4499 |
Coeficientes y errores típicos
Variable | Coeficiente | Típ. Error | Wald | P |
---|---|---|---|---|
EDAD | 0.25140 | 0.053161 | 22.3640 | <0.0001 |
FUMAR | 0.97233 | 0.51586 | 3.5528 | 0.0594 |
Constante | -8.98604 | 1.87453 | 22.9802 | <0.0001 |
Razón de ventajas e intervalos de confianza del 95 %
Variable | Razón de ventajas | IC del 95 % |
---|---|---|
EDAD | 1.2858 | 1.1586 a 1.4270 |
FUMAR | 2.6441 | 0.9620 a 7.2675 |
Prueba de Hosmer-Lemeshow
Chi-cuadrado | 15.8286 |
---|---|
GL | 7 |
Nivel de significación | P = 0.0267 |
Tabla de contingencia para la prueba de Hosmer-Lemeshow [Mostrar]
Tabla de contingencia para la prueba de Hosmer-Lemeshow [Ocultar]
Grupo | Y=0 | Y=1 | Total | ||
---|---|---|---|---|---|
Observado | Esperado | Observado | Esperado | ||
1 | 10 | 9.657 | 0 | 0.343 | 10 |
2 | 9 | 10.678 | 3 | 1.322 | 12 |
3 | 12 | 9.978 | 1 | 3.022 | 13 |
4 | 4 | 6.423 | 6 | 3.577 | 10 |
5 | 6 | 6.347 | 6 | 5.653 | 12 |
6 | 6 | 4.598 | 6 | 7.402 | 12 |
7 | 6 | 2.795 | 4 | 7.205 | 10 |
8 | 0 | 1.661 | 10 | 8.339 | 10 |
9 | 0 | 0.863 | 11 | 10.137 | 11 |
Tabla de clasificación (valor de corte p=0.5)
Grupo actual | Grupo predicho | Porcentaje correcto | |
---|---|---|---|
0 | 1 | ||
Y = 0 | 39 | 14 | 73.58% |
Y | 12 | 35 | 74.47% |
Porcentaje de casos correctamente clasificado | 74.00% |
Análisis de la curva ROC
Área Bajo la Curva ROC (AUC) | 0.840 |
---|---|
Error típico | 0.0384 |
Intervalo de confianza del 95 % | 0.753 a 0.906 |
![]() ![]() | Guardar valores predichos - Guardar residuos |
Tamaño de la muestra y casos con resultado negativo y positivo
En primer lugar, el programa proporciona el tamaño de la muestra y el número y proporción de casos con un resultado negativo (Y=0) y positivo (Y=1).
Ajuste general del modelo
El modelo nulo −2 Log Likelihood se da por −2 * ln(L0) donde L 0 es la probabilidad de obtener las observaciones si las variables independientes no tuvieran efecto en el resultado.
El modelo completo −2 Log Likelihood se da por −2 * ln(L) donde L es la probabilidad de obtener las observaciones con todas las variables independientes incorporadas en el modelo.
La diferencia de estos dos produce una estadística de Chi-Cuadrado, que es una medida de qué tan bien las variables independientes afectan el resultado o la variable dependiente.
Si el valor P para la estadística de ajuste general del modelo es menor que el 0,05 convencional, entonces hay evidencia de que al menos una de las variables independientes contribuye a la predicción del resultado.
El R2 de Cox y Snell, y el R2 de Nagelkerke son otras medidas de bondad de ajuste conocidas como pseudo R2. Cabe destacar que el pseudo R2 de Cox y Snell tiene un valor máximo distinto de 1. El R2 de Nagelkerke ajusta el de Cox y Snell para que el rango de valores posibles se extienda hasta 1.
Coeficientes de regresión
Los coeficientes de regresión logística son los coeficientes b0, b1, b2... bk de la ecuación de regresión:
Una variable independiente con un coeficiente de regresión no significativamente diferente de 0 (P>0,05) se puede eliminar del modelo de regresión (presione la tecla de función F7 Para repetir el procedimiento de regresión logística). Si P < 0,05, la variable contribuye significativamente a la predicción de la variable de resultado.
Los coeficientes de regresión logística muestran el cambio (aumento cuando bi > 0, disminución cuando bi < 0) en las probabilidades logarítmicas previstas de tener la característica de interés para un cambio de una unidad en las variables independientes.
Cuando las variables independientes X a y X b son variables dicotómicas (por ejemplo, tabaquismo, sexo), entonces la influencia de estas variables sobre la variable dependiente se puede comparar simplemente comparando sus coeficientes de regresión ba y bb.
La estadística de Wald es el coeficiente de regresión dividido por su error estándar al cuadrado: (b/SE)2.
Odds ratios con IC del 95%
Tomando la exponencial de ambos lados de la ecuación de regresión como se indica arriba, la ecuación se puede reescribir como:
Está claro que cuando una variable Xi aumenta en 1 unidad, y todos los demás factores permanecen sin cambios, las probabilidades aumentarán en un factor e b i.
Este factor ebi es la razón de probabilidades (OR) 'ajustada' para la variable independiente Xiy da la cantidad relativa en la que las probabilidades del resultado aumentan (OR mayor que 1) o disminuyen (OR menor que 1) cuando el valor de la variable independiente aumenta en 1 unidad.
Por ejemplo, la variable FUMAR se codifica como 0 (= no fumar) y 1 (= fumar), y su razón de probabilidades es de 2,64. Esto significa que, en el modelo, la probabilidad de un resultado positivo en los casos de fumadores es 2,64 veces mayor que en los de no fumadores.
Interpretación de la ecuación de regresión logística ajustada
La ecuación de regresión logística es:
Por lo tanto, para los casos de personas fumadoras de 40 años, el logit(p) es igual a 2,026. El logit(p) puede transformarse a p mediante la siguiente fórmula:
Como alternativa, puede usar la tabla Logit o la calculadora de funciones ALOGIT. Para logit(p)=2,026, la probabilidad p de un resultado positivo es de 0,88.
Prueba de Hosmer-Lemeshow
La prueba de Hosmer-Lemeshow es una prueba estadística de bondad de ajuste para el modelo de regresión logística. Los datos se dividen en aproximadamente diez grupos, definidos por orden creciente de riesgo estimado. Se calcula el número observado y esperado de casos en cada grupo y se calcula el estadístico Chi-cuadrado de la siguiente manera:
Con Og, Eg y ng como eventos observados, eventos esperados y número de observaciones para el g-ésimo grupo decil de riesgo, y G como número de grupos. El estadístico de prueba sigue una distribución de chi-cuadrado con G−2 grados de libertad.
Un valor grande de Chi-cuadrado (con un valor p pequeño < 0,05) indica un ajuste deficiente y valores pequeños de Chi-cuadrado (con un valor p mayor y cercano a 1) indican un buen ajuste del modelo de regresión logística.
La tabla de contingencia para la prueba de Hosmer y Lemeshow muestra los detalles de la prueba con el número observado y esperado de casos en cada grupo.
Tabla de clasificación
La tabla de clasificación es otro método para evaluar la precisión predictiva del modelo de regresión logística. En esta tabla, se cruzan los valores observados del resultado dependiente y los valores predichos (con un valor de corte definido por el usuario, por ejemplo, p = 0,50). En nuestro ejemplo, el modelo predice correctamente el 74 % de los casos.
Análisis de la curva ROC
Otro método para evaluar el modelo de regresión logística utiliza el análisis de la curva ROC. En este análisis, la capacidad de los valores predichos del modelo para discriminar entre casos positivos y negativos se cuantifica mediante el área bajo la curva ROC (AUC). El AUC, a veces denominado estadístico C (o índice de concordancia), es un valor que varía entre 0,5 (capacidad de discriminación igual o inferior al azar) y 1,0 (capacidad de discriminación perfecta).
Para realizar un análisis completo de la curva ROC con las probabilidades predichas, puede guardarlas y usar esta nueva variable en el análisis de la curva ROC. La variable dependiente utilizada en la regresión logística actúa entonces como variable de clasificación en el cuadro de diálogo de análisis de la curva ROC.
Puntuaciones de propensión
Los puntajes de propensión son probabilidades predichas de un modelo de regresión logística. Para guardar los puntajes de propensión en su hoja de datos, haga clic en el enlace 'Guardar probabilidades predichas' en la ventana de resultados.
Consideraciones sobre el tamaño de la muestra
El cálculo del tamaño de muestra para la regresión logística es un problema complejo, pero basándose en el trabajo de Peduzzi et al. (1996) se puede sugerir la siguiente guía sobre un número mínimo de casos a incluir en el estudio.
Sea p la menor de las proporciones de casos negativos o positivos en la población y k el número de covariables (el número de variables independientes), entonces el número mínimo de casos a incluir es:
N = 10 k/p
Por ejemplo: tiene 3 covariables para incluir en el modelo y la proporción de casos positivos en la población es 0,20 (20%). El número mínimo de casos requerido es
N = 10 x 3 / 0,20 = 150
Si el número resultante es menor que 100 debes aumentarlo a 100 como sugiere Long (1997).
Gráfico
MedCalc puede trazar la curva de regresión logística cuando solo hay una única variable independiente:
Se crea el siguiente gráfico:
Referencias
- Hosmer DW Jr, Lemeshow S, Sturdivant RX (2013) Applied Logistic Regression. Third Edition. New Jersey: John Wiley & Sons.
- Long JS (1997) Regression Models for categorical and limited dependent variables. Thousand Oaks, CA: Sage Publications.
- Pampel FC (2020) Logistic regression: A primer. Quantitative Applications in the Social Sciences, 132. Thousand Oaks, CA: Sage Publications.
- Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) A simulation study of the number of events per variable in logistic regression analysis. Journal of Clinical Epidemiology 49:1373-1379.