Regresión
Comando: | Estadística ![]() ![]() ![]() ![]() |
Descripción
El análisis de regresión es un método estadístico utilizado para describir la relación entre dos variables y predecir una variable a partir de otra (si conoces una variable, ¿qué tan bien puedes predecir una segunda variable?).
Si bien para la correlación las dos variables deben tener una distribución normal, esto no es un requisito para el análisis de regresión. La variable X no necesita ser una muestra aleatoria con una distribución normal (el experimentador puede elegir los valores de X). Sin embargo, la variabilidad de Y debe ser la misma en cada nivel de X.
Entrada requerida
Variables
- Variable Y y Variable X : seleccione las variables dependientes e independientes Y y X.
- Ponderaciones : opcionalmente, seleccione una variable que contenga las ponderaciones relativas que se asignarán a cada observación (para la regresión de mínimos cuadrados ponderada). Seleccione la variable ficticia '*** AutoWeight 1/SD^2 ***' para un procedimiento automático de regresión ponderada que corrige la heterocedasticidad (Neter et al., 1996). Esta variable ficticia aparece como el primer elemento en la lista desplegable de Ponderaciones.
- Filtro : también puede ingresar un filtro de datos para incluir solo un subgrupo seleccionado de casos en el análisis estadístico.
ecuación de regresión
Por defecto, la opción ' Incluir constante en la ecuación' está seleccionada. Esta es la opción recomendada para obtener una regresión por mínimos cuadrados ordinarios. Si necesita una regresión a través del origen (sin una constante a en la ecuación), puede desmarcar esta opción (en Eisenhauer, 2003, se ofrece un ejemplo de cuándo esto es apropiado).
MedCalc ofrece una selección de 5 ecuaciones de regresión diferentes:
y | = | a + bx | línea recta |
y | = | a + b log(x) | curva logarítmica |
pesado) | = | a + bx | curva exponencial |
pesado) | = | a + b log(x) | curva geométrica |
y | = | a + bx + cx 2 | regresión cuadrática (parábola) |
Donde x representa la variable independiente e y la variable dependiente. Los coeficientes a, b y c se calculan mediante el método de mínimos cuadrados.
Opciones
- Subgrupos : permite seleccionar una variable categórica que contiene códigos para identificar subgrupos distintos. Se realizará un análisis de regresión para todos los casos y para cada subgrupo.
- Residuos : puede seleccionar una prueba para la distribución normal de los residuos.
Resultados
Las siguientes estadísticas se mostrarán en la ventana de resultados :
Y dependiente | Peso |
---|---|
X independiente | Altura |
Regresión de mínimos cuadrados
Tamaño muestral | 100 |
---|---|
Coeficiente de determinación de R2 | 0.1988 |
Desviación típica residual | 8.6253 |
Ecuación de regresión
y = -54.5957 + 0.7476 x | |||||
Parámetro | Coeficiente | Típ. Error | IC del 95 % | t | P |
---|---|---|---|---|---|
Intersección | -54.5957 | 26.7084 | -107.5975 a -1.5938 | -2.0441 | 0.0436 |
Curva | 0.7476 | 0.1516 | 0.4468 a 1.0485 | 4.9312 | <0.0001 |
Análisis de varianza
Fuente | GL | Suma de cuadrados | Media del cuadrado |
---|---|---|---|
Regresión | 1 | 1809.0613 | 1809.0613 |
Residuo | 98 | 7290.7787 | 74.3957 |
Razón F | 24.3167 |
---|---|
Nivel de significación | P<0.0001 |
![]() ![]() | Guardar valores predichos - Guardar residuos Diagrama de dispersión con línea de regresión |
Tamaño de la muestra : el número de pares de datos n
Coeficiente de determinación R² : es la proporción de la variación en la variable dependiente explicada por el modelo de regresión y una medida del ajuste del modelo. Puede variar de 0 a 1 y se calcula de la siguiente manera:
donde y son los valores observados para la variable dependiente, $\bar{y}$ es el promedio de los valores observados e yest son los valores predichos para la variable dependiente (los valores predichos se calculan utilizando la ecuación de regresión).
Nota: MedCalc no informa el coeficiente de determinación en caso de regresión a través del origen, porque no ofrece una buena interpretación del modelo de regresión a través del origen (ver Eisenhauer, 2003).
Desviación estándar residual : desviación estándar de los residuos (residuos = diferencias entre los valores observados y predichos). Se calcula de la siguiente manera:
La desviación estándar residual a veces se denomina error estándar de estimación (Spiegel, 1961).
Ecuación de la curva de regresión : la ecuación seleccionada con los valores calculados para a y b (y, para una parábola, un tercer coeficiente c ). Por ejemplo, Y = a + b X
A continuación, se dan los errores estándar para la intersección ( a ) y la pendiente ( b ), seguidos del valor t y el valor P para la hipótesis de que estos coeficientes son iguales a 0. Si los valores P son bajos (por ejemplo, menores de 0,05), entonces se puede concluir que los coeficientes son diferentes de 0.
Tenga en cuenta que, al utilizar la ecuación de regresión para la predicción, solo puede aplicarla a valores dentro del rango de las observaciones reales. Por ejemplo, al calcular la ecuación de regresión para la altura y el peso de niños en edad escolar, esta ecuación no puede aplicarse a adultos.
Análisis de varianza : la tabla de análisis de varianza divide la variación total de la variable dependiente en dos componentes: uno atribuible al modelo de regresión (denominado «Regresión ») y otro no (denominado «Residuo »). Si el nivel de significancia de la prueba F es bajo (inferior a 0,05), se puede rechazar la hipótesis de que no existe una relación (lineal).
Comparación de líneas de regresión
Cuando haya seleccionado un subgrupo en el cuadro de diálogo de regresión, MedCalc comparará automáticamente las pendientes y las intersecciones de la ecuación de regresión obtenida en los diferentes subgrupos.
Esta comparación se realiza cuando
- Hay 2 subgrupos
- No hay variable de peso
- Se incluye una constante en la ecuación
La ventana de resultados incluye la siguiente tabla:
Comparación de las curvas y las intersecciones
Comparación de las curvas | |
---|---|
Diferencia | 0.1514 |
error estándar | 0.3065 |
t | 0.4942 |
GL | 96 |
P | 0.6223 |
Curva común | |
Curva | 0.7503 |
error estándar | 0.1532 |
Comparación de las intersecciones | |
Diferencia ajustada | 0.5055 |
error estándar | 1.7458 |
t | 0.2895 |
GL | 96 |
P | 0.7728 |
Los cálculos se realizan según Armitage et al., 2002.
Primero se reporta la diferencia entre las pendientes con su error estándar, el estadístico t, los grados de libertad y el valor p asociado. Si P no es menor de 0,05, las pendientes no difieren significativamente y las rectas de regresión son paralelas. Si P es menor de 0,05, las rectas de regresión no son paralelas y la comparación de las ordenadas en el origen a continuación no es válida.
A continuación, se calcula una pendiente común, que se utiliza para calcular la diferencia ajustada entre las intersecciones.
Esta diferencia ajustada entre los puntos de corte se presenta con su error estándar, el estadístico t, los grados de libertad y el valor p asociado. Si p es menor que 0,05, existe una diferencia significativa entre los dos puntos de corte. Si p no es menor que 0,05, las dos rectas de regresión son indistinguibles.
Comparación de líneas de regresión mediante ANCOVA
Cuando hay más de 2 subgrupos, se puede utilizar ANCOVA para comparar pendientes e intersecciones.
En el modelo ANCOVA, primero se selecciona la variable dependiente y, a continuación, la variable independiente como covariable. En Factores, se selecciona la variable de agrupación.
En los resultados del ANCOVA, debajo de 'Homogeneidad de las pendientes de regresión', encontrará un valor p, que representa el nivel de significancia para la comparación de las pendientes de regresión. Si este valor p no es inferior a 0,05, las líneas de regresión son paralelas.
A continuación, debajo de 'Comparaciones por pares', encontrará los valores P para las diferencias entre las intersecciones.
Análisis de residuos
El análisis de regresión lineal asume que los residuos (las diferencias entre las observaciones y los valores estimados) siguen una distribución normal. Esta suposición puede evaluarse mediante una prueba formal o mediante métodos gráficos.
Las diferentes pruebas formales para la distribución normal podrían no tener la potencia suficiente para detectar desviaciones de la distribución normal cuando el tamaño de la muestra es pequeño. Por otro lado, cuando el tamaño de la muestra es grande, el requisito de una distribución normal es menos estricto debido al teorema del límite central.
Por lo tanto, a menudo se prefiere evaluar visualmente la simetría y la agudeza de la distribución de los residuos utilizando el histograma, el diagrama de caja y bigotes o el diagrama normal.
Para ello, haga clic en el enlace 'Guardar residuos' en la ventana de resultados. Esto guardará los valores residuales como una nueva variable en la hoja de cálculo. Posteriormente, podrá usar esta nueva variable en los diferentes gráficos de distribución.
Presentación de resultados
Si el análisis muestra que la relación entre las dos variables es demasiado débil para ser de utilidad práctica, no tiene mucho sentido citar la ecuación de la línea o curva ajustada. Si se proporciona la ecuación, también se debe indicar el error estándar de la pendiente, junto con el valor p correspondiente. También debe indicarse la desviación estándar residual (Altman, 1980). El número de decimales de los coeficientes de regresión debe corresponder a la precisión de los datos brutos.
El diagrama de dispersión adjunto debe incluir la línea de regresión ajustada cuando corresponda. Esta figura también puede incluir el intervalo de confianza del 95%, el intervalo de predicción del 95%, que puede ser más informativo, o ambos. La leyenda de la figura debe identificar claramente el intervalo representado.
Literatura
- Altman DG (1980) Statistics and ethics in medical research. VI - Presentation of results. British Medical Journal 281:1542-1544.
- Armitage P, Berry G, Matthews JNS (2002) Statistical methods in medical research. 4th ed. Blackwell Science.
- Bland M (2000) An introduction to medical statistics, 3rd ed. Oxford: Oxford University Press.
- Eisenhauer JG (2003) Regression through the origin. Teaching Statistics 25:76-80.
- Neter J, Kutner MH, Nachtsheim CJ, Wasserman W (1996) Applied linear statistical models. 4th ed. Boston: McGraw-Hill.