Saltar al contenido principal

Esta página fue traducida del inglés usando IA. Puedes encontrar el original aquí.

Regresión

Descripción

El análisis de regresión es un método estadístico utilizado para describir la relación entre dos variables y predecir una variable a partir de otra (si conoces una variable, ¿qué tan bien puedes predecir una segunda variable?).

Si bien para la correlación las dos variables deben tener una distribución normal, esto no es un requisito para el análisis de regresión. La variable X no necesita ser una muestra aleatoria con una distribución normal (el experimentador puede elegir los valores de X). Sin embargo, la variabilidad de Y debe ser la misma en cada nivel de X.

Entrada requerida

Dialog box for regression

Variables

  • Variable Y y Variable X : seleccione las variables dependientes e independientes Y y X.
  • Ponderaciones : opcionalmente, seleccione una variable que contenga las ponderaciones relativas que se asignarán a cada observación (para la regresión de mínimos cuadrados ponderada). Seleccione la variable ficticia '*** AutoWeight 1/SD^2 ***' para un procedimiento automático de regresión ponderada que corrige la heterocedasticidad (Neter et al., 1996). Esta variable ficticia aparece como el primer elemento en la lista desplegable de Ponderaciones.
  • Filtro : también puede ingresar un filtro de datos para incluir solo un subgrupo seleccionado de casos en el análisis estadístico.

ecuación de regresión

Por defecto, la opción ' Incluir constante en la ecuación' está seleccionada. Esta es la opción recomendada para obtener una regresión por mínimos cuadrados ordinarios. Si necesita una regresión a través del origen (sin una constante a en la ecuación), puede desmarcar esta opción (en Eisenhauer, 2003, se ofrece un ejemplo de cuándo esto es apropiado).

MedCalc ofrece una selección de 5 ecuaciones de regresión diferentes:

y = a + bxlínea recta
y = a + b log(x)curva logarítmica
pesado) = a + bxcurva exponencial
pesado) = a + b log(x)curva geométrica
y = a + bx + cx 2regresión cuadrática (parábola)

Donde x representa la variable independiente e y la variable dependiente. Los coeficientes a, b y c se calculan mediante el método de mínimos cuadrados.

Opciones

  • Subgrupos : permite seleccionar una variable categórica que contiene códigos para identificar subgrupos distintos. Se realizará un análisis de regresión para todos los casos y para cada subgrupo.
  • Residuos : puede seleccionar una prueba para la distribución normal de los residuos.

Resultados

Las siguientes estadísticas se mostrarán en la ventana de resultados :

Regresión

Y dependiente

Peso

X independiente

Altura

Regresión de mínimos cuadrados

Tamaño muestral

100

Coeficiente de determinación de R2

0.1988

Desviación típica residual

8.6253

Ecuación de regresión

y = -54.5957 + 0.7476 x

Parámetro

Coeficiente

Típ. Error

IC del 95 %

t

P

Intersección

-54.5957

26.7084

-107.5975 a -1.5938

-2.0441

0.0436

Curva

0.7476

0.1516

0.4468 a 1.0485

4.9312

<0.0001

Análisis de varianza

Fuente

GL

Suma de cuadrados

Media del cuadrado

Regresión

1

1809.0613

1809.0613

Residuo

98

7290.7787

74.3957

Razón F

24.3167

Nivel de significación

P<0.0001

Tamaño de la muestra : el número de pares de datos n

Coeficiente de determinación R² : es la proporción de la variación en la variable dependiente explicada por el modelo de regresión y una medida del ajuste del modelo. Puede variar de 0 a 1 y se calcula de la siguiente manera:

$$ R^2 = \frac {Varianza\ explicada} {Varianza\ total} = \frac {\sum_{}^{}{(y_{est}-\bar{y})^2}} {\sum_{}^{}{(y-\bar{y})^2}} $$

donde y son los valores observados para la variable dependiente, $\bar{y}$ es el promedio de los valores observados e yest son los valores predichos para la variable dependiente (los valores predichos se calculan utilizando la ecuación de regresión).

Nota: MedCalc no informa el coeficiente de determinación en caso de regresión a través del origen, porque no ofrece una buena interpretación del modelo de regresión a través del origen (ver Eisenhauer, 2003).

Desviación estándar residual : desviación estándar de los residuos (residuos = diferencias entre los valores observados y predichos). Se calcula de la siguiente manera:

$$s_{res} = \sqrt{\frac{\sum_{}^{}{(y-y_{est})^2}}{n-2}} $$

La desviación estándar residual a veces se denomina error estándar de estimación (Spiegel, 1961).

Ecuación de la curva de regresión : la ecuación seleccionada con los valores calculados para a y b (y, para una parábola, un tercer coeficiente c ). Por ejemplo, Y = a + b X

A continuación, se dan los errores estándar para la intersección ( a ) y la pendiente ( b ), seguidos del valor t y el valor P para la hipótesis de que estos coeficientes son iguales a 0. Si los valores P son bajos (por ejemplo, menores de 0,05), entonces se puede concluir que los coeficientes son diferentes de 0.

Tenga en cuenta que, al utilizar la ecuación de regresión para la predicción, solo puede aplicarla a valores dentro del rango de las observaciones reales. Por ejemplo, al calcular la ecuación de regresión para la altura y el peso de niños en edad escolar, esta ecuación no puede aplicarse a adultos.

Análisis de varianza : la tabla de análisis de varianza divide la variación total de la variable dependiente en dos componentes: uno atribuible al modelo de regresión (denominado «Regresión ») y otro no (denominado «Residuo »). Si el nivel de significancia de la prueba F es bajo (inferior a 0,05), se puede rechazar la hipótesis de que no existe una relación (lineal).

Comparación de líneas de regresión

Cuando haya seleccionado un subgrupo en el cuadro de diálogo de regresión, MedCalc comparará automáticamente las pendientes y las intersecciones de la ecuación de regresión obtenida en los diferentes subgrupos.

Esta comparación se realiza cuando

  • Hay 2 subgrupos
  • No hay variable de peso
  • Se incluye una constante en la ecuación

La ventana de resultados incluye la siguiente tabla:

Comparación de las curvas y las intersecciones

Comparación de las curvas

Diferencia

0.1514

error estándar

0.3065

t

0.4942

GL

96

P

0.6223

Curva común

Curva

0.7503

error estándar

0.1532

Comparación de las intersecciones

Diferencia ajustada

0.5055

error estándar

1.7458

t

0.2895

GL

96

P

0.7728

Los cálculos se realizan según Armitage et al., 2002.

Primero se reporta la diferencia entre las pendientes con su error estándar, el estadístico t, los grados de libertad y el valor p asociado. Si P no es menor de 0,05, las pendientes no difieren significativamente y las rectas de regresión son paralelas. Si P es menor de 0,05, las rectas de regresión no son paralelas y la comparación de las ordenadas en el origen a continuación no es válida.

A continuación, se calcula una pendiente común, que se utiliza para calcular la diferencia ajustada entre las intersecciones.

Esta diferencia ajustada entre los puntos de corte se presenta con su error estándar, el estadístico t, los grados de libertad y el valor p asociado. Si p es menor que 0,05, existe una diferencia significativa entre los dos puntos de corte. Si p no es menor que 0,05, las dos rectas de regresión son indistinguibles.

Comparación de líneas de regresión mediante ANCOVA

Cuando hay más de 2 subgrupos, se puede utilizar ANCOVA para comparar pendientes e intersecciones.

En el modelo ANCOVA, primero se selecciona la variable dependiente y, a continuación, la variable independiente como covariable. En Factores, se selecciona la variable de agrupación.

En los resultados del ANCOVA, debajo de 'Homogeneidad de las pendientes de regresión', encontrará un valor p, que representa el nivel de significancia para la comparación de las pendientes de regresión. Si este valor p no es inferior a 0,05, las líneas de regresión son paralelas.

A continuación, debajo de 'Comparaciones por pares', encontrará los valores P para las diferencias entre las intersecciones.

Análisis de residuos

El análisis de regresión lineal asume que los residuos (las diferencias entre las observaciones y los valores estimados) siguen una distribución normal. Esta suposición puede evaluarse mediante una prueba formal o mediante métodos gráficos.

Las diferentes pruebas formales para la distribución normal podrían no tener la potencia suficiente para detectar desviaciones de la distribución normal cuando el tamaño de la muestra es pequeño. Por otro lado, cuando el tamaño de la muestra es grande, el requisito de una distribución normal es menos estricto debido al teorema del límite central.

Por lo tanto, a menudo se prefiere evaluar visualmente la simetría y la agudeza de la distribución de los residuos utilizando el histograma, el diagrama de caja y bigotes o el diagrama normal.

Para ello, haga clic en el enlace 'Guardar residuos' en la ventana de resultados. Esto guardará los valores residuales como una nueva variable en la hoja de cálculo. Posteriormente, podrá usar esta nueva variable en los diferentes gráficos de distribución.

Presentación de resultados

Si el análisis muestra que la relación entre las dos variables es demasiado débil para ser de utilidad práctica, no tiene mucho sentido citar la ecuación de la línea o curva ajustada. Si se proporciona la ecuación, también se debe indicar el error estándar de la pendiente, junto con el valor p correspondiente. También debe indicarse la desviación estándar residual (Altman, 1980). El número de decimales de los coeficientes de regresión debe corresponder a la precisión de los datos brutos.

El diagrama de dispersión adjunto debe incluir la línea de regresión ajustada cuando corresponda. Esta figura también puede incluir el intervalo de confianza del 95%, el intervalo de predicción del 95%, que puede ser más informativo, o ambos. La leyenda de la figura debe identificar claramente el intervalo representado.

Literatura

  • Altman DG (1980) Statistics and ethics in medical research. VI - Presentation of results. British Medical Journal 281:1542-1544. PubMed
  • Armitage P, Berry G, Matthews JNS (2002) Statistical methods in medical research. 4th ed. Blackwell Science.
  • Bland M (2000) An introduction to medical statistics, 3rd ed. Oxford: Oxford University Press.
  • Eisenhauer JG (2003) Regression through the origin. Teaching Statistics 25:76-80.
  • Neter J, Kutner MH, Nachtsheim CJ, Wasserman W (1996) Applied linear statistical models. 4th ed. Boston: McGraw-Hill.

Véase también

Enlaces externos