Regresión múltiple
Comando: | Estadística![]() ![]() ![]() ![]() |
Descripción
La regresión múltiple es un método estadístico utilizado para examinar la relación entre una variable dependiente Y y una o más variables independientes X i. Los parámetros o coeficientes de regresión b i en la ecuación de regresión
Se estiman mediante el método de mínimos cuadrados. En este método, se minimiza la suma de los cuadrados de los residuos entre el plano de regresión y los valores observados de la variable dependiente. La ecuación de regresión representa un (hiper)plano en un espacio de k+1 dimensiones, donde k es el número de variables independientes X 1, X 2, X 3,... X k, más una dimensión para la variable dependiente Y.
Entrada requerida
En el cuadro de diálogo Regresión múltiple se debe ingresar lo siguiente :
Variable dependiente
La variable cuyos valores desea predecir.
Variables independientes
Seleccione al menos una variable que prevea que influya o prediga el valor de la variable dependiente. También se denominan variables predictoras o explicativas.
Pesos
Opcionalmente, seleccione una variable que contenga los pesos relativos que deben asignarse a cada observación (para la regresión de mínimos cuadrados múltiples ponderada). Seleccione la variable ficticia. '*** AutoWeight 1/SD^2 ***' Para un procedimiento automático de regresión ponderada que corrige la heterocedasticidad (Neter et al., 1996). Esta variable ficticia aparece como el primer elemento en la lista desplegable de Ponderaciones.
Filtrar
Opcionalmente, ingrese un filtro de datos para incluir solo un subgrupo seleccionado de casos en el análisis.
Opciones
- Método: seleccionar la forma en que se ingresan las variables independientes en el modelo.
- Introducir: introduce todas las variables en el modelo en un solo paso, sin marcar
- Adelante: ingrese variables significativas secuencialmente
- Hacia atrás: primero ingrese todas las variables en el modelo y luego elimine secuencialmente las variables no significativas
- Paso a paso: ingrese las variables significativas de manera secuencial; después de ingresar una variable en el modelo, verifique y posiblemente elimine las variables que se volvieron no significativas.
- Introduzca la variable si P< Se introduce una variable en el modelo si su nivel de significancia asociado es menor que este valor P.
- Eliminar variable si P> A variable is removed from the model if its associated significance level is greater than this P-value.
- Report Variance Inflation Factor (VIF): option to show the Variance Inflation Factor in the report. A high Variance Inflation Factor is an indicator of multicollinearity of the independent variables. Multicollinearity refers to a situation in which two or more explanatory variables in a multiple regression model are highly linearly related.
- Zero-order and simple correlation coefficients: option to create a table with correlation coefficients between the dependent variable and all independent variables separately, and between all independent variables.
- Residuals: you can select an optional Test for Normal distribution of the residuals.
Results
After clicking OK the following results are displayed in the results window:
In the results window, the following statistics are displayed:
Sample size: the number of data records n
Coefficient of determination R2: this is the proportion of the variation in the dependent variable explained by the regression model, and is a measure of the goodness of fit of the model. It can range from 0 to 1, and is calculated as follows:
where Y are the observed values for the dependent variable, $\bar{Y}$ is the average of the observed values and Yest are predicted values for the dependent variable (the predicted values are calculated using the regression equation).
R2-adjusted: this is the coefficient of determination adjusted for the number of independent variables in the regression model. Unlike the coefficient of determination, R2-adjusted may decrease if variables are entered in the model that do not add significantly to the model fit.
or
Multiple correlation coefficient: this coefficient is a measure of how tightly the data points cluster around the regression plane, and is calculated by taking the square root of the coefficient of determination.
When discussing multiple regression analysis results, generally the coefficient of multiple determination is used rather than the multiple correlation coefficient.
Residual standard deviation: the standard deviation of the residuals (residuals = differences between observed and predicted values). It is calculated as follows:
The regression equation: the different regression coefficients bi with standard error sbi, 95% Confidence Interval, t-value, P-value, partial and semipartial correlation coefficients rpartial and rsemipartial.
- If P is less than the conventional 0.05, the regression coefficient can be considered to be significantly different from 0, and the corresponding variable contributes significantly to the prediction of the dependent variable.
- Partial correlation coefficient rpartial: partial correlation is the correlation between an independent variable and the dependent variable after the linear effects of the other variables have been removed from both the independent variable and the dependent variable (the correlation of the variable with the dependent variable, adjusted for the effect of the other variables in the model).
- Semipartial correlation coefficient rsemipartial (in SPSS called part correlation): semipartial correlation is the correlation between an independent variable and the dependent variable after the linear effects of the other independent variables have been removed from the independent variable only. The squared semipartial correlation is the proportion of (unique) variance accounted for by the independent variable, relative to the total variance of the dependent variable Y.
- Optionally the table includes the Variance Inflation Factor (VIF). A high Variance Inflation Factor is an indicator of multicollinearity of the independent variables. Multicollinearity refers to a situation in which two or more explanatory variables in a multiple regression model are highly linearly related.
Variables not included in the model: variables are not included in the model because of 2 possible reasons:
- You have selected a stepwise model and the variable was removed because the P-value of its regression coefficient was above the threshold value.
- The tolerance of the variable was very low (less than 0.0001). The tolerance is the inverse of the Variance Inflation Factor (VIF) and equals 1 minus the squared multiple correlation of this variable with all other independent variables in the regression equation. If the tolerance of a variable in the regression equation is very small then the regression equation cannot be evaluated.
Analysis of variance: the analysis of variance table divides the total variation in the dependent variable into two components, one which can be attributed to the regression model (labeled Regression) and one which cannot (labeled Residual). If the significance level for the F-test is small (less than 0.05), then the hypothesis that there is no (linear) relationship can be rejected, and the multiple correlation coefficient can be called statistically significant.
Zero-order and simple correlation coefficients: this optional table shows the correlation coefficients between the dependent variable (Y) and all independent variables Xi separately, and between all independent variables.
Analysis of residuals
El análisis de regresión lineal múltiple asume que los residuos (las diferencias entre las observaciones y los valores estimados) siguen una distribución normal. Esta suposición puede evaluarse mediante una prueba formal o métodos gráficos.
Las diferentes pruebas formales para la distribución normal podrían no tener la potencia suficiente para detectar desviaciones de la distribución normal cuando el tamaño de la muestra es pequeño. Por otro lado, cuando el tamaño de la muestra es grande, el requisito de una distribución normal es menos estricto debido al teorema del límite central.
Por lo tanto, a menudo se prefiere evaluar visualmente la simetría y la agudeza de la distribución de los residuos utilizando el histograma, el diagrama de caja y bigotes o el diagrama normal.
Para ello, haga clic en el hipervínculo 'Guardar residuos' en la ventana de resultados. Esto guardará los valores residuales como una nueva variable en la hoja de cálculo. Posteriormente, podrá usar esta nueva variable en los diferentes gráficos de distribución.
Repetir el procedimiento
Si desea repetir el procedimiento de regresión múltiple, posiblemente para agregar o quitar variables en el modelo, entonces sólo tiene que presionar la tecla de función F7 El cuadro de diálogo volverá a aparecer con las entradas y selecciones anteriores (ver Cuadro de diálogo Recuperar).
Literatura
- Altman DG (1991) Practical statistics for medical research. London: Chapman and Hall.
- Armitage P, Berry G, Matthews JNS (2002) Statistical methods in medical research. 4th ed. Blackwell Science.
- Neter J, Kutner MH, Nachtsheim CJ, Wasserman W (1996) Applied linear statistical models. 4th ed. Boston: McGraw-Hill.