Diagrama de dispersión y línea de regresión
Comando: | Estadística![]() ![]() ![]() ![]() |
Descripción
En un diagrama de dispersión, se presenta gráficamente la relación entre dos variables numéricas. Una variable (la variable independiente X) define el eje horizontal y la otra (la variable dependiente Y) define el eje vertical. Los valores de las dos variables en la misma fila de la hoja de cálculo de datos representan los puntos del diagrama.
Entrada requerida
El cuadro de diálogo para el diagrama de dispersión es similar al de Regresión :
Variables
- Variable Y y Variable X : seleccione las variables dependientes e independientes Y y X.
- Ponderaciones : seleccione una variable que contenga las ponderaciones relativas que se asignarán a cada observación (para la regresión de mínimos cuadrados ponderada). Seleccione la variable ficticia. '*** AutoWeight 1/SD^2 ***' Para un procedimiento automático de regresión ponderada que corrige la heterocedasticidad (Neter et al., 1996). Esta variable ficticia aparece como el primer elemento en la lista desplegable de Ponderaciones.
- Filtro : también puede ingresar un filtro de datos para incluir solo un subgrupo seleccionado de casos en el análisis estadístico.
ecuación de regresión
Por defecto, la opción ' Incluir constante en la ecuación' está seleccionada. Esta es la opción recomendada para obtener una regresión por mínimos cuadrados ordinarios. Si necesita una regresión a través del origen (sin una constante a en la ecuación), puede desmarcar esta opción (en Eisenhauer, 2003, se ofrece un ejemplo de cuándo esto es apropiado).
MedCalc ofrece una selección de 5 ecuaciones de regresión diferentes (x representa la variable independiente e y la variable dependiente):
y | = | a + bx | línea recta |
y | = | a + b log(x) | curva logarítmica |
pesado) | = | a + bx | curva exponencial |
pesado) | = | a + b log(x) | curva geométrica |
y | = | a + bx + cx 2 | regresión cuadrática (parábola) |
Cuando selecciona una ecuación que contiene una transformación logarítmica para una de las variables, el programa utilizará una escala logarítmica para la variable correspondiente.
Opciones
- 95% de confianza : Se dibujarán dos curvas junto a la línea de regresión. Estas curvas representan un intervalo de confianza del 95% para la línea de regresión. Este intervalo incluye la línea de regresión real con una probabilidad del 95%.
- 95% Prediction: two curves will be drawn next to the regression line. These curves represent the 95% prediction interval for the regression curve. The 95% prediction interval is much wider than the 95% confidence interval. For any given value of the independent variable, this interval represents the 95% probability for the values of the dependent variable.
- Line of equality: option to draw a line of equality (y=x) line in the graph.
- Heat map: option to display a heatmap, where background color coding indicates density of points, suggesting clusters of observations.
Residuals
In regression analysis, residuals are the differences between the predicted values and the observed values for the dependent variable. The residual plot allows the visual evaluation of the goodness of fit of the selected model.
To obtain a residuals plot, select this option in the dialog box. This graph will be displayed in a second window.
Subgroups
Click the Subgroups button if you want to identify subgroups in the scatter diagram. A new dialog box is displayed in which you can select a categorical variable. The graph will use different markers for the different categories in this variable, and optionally will show regression lines for all cases and for each subgroup.
Examples
Scatter diagram with regression line
Regression line and 95% confidence interval
Regression line and 95% prediction interval
Regression line, 95% confidence interval and 95% prediction interval
Regression line and heatmap
When you click a point on the regression line, the program will give the x-value and the f(x) value calculated using the regression equation.
You can press Ctrl P to print the scatter diagram, or function key F10 to save the picture as file on disk. To define other titles or colors in the graph, or change the axis scaling, see Format graph.
If you want to repeat the scatter diagram, possibly to select a different regression equation, then you only have to press function key F7. The dialog box will re-appear with the previous entries (see Recall dialog).
Extrapolation
MedCalc only shows the regression line in the range of observed values. As a rule, it is not recommended to extrapolate the regression line beyond the observed range. For particular applications however, such as evaluation of stability data, extrapolation may be useful, see for example the ICH guideline Evaluation of Stability Data (PDF).
To allow extrapolation, right-click in the graph and click Allow extrapolation on the context menu.
Residuals plot
Al seleccionar la opción 'Gráfico de residuos' en el cuadro de diálogo 'Línea de regresión', el programa mostrará una segunda ventana con el gráfico de residuos. Los residuos son las diferencias entre los valores predichos y los valores observados para la variable dependiente. El gráfico de residuos permite evaluar visualmente el ajuste del modelo o ecuación seleccionados. Los residuos pueden indicar posibles valores atípicos (valores inusuales) en los datos o problemas con el modelo de regresión. Si los residuos muestran un patrón determinado, debería considerar seleccionar un modelo de regresión diferente.
Literatura
- Altman DG (1991) Practical statistics for medical research. London: Chapman and Hall.
- Eisenhauer JG (2003) Regression through the origin. Teaching Statistics 25:76-80.
- Neter J, Kutner MH, Nachtsheim CJ, Wasserman W (1996) Applied linear statistical models. 4th ed. Boston: McGraw-Hill.