Detección de valores atípicos
Comando: | Estadística![]() ![]() |
Descripción
La detección de valores atípicos se utiliza para detectar observaciones anómalas en datos de muestra.
Entrada requerida
Variable : el nombre de la variable que contiene los datos que se van a analizar.
Filtro : (opcionalmente) un filtro para incluir sólo un subgrupo seleccionado de casos en el análisis estadístico.
Métodos de detección de valores atípicos :
- Grubbs - lado izquierdo : verifique sólo el valor más pequeño (Grubbs, 1969).
- Grubbs - lado derecho : marque sólo el valor más grande (Grubbs, 1969).
- Grubbs - doble cara : verifique el valor más extremo en cada lado (Grubbs, 1969).
Las pruebas de Grubbs de una sola cara son más sensibles que las pruebas de doble cara.
- Prueba ESD generalizada : el procedimiento de desviación estudentizada extrema generalizada (ESD) puede detectar múltiples valores atípicos en un solo paso (Rosner, 1983).
- Prueba del número máximo de valores atípicos : ingrese el número máximo de valores atípicos a detectar.
- Tukey : verifica múltiples valores atípicos en ambos lados, categorizados como valores “externos” o “muy alejados” (Tukey, 1977).
- Un valor externo se define como un valor que es menor que el cuartil inferior menos 1,5 veces el rango intercuartil, o mayor que el cuartil superior más 1,5 veces el rango intercuartil (los 'límites internos').
- Un valor lejano se define como un valor que es menor que el cuartil inferior menos 3 veces el rango intercuartil, o mayor que el cuartil superior más 3 veces el rango intercuartil (los 'límites externos').
De hecho, John Tukey no utilizó el término “atípico”, sino que empleó las clasificaciones “exterior” y “muy alejado”.
Opciones
- Nivel alfa para las pruebas de Grubbs y ESD: seleccione el nivel alfa (de 0,10 a 0,001), aplicable únicamente a las pruebas de Grubbs y ESD generalizada. Un nivel alfa mayor aumentará la sensibilidad de la prueba y los valores atípicos se detectarán con mayor rapidez; sin embargo, esto puede generar resultados falsos positivos.
- Transformación logarítmica : Los métodos de detección de valores atípicos asumen que los datos siguen una distribución aproximadamente normal (véase la siguiente opción). En ocasiones, los datos deben transformarse logarítmicamente antes del análisis. Véase Transformación logarítmica. El ejemplo de esta página utiliza los datos de Rosner (1983) en su escala original. Por lo tanto, se realiza una transformación logarítmica como en el artículo de Rosner.
- Prueba de distribución normal : ver Pruebas de distribución normal.
Resultados
Variable | Ingesta_de_vitamina_E |
---|
Reconvertido después de la transformación logarítmica. |
Tamaño muestral | 54 |
---|---|
Valor más bajo | 0.7800 |
Valor más alto | 407.4800 |
Media geométrica | 10.1834 |
Mediana | 8.1249 |
Coeficiente de asimetría | 1.1817 (P=0.0011) |
Coeficiente de curtosis | 1.9972 (P=0.0248) |
Prueba de Shapiro-Francia | W'=0.9000 |
Valores atípicos sospechosos
Tukey, 1977 | |
---|---|
Valores externos | 208.51 225.88 407.48 |
Valores muy alejados | Ninguno |
Prueba DEE generalizada (Nivel alfa 0,05) |
---|
208.51 225.88 407.48 |
![]() ![]() | Diagrama de caja |
Estadísticas resumidas
- Se muestran las estadísticas resumidas de los datos seleccionados. Consulte Estadísticas resumidas.
- Si la prueba de distribución normal indica 'Rechazar normalidad', los métodos de detección de valores atípicos podrían no ser válidos, ya que asumen que los datos siguen una distribución aproximadamente normal. Quizás los datos deberían haberse transformado logarítmicamente antes del análisis. En el ejemplo, los datos se transforman logarítmicamente.
Valores atípicos sospechosos
El programa enumera los valores atípicos identificados por los diferentes procedimientos.
La prueba de Grubbs sólo se puede utilizar para detectar un único valor atípico; si sospecha que hay más de un valor atípico, no debe repetir el procedimiento sino utilizar la prueba ESD generalizada.
Qué hacer cuando se ha identificado un valor atípico
No elimine valores atípicos automáticamente.
- Elimine los valores atípicos solo cuando se pueda encontrar una causa para el resultado espurio, como un error previo, posterior o analítico. Cuando concluya que un error previo, posterior o analítico es la causa del resultado espurio, tenga en cuenta que los mismos errores pueden existir en los demás valores de los datos.
- Verifique la distribución de los datos. Los datos de muestra transformados logarítmicamente pueden seguir con mayor precisión una distribución normal. Grafique los datos con y sin transformación logarítmica, por ejemplo, utilizando un diagrama de caja y bigotes.
- Puede considerar reemplazar el valor atípico con el siguiente número más alto/más bajo (no atípico).
- Mantenga el valor atípico pero utilice métodos estadísticos robustos o no paramétricos que no supongan que los datos se distribuyen normalmente.
- Realice el análisis estadístico e informe las conclusiones tanto con como sin el valor atípico sospechoso.
En todos los casos, informe los valores atípicos y cómo los ha abordado.
Literatura
- Grubbs FE (1969) Procedures for detecting outlying observations in samples. Technometrics 11:1-21.
- Rosner B (1983) Percentage points for a generalized ESD many-outlier procedure. Technometrics 25:165-172.
- Tukey JW (1977) Exploratory data analysis. Reading, Mass: Addison-Wesley Publishing Company.