Saltar al contenido principal

Prueba de Chi-cuadrado

Descripción

La prueba de Chi-cuadrado se puede utilizar para lo siguiente:

Una variable - clasificación unidireccional

Para probar la hipótesis de que, para una tabla de clasificación (p. ej., género), todos los niveles de clasificación tienen la misma frecuencia, solo se debe identificar una variable discreta en el cuadro de diálogo, y la hipótesis nula es que todos los niveles de clasificación tienen la misma frecuencia. Si el valor P calculado es pequeño (<0,05), se rechaza la hipótesis nula y se acepta la hipótesis alternativa de que existe una diferencia significativa entre las frecuencias de los diferentes niveles de clasificación.

Dos variables: clasificación de dos vías

Para comprobar la relación entre dos factores de clasificación (p. ej., género y profesión). En este caso, se deben identificar dos variables discretas en el cuadro de diálogo, y la hipótesis nula es que ambos factores son independientes. Si el valor P calculado es pequeño (<0,05), se rechaza la hipótesis nula y se acepta la hipótesis alternativa de que existe una relación entre ambos factores.

Cómo introducir datos

En el siguiente ejemplo, tenemos dos variables categóricas. Para la variable RESULTADO, se introduce el código 1 para un resultado positivo y el código 0 para un resultado negativo. Para la variable FUMAR, se utiliza el código 1 para los sujetos que fuman y el código 0 para los que no fuman. Los datos de cada caso se introducen en una fila de la hoja de cálculo.

Datos de ejemplo para la prueba de Chi-cuadrado

Entrada requerida

En el cuadro de diálogo de la prueba Chi-cuadrado, se deben identificar una o dos variables discretas con los datos de clasificación. Los datos de clasificación pueden ser valores numéricos o alfanuméricos (cadena). Si es necesario, puede convertir una variable continua en una variable discreta mediante la función IF (véase en otro lugar).

Cuadro de diálogo para la prueba de Chi-cuadrado

Opción Mostrar todos los porcentajes (sólo disponible para clasificación bidireccional): vea el ejemplo a continuación.

Resultados

Después de completar el cuadro de diálogo, haga clic en Aceptar para obtener la tabla de frecuencias con las estadísticas relevantes.

Tabla de clasificación

Prueba de Chi-cuadrado

Clasificación X

Resultado

Clasificación Y

Fumar

 

Resultado

 

Fumar

0

1

 

0

42

20

62 (62.0%)

1

14

24

38 (38.0%)

 

56
(56.0%)

44
(44.0%)

100

Prueba de Chi-cuadrado

Chi-cuadrado

9.038

GL

1

Nivel de significación

P = 0.0026

Coeficiente de contingencia

0.288

Al seleccionar la opción Mostrar todos los porcentajes en el cuadro de diálogo, todos los porcentajes se muestran en la tabla de la siguiente manera:

Prueba de Chi-cuadrado

Clasificación X

Resultado

Clasificación Y

Fumar

 

Resultado

 

Fumar

0

1

 

0

42
67.7% TF
75.0% TC
42.0% TG

20
32.3% TF
45.5% TC
20.0% TG

62 (62.0%)

1

14
36.8% TF
25.0% TC
14.0% TG

24
63.2% TF
54.5% TC
24.0% TG

38 (38.0%)

 

56
(56.0%)

44
(44.0%)

100

Prueba de Chi-cuadrado

Chi-cuadrado

9.038

GL

1

Nivel de significación

P = 0.0026

Coeficiente de contingencia

0.288

En este ejemplo, el número 42 en la celda superior izquierda (donde tanto Código X como Código Y son iguales a 0) representa el 67.7% del total de la fila de 62 casos; el 75% del total de la columna de 56 casos, y el 42% del total general de 100 casos.

Prueba de Chi-cuadrado

La estadística Chi-cuadrado es la suma de los cuadrados de las diferencias entre la frecuencia observada y la esperada, dividida por la frecuencia esperada para cada celda::

$$ \chi^2 = \sum{ \frac {(O - E)^2} {E}} $$
donde:
  • O es la frecuencia observada
  • E es la frecuencia esperada

Un solo factor de clasificación

Cuando se desea comprobar la hipótesis de que, en una tabla de clasificación única (por ejemplo, género), todos los niveles de clasificación tienen la misma frecuencia, entonces se debe identificar solo una variable discreta en el formulario de diálogo. En este caso, la hipótesis nula es que todos los niveles de clasificación tienen la misma frecuencia. Si el valor P calculado es bajo (P < 0.05), se rechaza la hipótesis nula y se acepta la hipótesis alternativa de que existe una diferencia significativa entre las frecuencias de los diferentes niveles de clasificación.

En una tabla de clasificación única, la moda de las observaciones es la observación o categoría más común (la observación con la frecuencia más alta). Una distribución unimodal tiene una sola moda; una distribución bimodal, dos modas.

Dos factores de clasificación

Cuando se desea estudiar la relación entre dos factores de clasificación (por ejemplo, género y profesión), entonces se deben identificar las dos variables discretas en el formulario de diálogo. En este caso, la hipótesis nula es que los dos factores son independientes. Si el valor P calculado es bajo (P < 0.05), se rechaza la hipótesis nula y se acepta la hipótesis alternativa de que existe una relación entre los dos factores.

Prueba de Chi-cuadrado para tendencia

Si la tabla tiene dos columnas y tres o más filas (o dos filas y tres o más columnas), y las categorías pueden cuantificarse, MedCalc también realizará la prueba de Chi-cuadrado para tendencia. La prueba de tendencia de Cochran-Armitage (Cochran, 1954; Armitage, 1955) evalúa si existe una tendencia lineal entre el número de fila (o columna) y la fracción de sujetos en la columna izquierda (o fila superior). La prueba de Cochran-Armitage para tendencia proporciona una prueba más potente que la prueba de independencia no ordenada mencionada anteriormente.

Si no existe un orden significativo en las categorías de las filas (o columnas), entonces se debe ignorar este cálculo.

Análisis de tabla 2x2

  • Para una tabla 2x2, MedCalc utiliza la prueba de Chi-cuadrado de 'N−1' según lo recomendado por Campbell (2007) y Richardson (2011). En la prueba de Chi-cuadrado de 'N−1', χ2, como se indicó anteriormente, se multiplica por un factor (N−1)/N. El uso de la corrección de continuidad de Yates ya no se recomienda.
  • Cuando los dos factores de clasificación no son independientes, o cuando se desea probar la diferencia entre proporciones en observaciones relacionadas o pareadas (por ejemplo, en estudios en los que los pacientes sirven como su propio control), se debe utilizar la prueba de McNemar.

Frecuencias esperadas pequeñas

Es un error común pensar que la prueba de Chi-cuadrado no es confiable cuando hay una o más celdas con frecuencias esperadas menores a 5.

Al buscar en Internet, es posible que encuentre muchos sitios que lo indiquen, pero ninguno de ellos cita una referencia.

Pero según Pagano y Gauvreau (2000):

"Ninguna celda de la tabla debe tener un recuento esperado menor que 1, y no más del 20% de las celdas deben tener un recuento esperado menor que 5" (con referencia a Cochran, 1954).

Y de hecho, según Cochran (1954):

"La tabla 2x2. Utilice la prueba exacta de Fisher (i) si el N total de la tabla <2 0, (ii) si 20 < N < 40 y la expectativa más pequeña es menor que 5.
Tablas de contingencia con más de 1 gl. Si relativamente pocas expectativas son menores que 5 (digamos en 1 celda de 5 o más, o 2 celdas de 10 o más), se permite una expectativa mínima de 1 para calcular χ2."

y

"Si χ2 tiene menos de 30 grados de libertad y la expectativa mínima es 2 o más, el uso de las tablas χ2 ordinarias suele ser adecuado".

Un estudio de Koehler y Lartnz (1980) (citado por Connover 1999, p. 241) considera que la aproximación de Chi-cuadrado es adecuada siempre que N ≥ 10, c ≥ 3, N2 / c ≥ 10 y todos los Ej ≥ 0,25 (siendo c el número de celdas y Ej el número esperado en la celda j).

Literatura

  • Altman DG (1991) Practical statistics for medical research. London: Chapman and Hall.
  • Armitage P (1955) Tests for linear trends in proportions and frequencies. Biometrics 11:375-386.
  • Campbell I (2007) Chi-squared and Fisher-Irwin tests of two-by-two tables with small sample recommendations. Statistics in Medicine 26:3661-3675. PubMed
  • Cochran WG (1954) Some methods for strengthening the common χ2 tests. Biometrics 10:417-451.
  • Conover WJ (1999) Practical non-parametric statistics, 3rd edition. New York: John Wiley & Sons.
  • Koehler KJ, Lartnz K (1980) An empirical investigation of goodness-of-fit statistics for sparse multinomials. Journal of the American Statistical Association 75:336-344.
  • Pagano M, Gauvreau K (2000) Principles of biostatistics, 2nd ed. Brooks/Cole, Cengage Learning.
  • Richardson JTE (2011) The analysis of 2 x 2 contingency tables - Yet again. Statistics in Medicine 30:890. PubMed

Véase también