Resumen del artículo escrito por Richard Armstrong y Frank Eperjesi dirigido al personal de optometría que requiera conocimientos básicos de estadística para analizar datos.
En los ejemplos descritos hasta ahora, las frecuencias esperadas han sido las mismas en cada categoría de la variable. En ciertas circunstancias, sin embargo, las frecuencias esperadas o predichas pueden variar de categoría en categoría. Esta es una circunstancia común en investigación genética, donde un investigador puede predecir de una teoría genética la frecuencia de un genotipo particular en la descendencia. Por ejemplo, dos padres heterocigóticos portadores de un rasgo anormal autosómico dominante tienen una probabilidad de 3:1 de transmitir la característica a su descendencia.
En optometría, las expectativas de la variable pueden surgir si un investigador deseara probar si una distribución estadística particular puede ser ajustada a una muestra de datos. Por ejemplo, un optometrista hace una medida de un parámetro visual en 20 pacientes tomados aleatoriamente de una población y desea determinar si los datos se desvían significativamente de una distribución normal (Tabla 4).
Clases de Frecuencia \hspace{16mm} Frec. Observada (F_o) \hspace{5mm} Frec. Esperada (F_e) \hspace{5mm} Contribución \chi^2
< \mu -1.5 \alpha \hspace{50mm} 0 \hspace{45mm} 1.3362 \hspace{45mm} 1.34
\mu -1.5 \alpha \hspace{2mm} a \hspace{2mm} \mu -0.5 \alpha \hspace{30mm} 6 \hspace{45mm} 4.8346 \hspace{45mm} 0.28
\mu -0.5 \alpha \hspace{2mm} a \hspace{2mm} \mu \hspace{45mm} 7 \hspace{45mm} 3.8292 \hspace{45mm} 2.63
\mu \hspace{2mm} a \hspace{2mm} \mu +0.5 \alpha \hspace{45mm} 0 \hspace{45mm} 3.8292 \hspace{45mm} 3.83
\mu +0.5 \alpha \hspace{2mm} a \hspace{2mm} \mu +1.5 \alpha \hspace{30mm} 6 \hspace{45mm} 4.8346 \hspace{45mm} 0.28
> \mu -1.5 \alpha \hspace{50mm} 1 \hspace{45mm} 1.3362 \hspace{45mm} 0.08
totales \hspace{57mm} 20 \hspace{45mm} 20.00 \hspace{45mm} 8.44
Por lo tanto, la prueba de bondad de ajuste de los datos observados a una distribución normal \chi^2=8.44, 3 gl, p>0.05
Tabla 4. El método de la Ji-cuadrada para probar el ajuste de los datos observados a una distribución normal (\mu=media y \sigma= desviación estándar de las observaciones)
Para ajustar la distribución normal, la variable estudiada primero fué dividida en clases de frecuencia describiendo el rango de la variable en la población. En este caso fueron consideradas seis clases. Los límites de estas clases se convierten para que sean miembros de la distribución normal estándar usando el método descrito en el primer artículo.
Para llevar a cabo este cálculo, la media muestral y la desviación estándar de las 20 medidas se calculan primero. Luego la media muestral se resta de cada límite de clase y se divide por la desviación estándar, que convierte las medidas originales a sus correspondientes en la distribución normal estándar. Entonces pueden ser usadas las tablas de la distribución normal estándar para determinar el número esperado de observaciones, de las 20, que deberían caer dentro de cada clase si los datos estuvieran normalmente distribuídos.
Notemos que la F_e varía de una clase a otra. Luego la F_e es comparada con la F_o usando la prueba de bondad de ajuste \chi^2.
En el caso presente el valor de \chi^2, totalizado sobre todas las clases, igualó 8.44 y esto excede el valor al 5% de probabilidad para 3 gl.
La Ji-cuadrada tiene 3 gl en este ejemplo porque la media, la desviación estándar y la frecuencia total tienen que ser calculadas de los datos para hacer la prueba. Así, los gl=número de frecuencias (6)-3 parámetros. La hipótesis nula es rechazada y concluímos que la población no está normalmente distribuída. Notemos que este ejemplo usa un número relativamente pequeño de observaciones y normalmente se requeriría una muestra mucho más grande de medidas para ajustar la distribución normal adecuadamente.
Tablas de contingencia de la Ji-cuadrada.
Tabla 2X2
En los ejemplos discutidos anteriormente los datos han consistido en dos o más categorías de una sola variable, por ejemplo, hombres/mujeres o meses del año. El mismo principio, sin embargo, puede ser extendido al análisis de dos diferentes variables. Por ejemplo, consideremos el siguiente estudio del posible efecto de fumar en la incidencia de degeneración macular relacionada con la edad (DMRE).
Fué tomada aleatoriamente una muestra de 1429 personas mayores de una población y clasificada de acuerdo a si eran o no fumadores y si había evidencia de la presencia de DMRE. Los datos obtenidos en el estudio (Tabla 5) constituyen una tabla de contingencia de 2X2, es decir, hay dos variables, cada una con dos categorías.
Tabla5 | No-fumadores | Fumadores | Total renglones |
DMRE | 107 | 44 | 151 |
no-DMRE | 940 | 338 | 1278 |
Total columnas | 1047 | 382 | Gran total |
% con DMRE | 10.2% | 11.5% | 1429 |
|
Notemos que en la Tabla 5 el 10% de los no-fumadores exhibieron signos y síntomas de DMRE contra el 11.5% de los fumadores. Podemos preguntar si la diferencia es suficiente para concluir que fumar provoca un efecto en la incidencia de DMRE.
La prueba se describe en la Tabla 5. Notemos que en una tabla de 2X2, la F_e tiene que ser calculada para cada celda en la tabla separadamente, es decir, hay cuatro diferentes valores para la F_e. Una tabla de 2X2, sin embargo, solo tiene un grado de libertad.
Para entender porqué una tabla de 2X2 solo tiene 1 gl, se debe calcular cada F_e y examinar las desviaciones de las frecuencias observadas con respecto a las esperadas para cada celda de la tabla. Examinar estas desviaciones mostrará que son la misma, es decir, en una tabla de 2X2 solo hay un estimado independiente de la desviación de las frecuencias observadas respecto a las esperadas.
En este caso, el valor calculado de \chi^2 es menor que el valor tabulado al 5% de probabilidad. Este es un valor que podría ocurrir bastante frecuentemente por casualidad y, por lo tanto, podríamos concluir, al menos de este estudio, que no hay pruebas concluyentes de que fumar esté relacionado con DMRE.
Nótese que hay estudios en la literatura que sugieren una posible conexión entre DMRE y fumar. Los resultados de un estudio individual con frecuencia no son concluyentes y conclusiones como si fumar está considerado un “factor de riesgo” para DMRE con frecuencia se basan en una combinación de muchos estudios individuales.
Tabla de Contingencia RXC.
También es posible analizar dos variables con cualquier número de categorías por variable y ésto a veces se menciona como una tabla de contingencia de renglón R X columna C.
En el siguiente ejemplo un optometrista quiere determinar si la precisión en la lectura, determinada como el total de errores cometidos en una prueba, varía entre un grupo de sujetos controles mayores y un grupo de pacientes con DMRE cuando se presentan con cuatro diferentes filtros de color (Tabla 6).
Tabla6: filtros | rojo | verde | azul | amarillo | Total renglones |
Control | 479 | 318 | 88 | 24 | 909 |
DMRE | 508 | 458 | 90 | 35 | 1091 |
Total columnas | 987 | 776 | 178 | 59 | N=2000 |
|
Para hacer la prueba, la F_e es calculada para cada celda de la tabla usando la misma fórmula que se usó para la tabla de 2X2. Entonces el valor de la \chi^2 es calculada usando la ecuación 1. En este ejemplo, el valor \chi^2=11.72. Este valor es llevado a la tabla \chi^2, usando el renglón (R-1)(C-1) gl. Este valor excede el valor de \chi^2 en la tabla al nivel p=0.01, es decir, la incidencia de los errores en la lectura usando los diferentes filtros de colores varía entre los dos grupos de pacientes.
Se requerirá un examen más detallado de los datos para determinar si las diferencias entre los dos grupos estuvieron presentes usando todos los tipos de filtros o solo un subconjunto de filtros. Este proceso puede incluir partir los datos en pequeñas tablas de contingencia cada una de las cuales puede ser probada usando la \chi^2.
Referencia