Análisis de Frecuencias y Proporciones.
En los escritos anteriores se describió la aplicación de métodos estadísticos a problemas clínicos en optometría que han sido aplicados a datos de medidas por ejemplo la longitud axial del ojo o la presión intraocular. Los datos de medidas son expresados en unidades; son variables continuas y, en muchos casos, llenan los requerimientos de la distribución normal.
En algunos estudios, sin embargo, los datos no son medidas sino cantidades o frecuencias de eventos particulares. En tales casos, un investigador puede estar interesado en saber si un evento específico sucede más frecuentemente que otro, o si un evento ocurre con la frecuencia predicha por un modelo científico.
Por ejemplo, un oftalmólogo cree que la prevalencia de una enfermedad ocular, según indica el número de pacientes referidos a los hospitales en West Midlands, es igualmente común entre hombres y mujeres. Así que el investigador quiere determinar si el número de hombres y mujeres observados se desvía significativamente de una razón esperada 1:1.
Además, un optometrista puede creer que el uso de un particular lente de contacto es un factor de riesgo para desarrollar úlceras corneales. En este caso puede ser interesante determinar si la proporción de individuos que desarrollan úlceras corneales fué el mismo en los grupos de pacientes clasificados de acuerdo al uso de diferentes tipos de lentes de contacto.
Pruebas estadísticas previas aplicadas a datos de medidas han sido basadas en las distribuciones t y z. Para analizar los datos de frecuencia, sin embargo, se requiere un diferente tipo de prueba estadística y una nueva distribución: la distribución Ji-cuadrada.
Este artículo revisa el uso de la distribución Ji-cuadrada al analizar frecuencias y proporciones sacados de una variedad de problemas clínicos en optometría. Además, serán descritas algunas de las pruebas alternativas a la Ji-cuadrada, que son útiles en circunstancias particulares, como la prueba exacta de Fisher y la prueba de Kolmogorov-Smirnov.
Como en los artículos previos, los métodos de análisis de datos son ilustrados con conjuntos de datos simples. Estos datos son usados solamente para ilustrar la metodología, y los efectos experimentales revelados no son necesariamente indicativos de los resultados, que hubieran sido obtenidos mediante experimentos más detallados.
La distribución Ji-cuadrada.
Ejemplo.
Un oftalmólogo cree que una enfermedad ocular es igualmente común entre hombres y mujeres. Una revisión de casos referidos a los hospitales en West Midlands durante los últimos 10 años produjo la frecuencia de ocurrencia de la enfermedad como se muestra en la Tabla 1.
Tabla \hspace{3mm} 1 | Hombres | Mujeres | Total |
Razón Esperada | 1 | 1 | |
Frecuencia Observada (F_o) | 480 | 420 | 900 |
Frecuencia Esperada (F_e) | 450 | 450 | 900 |
F_o-F_e | +30 | -30 | |
(F_o-F_e)^2 | 900 | 900 | |
(F_o-F_e)^2/F_e | 2 | 2 | |
\chi^2=\sum (F_o-F_e)^2/F_e=4 | | | |
¿Estos resultados apoyan o contradicen la hipótesis nula de que no hay diferencia en la ocurrencia de la enfermedad entre hombres y mujeres, es decir, los datos refutan una razón hombre:mujer de 1:1?
Cálculo de la Ji-cuadrado.
En 1899, el estadístico Karl Pearson ideó una prueba estadística para responder este tipo de pregunta. Pearson ideó un “índice de dispersión”, llamado Ji-cuadrada (\chi^2), que mide la desviación de una frecuencia observada (F_o) de una frecuencia esperada o predicha (F_e). Junto con las distribuciones t y z descritas en artículos previos, la distribución Ji-cuadrada es una de las más importantes en estadística. La Ji-cuadrada se define como la suma de los cuadrados de las diferencias entre cada frecuencia observada (F_o) y cada frecuencia esperada (F_e), cada diferencia dividida por la frecuencia esperada:
\chi^2=\sum\frac{(F_o-F_e)^2}{F_e} \hspace {20mm} \dots (1)
Si los movimientos observados y esperados son idénticos, el valor de la \chi^2 es cero. El valor de \chi^2 se incrementa a medida que la diferencia entre los valores observado y esperado se incrementa.
En el ejemplo dado en la Tabla 1, el valor calculado de \chi^2 es 4. Nótese que la F_e de hombres y mujeres con una enfermedad particular es calculada de la F_o. Para juzgar si es probable que un valor de \chi^2 de 4 se obtenga por casualidad mediante una muestra aleatoria, se consulta la tabla \chi^2 para n-1 grados de libertad gl donde n es igual al número de categorías de la variable.
Grados de Libertad.
La consideración de este ejemplo nos da un contexto útil en el cuál explicar el significado de los grados de libertad gl en más detalle. Como se describe en un artículo anterior, el número de gl hace posible tener una tabla estadística para buscar en el renglón correcto basado en el número de observaciones.
En la mayoría de las aplicaciones, los gl de una cantidad estadística se define como el número de observaciones menos el número de parámetros que tienen que ser calculados de los datos para estimar la cantidad estadística. Así, en el presente ejemplo, hay dos observaciones (las dos frecuencias, hombres y mujeres) pero la F_e tiene que ser calculada de la F_o para hacer la prueba \chi^2, por lo tanto, gl=2-1=1.
Reduciendo el número de observaciones “efectivas” de esta manera parecería ser un procedimiento lógico dado que los datos están siendo usados para probar una hipótesis y para calcular el estadístico necesario para hacer la prueba.
Cuando una prueba estadística se hace por primera vez, es útil calcular los grados de libertad apropiados y asegurarnos de que coinciden con los que indica el programa estadístico. Esta verificación puede ser particularmente importante cuando se usan pruebas estadísticas más complejas, como el análisis de varianza, que será discutido posteriormente.
La distribución Ji-cuadrada 1 gl
La distribución estadística Ji-cuadrada con un grado de libertad es mostrada en la figura.
Esta distribución describe los valores de Ji-cuadrada, que resultarían por casualidad al comparar dos frecuencias tomadas aleatoriamente, por ejemplo de una tabla de números aleatorios.
Comparada con las tablas z y t, la distribución \chi^2 para 1 gl es asimétrica en su forma, pero como en las distribuciones z y t, el cálculo de la \chi^2 convierte las diferencias entre las frecuencias observadas y las esperadas a un solo estadístico, que es un miembro de esta distribución.
Se obtiene un valor significativo de la \chi^2 cuando cae en la cola de la distribución, que incluye el 5% de las observaciones más extremas. La gráfica indica que todos los valores de \chi^2 iguales o mayores que 3.84 caerían dentro de esta categoría.
En el ejemplo de la Tabla 1, se obtuvo un valor de \chi^2=4 que es más grande que el valor crítico al 5% del nivel de probabilidad. Es improbable que este valor de \chi^2 se haya obtenido por casualidad.
La probabilidad es, de hecho, menor a 5% y, por lo tanto, concluímos que las frecuencias observadas se separan significativamente de las razones esperadas, es decir, hay un exceso de hombres referidos a los hospitales de West Midlands con la enfermedad ocular en cuestión.
Este tipo de prueba estadística con frecuencia es descrita como “prueba de bondad de ajuste”.
Esencialmente, una serie de frecuencias observadas son comparadas con una distribución de resultados esperada o predicha. Un importante hecho acerca de este tipo de pruebas es que la distribución \chi^2 está basada en la frecuencia de eventos y no puede ser aplicada a datos de medida, es decir, cualquier dato de medida en unidades.
Esta prueba puede ser extendida para cualquier número de categorías de frecuencias y el caso general, para n categorías es descrito en la Tabla 2.
Tabla 2
Categorías =\{1,2,3, \dots n\}
F_o=\{ O_1,O_2,O_3, \dots O_n\}
F_e=\{ E_1,E_2,E_3, \dots E_n\}
- Calcular las frecuencias esperadas F_e. En el caso simple serán las mismas para cada categoría. Así, si las frecuencias observadas F_o suman N, entonces F_e será N/n.
- Calcular la Ji-cuadrada \chi^2=\sum\frac{(F_o-F_e)^2}{F_e}
- El valor de \chi^2 es llevado a la tabla \chi^2 para compararlo con el renglón con n-1\hspace{3mm} gl donde n es el número de categorías.
- El valor de Ji-cuadrada tiene que ser igual o más grande que el valor tabulado para p=0.05 para indicar una diferencia significativa de los datos observados respecto a los esperados.
Prueba de bondad de ajuste con 12 categorías y la misma expectativa.
Un médico contó el número de niños nacidos cada mes en la maternidad del hospital con una específica anormalidad genética (Tabla 3). ¿El número de niños nacidos con esta anormalidad varían mensualmente?
Tabla 3
Categorías (meses) | E \hspace{5mm} F \hspace{5mm} M \hspace{5mm} A \hspace{5mm}M \hspace{5mm}J \hspace{5mm}J \hspace{5mm}A \hspace{5mm}S \hspace{5mm}O \hspace{5mm}N \hspace{3mm}D | Suma \hspace{3mm} |
F_o | 8 \hspace{5mm}19 \hspace{5mm}11 \hspace{5mm}12 \hspace{5mm}16 \hspace{5mm}8 \hspace{5mm}7 \hspace{6mm}5 \hspace{6mm}8 \hspace{6mm}3 \hspace{6mm}8 \hspace{6mm}8 | 113 |
- La frecuencias esperada F_e en cada mes es \sum F_o/n donde n es el número de categorías=113/12=9.42
- En este caso \chi^2=23.5 que excede el valor en la tabla para 11 gl al p=0.05.
|
En este caso, la F_e, asumiendo igual número de nacimientos anormales por mes, es el total de las frecuencias sumadas de los meses, dividido por el número de meses. El valor de \chi^2 calculado fué de 23.5 y excede el valor del estadístico para 11 gl con nivel de probabilidad p=0.05.
Así, el número de niños nacidos con esta anormalidad genética parece variar mensualmente.
Es necesario tener cuidado en la interpretación de este resultado, sin embargo, porque es probable que haya una variación en el número total de niños nacidos cada mes y este hecho no ha sido tomado en cuenta. Por lo tanto, podría ser más apropiado analizar la proporción del número total de niños nacidos cada mes con la anormalidad más que las frecuencias absolutas.
Referencia