
Este es un resumen de un artículo de Richard A. Amstrong y Frank Eperjesi dirigido al personal de optometría que requiera conocimientos básicos de estadística para analizar datos.
En una entrada anterior, se mostró que muchas variables en optometría pueden ser descritas como paramétricas o normalmente distribuídas. Si una variable viene de una población normalmente distribuída, entonces la población misma puede ser descrita por su media (la localización de la tendencia central de la distribución) y la desviación estándar (el grado de dispersión de la distribución).
Además, se describieron dos procedimientos estadísticos basados en esta información. Primero, determinamos si una medida individual, por ejemplo, la presión intraocular de un paciente a cierta edad, fué típica o atípica de la población de esa edad. Segundo, se mostró que la media de una pequeña muestra de medidas individuales viene de una población de medias muestrales que también se distribuye normalmente. El grado de dispersión de esta distrubución puede ser descrito por el error estándar de la media. Esta información fué usada para calcular un intervalo de confianza para la media muestral, es decir el grado de error asociado a una media muestral como un estimador de la verdadera media de la población.
En este artículo, esas ideas estadísticas se extienden al problema de probar si hay una diferencia real entre dos muestras de medidas.
Primero, se mostrará que la diferencia entre las medias de dos muestras viene de una problación de tales diferencias que se distrubuyen normalmente. Segundo, la distribución t, una de las más importantes en estadística, será aplicada a una prueba de la diferencia entre dos medias usando un conjunto simple de datos tomado de un experiemnto clínico en optometría. Tercero, al hacer una prueba t, se hace un juicio estadístico acerca de si hay una diferencia significativa entre las medias de dos muestras.
Antes del uso extendido de programas estadísticos, este juicio era hecho con referencia a una tabla estadística. Incluso si esas tablas no son usadas, es útil entender su estructura lógica y cómo usarlas. Finalmente, será descrito el análisis de los datos que son conocidos por estar muy separados de la distribución normal.
En las siguientes secciones, los métodos de análisis de datos descritos son ilustrados con simples conjuntos de datos. Estos datos son usados solo para ilustrar la metodología, y los efectos experimentales revelados pueden no ser necesariamente indicativos de los resultados que serían obtenidos por experimentos más detallados.
La diferencia entre pares de medias muestrales.
Para determinar si una medida individual es un miembro típico de la población entera se requiere conocer la variación de las medidas individuales, es decir, la desviación estándar de la población. Similarmente, para determinar el grado de error asociado con una media muestral se requiere conocer la variabilidad de las medias muestrales, es decir, el error estándar de la media. Por lo tanto, para determinar si hay una diferencia significativa entre las medias de dos muestras, se requiere saber el grado de variabilidad de la diferencia entre dos medias muestrales.

Consideremos dos poblaciones diferentes, la primera que sale de la medida de un parámetro visual en una muestra de individuos no tratados (grupo control) y la segunda después de tratar otra muestra de individuos con un medicamento diseñado para incrementar la dilatación pupilar (el grupo de tratamiento). Para cada muestra, se calcula la media, y la diferencia entre las medias \bar{C} – \bar{T} representa el efecto del tratamiento del experimento, es decir, el grado en que el medicamento incrementa la dilatación pupilar. Imaginemos que el experimento se repite muchas veces y se obtienen varios estimados de \bar{C} – \bar{T}. La distribución de las medias muestrales representando el control y la población tratada se muestra en la figura de la izquierda, y la distribución de \bar{C} – \bar{T} se muestra en la figura de abajo.

Si las medias de los controles y los tratados, están distribuídas normalmente, entonces la distribución de las diferencias entre pares de medias tomadas de estas dos poblaciones también estará distribuída normalmente. Así, podemos usar la distribución normal estándar para probar si hay una diferencia real entre las dos medias en el experimento.
Comparando la diferencia entre dos medias.
Consideremos un experimento diseñado para probar la hipótesis nula de que una droga no tiene efecto en el grado de dilatación pupilar. Se reclutaron seis voluntarios y fueron asignados aleatoriamente a cada grupo, por ejemplo, el control C y el tratado T, tres individuos a cada uno. Consecuentemente, se dice que el experimento tiene tres repeticiones. En realidad, tres repeticiones no sería un número adecuado para probar la hipótesis propuesta y se han usado por simplicidad. La cuestión de cuántos pacientes sería apropiado usar en esta y otras circunstancias será discutida en un artículo posterior. Los ojos del grupo control fueron tratados con un placebo que no tiene efectos en la dilatación pupilar. Al final del experimento los resultados obtenidos se enlistan en la Tabla 1.
repeticiones | grupo \hspace{2mm} control | grupo \hspace{2mm} tratado |
1. | 15 | 30 |
2. | 19 | 27 |
3. | 22 | 26 |
medias | 18.7 | 27.7 |
desv.estan. | 3.51 | 2.08 |
Al examinar el grupo de medias puede observarse que difieren por 9 unidades (ignoremos el signo), lo que sugiere que el efecto del medicamento incrementó el grado de dilatación pupilar. Hay variación, sin embargo, en el grado de dilatación mostrada por lo pacientes individuales que se incluyen en cada grupo. Así, la diferencia entre las medias podría ser atribuída al efecto del medicamento o a la variación aleatoria entre pacientes. Para decidir entre estas dos alternativas, comparamos el efecto del tratamiento \bar{C} – \bar{T} con el grado de variación conjunto de ambos grupos mediante una prueba t. La fórmula para la prueba t, uno de los procedimiento más comúnmente usados en el análisis de datos, es como sigue:
t= \frac{\bar{C} – \bar{T} }{s \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \hspace{20mm}\dots (1)
donde s es un estimado de la desviación estándar basado en ambas muestras conjuntamente y n_1 y n_2 es el número de observaciones dentro de cada grupo. Así, el valor de t es el radio de la diferencia entre las medias y el grado de variación conjunta entre los pacientes de cada grupo. La variación conjunta (el denominador de la ecuación 1) es llamado el error estándar de la diferencia entre dos medias. Sustituyendo los datos de la tabla 1 en la ecuación 1 se tiene un valor de t=3.8. Notemos que este cálculo es similar al que se obtuvo previamente cuando convertimos un valor individual x para que fuera miembro de la distribución normal estándar. En el presente ejemplo, la distribución t es usada en lugar de la distribución normal estándar porque t describe la variación de medias muestrales calculada de un pequeño número de observaciones con más exactitud. Por lo tanto, cuando t es calculada, la diferencia entre las medias \bar{C} – \bar{T} es convertida para que sea miembro de la distribución t. Ahora es necesario analizar la probabilidad de obtener un valor de t de esta magnitud, que pudiera ocurrir por casualidad, digamos mediante muestras aleatorias, de dos grupos de muestras cuando cada una incluye tres observaciones.
Referencia