Processing math: 81%

LaTex

domingo, 25 de septiembre de 2016

Estadística para optometristas: Cómo detectar errores en la literatura médica.

Este es un resumen del artículo Biostatistics: How to Detect, Correct and Prevent Errors in the Medical Literature escrito por Stanton A. Glantz, PH.D.

Aproximadamente la mitad de los artículos publicados en las revistas médicas que usan métodos estadísticos los usan incorrectamente. Estos errores son tan comunes que el presente sistema de revisión por pares no ha sido capaz de controlarlos. Este artículo intenta ayudar a identificar análisis estadísticos cuestionables.

Los errores en el diseño experimental y el uso incorrecto de las técnicas estadísticas elementales, es especialmente importante en estudios clínicos. Estos errores pueden llevar a los investigadores a reportar un tratamiento o una prueba diagnóstica como de valor estadísticamente demostrado cuando, de hecho, los datos no apoyan esa conclusión.

Los médicos que creen que un tratamiento ha probado ser efectivo, en base a la publicación en una revista acreditada, pueden usarlo para sus pacientes.

Los estudios científicos deben ser diseñados e interpretados correctamente para evitar los costos asociados con los errores: se gasta dinero, se sacrifican animales, y los humanos son puestos en riesgo para recabar datos que no son correctamente interpretados.

La mejor solución a este problema es mejorar la calidad del análisis estadístico en la investigación biomédica. Por mientras, hay algunas reglas de oro que el lector puede usar para detectar errores potenciales y estimar lo que el autor hubiera concluído si las técnicas estadísticas hubieran sido aplicadas a los datos correctamente. Estas son: 1) la diferencia entre la desviación estandar y el error estandar de la media; 2) el significado de p; y 3) errores comunes en el uso de la prueba t y cómo compensarlos.

La diferencia entre la desviación estandar y el error estandar de la media.

Los datos experimentales con frecuencia están resumidos como media, ±SD, SE o SEM. SD se refiere a desviación estandar y SE y SEM a error estandar de la media. Estas dos cantidades no son equivalentes; cuantifican diferentes cosas.

Cuando la variable observada se comporta de manera tal que cualquier observación tiene la misma probabilidad de estar por arriba o por debajo de la media, y más probable de estar cerca de la media que lejos de ella, tiene sentido cuantificar la dispersión de los valores usando la desviación estandar. Bajo estas condiciones, la desviación estandar tiene la propiedad útil de que aproximadamente el 68% de las observaciones estarán dentro de una desviación estandar de la media y aproximadamente el 95% de las observaciones estarán dentro de 2 desviaciones estandar de la media. Esta propiedad hace que la desviación estandar sea una buena manera de resumir la variabilidad en los datos con un solo número.

Por ejemplo, un artículo reportando que la presión sanguínea diastólica (PSD) en adultos saludables es 78±6mmHg(mean±SD), implica que aproximadamente el 95% de todos los adultos saludables tienen una presión sanguínea diastólica en un intervalo de 2×6mmHg=12mmHg alrededor de 78 mmHg, es decir, 66-90 mmHg.

La “regla de las 2 SD” es una buena regla de oro. Cuando es igualmente probable para las observaciones, estar por arriba o por debajo de la media y más probable estar cerca que lejos de la media, alrededor del 95% de ellas estará dentro de 2 desviaciones estandar a cada lado de la media.

Si un autor reporta el error estandar de la media y el tamaño de muestra, un lector puede calcular la SD usando la fórmula SD = SEM \times \sqrt{tamaño - muestra}

La confusión entre el error estándar de la media con la desviación estándar puede ser engañosa. Por ejemplo, si un artículo reporta que la PSD en 9 adultos saludables fué 78 ± 2 mmHg (mean ± SEM). ¿Cuál es el rango de presión diastólica que debería incluir aproximadamente el 95% de las observaciones? El error estandar de la media es 2 y el tamaño de muestra es 9, así que la SD=2\times 3mmHg=6 mmHg. La respuesta es 66-90 mmHg, como antes. Pero aplicar la “regla de las 2SD” con el error estandar de la media estimaría este rango en 74-82 mmHg, que es 16mmHg más angosto.

En un experimento un investigador raramente estudia todos los posibles miembros de una población, sino solo una pequeña muestra representativa. El valor medio calculado a partir de esa muestra es un estimado del valor medio real que sería calculado si fuera posible observar a todos los miembros de la población.

Debido a que la muestra usada para calcular la media consiste en individuos extraídos al azar de la población estudiada, no hay nada especial acerca de esta muestra o su media. En particular, habiendo podido tomar una muestra diferente se pudo obtener otra media. En cada caso se tiene una media y cada una de estas medias muestrales es un estimado de la verdadera media poblacional.

En teoría, uno podría calcular las medias de todas las posibles muestras conteniendo el número de observaciones que el investigador decida examinar. En general, cada una de estas medias muestrales será diferente de las otras, pero todas se agruparán alrededor del valor medio verdadero que sería calculado si fuera posible observar a todos los miembros de la población. La desviación estandar de todas las posibles medias muestrales es el error estandar de la media.

Así que el error estandar de la media no cuantifica la variabilidad de las observaciones, como lo hace la SD, sino la precisión con la cual una media muestral estima la media poblacional. Debido a que el error estandar de la media es la desviación estandar del conjunto de todas las posibles medias muestrales, podemos aplicar la “regla de las 2SD” para poder afirmar: hay aproximadamente un 95% de probabilidad de que la verdadera media de la problación de la cual se extrajo la muestra esté dentro de dos errores estandar del promedio de las medias muestrales. Esto es, el error estandar de la media cuantifica la certeza con la cual uno puede estimar la verdadera media poblacional a partir de una muestra.

Regresando al ejemplo de la PSD, la muestra de nueve adultos saludables le permite al lector tener un 95% de confianza de que la media de la PSD de todos los adultos saludables está en 74-82 mmHg. Mientras que este hecho es con frecuencia de interés, nada dice acerca de la variabilidad de los datos. La SD contiene esta información. Así, la desviación estandar y no el error estandar de la media, debería ser usado para resumir los datos.

El significado de p.

Además de resumir los datos, las técnicas estadísticas permiten a los investigadores probar si sus observaciones son consistentes con sus hipótesis. El resultado de tales procedimientos es llamado nivel de significancia o p-valor.

Para entender lo que significa p se requiere entender la lógica de la prueba de hipótesis estadística.

Por ejemplo, supongamos que un investigador quiere probar si un medicamento altera la agudeza visual. El experimento obvio es seleccionar dos grupos de personas similares, administrar un placebo a un grupo y el medicamento al otro, medir la agudeza visual en ambos grupos, entonces calcular la media y la desviación estandar de las agudezas visuales medidas en cada grupo. La respuesta media de los dos grupos probablemente será diferente, independientemente si el fármaco tiene un efecto, por la misma razón que diferentes muestras aleatorias tomadas de la misma población producen diferentes estimados de la media. Por lo tanto, la cuestión se vuelve: ¿la diferencia en la agueza visual media en los dos grupos se debe a una variación aleatoria o se debe al fármaco?

Para contestar, los estadísticos primero cuantifican la diferencia observada entre las dos muestras con un simple número llamado estadístico de prueba, tal como t. Mientras más grande la diferencia entre las muestras, más grande el valor del estadístico de prueba. Si la droga no tiene efecto, el estadístico de prueba será un número pequeño. Pero ¿qué es “pequeño”?

Para encontrar la frontera entre valor “pequeño” y “grande” del mejor estadístico, los estadísticos asumen que el fármaco no afecta la agudeza visual. Si esta suposición es correcta, los dos grupos de personas son simples muestras aleatorias de una sola población, donde todos reciben un placebo (porque el fármaco es en efecto un placebo). En teoría, el estadístico repite el experimento, usando todas las posibles muestras de personas, y calcula el estadístico de prueba para cada experimento hipotético. Así como la variación aleatoria produce diferentes valores de las medias de diferentes muestras, este procedimiento dará lugar a una gama de valores del estadístico de prueba. La mayoría de esos valores será relativamente pequeño, pero la pura mala suerte requiere que existan algunas muestras que no son representativas de la población. Estas muestras producirán valores relativamente grandes del estadístico de prueba, aún si el fármaco no tiene efecto. Este ejercicio produce solo algunos valores del estadístico de prueba, por decir 5% de ellos, arriba del punto de corte.

El estadístico de prueba es “grande” si es más grande que este punto de corte. Hay tablas que contienen los valores de estos puntos de corte en la mayoría de los libros de estadística. Habiendo determinado este punto de corte, realizamos un experimento en un fármaco con propiedades desconocidas y calculamos el estadístico de prueba. Es “grande”. Por lo tanto concluímos que hay menos del 5% de probabilidad de observar los datos que lleven a calcular el valor del estadístico de prueba si la suposición de que el fármaco no tiene efecto fuera verdadera.

Tradicionalmente, cuando las probabilidades de observar el estadístico de prueba calculado si la intervención no tiene efecto son de menos de 5%, uno rechaza la hipótesis de trabajo de que el fármaco no tiene efecto y afirma que el fármaco tiene un efecto. Existe, por supuesto, alrededor del 5% de probabilidad de que esta afirmación esté equivocada. Este 5% es el “p-valor” o “nivel de significancia”.

Precisamente el p-valor es la probabilidad de obtener un valor del estadístico de prueba tan grande o más grande que el calculado de los datos cuando en realidad no hay diferencias entre los diferentes tratamientos. En otras palabras, el p-valor es la probabilidad de estar equivocado cuando se asegura que existe una diferencia verdadera. Si uno asegura que hay diferencia cuando p< 0.05, uno acepta el hecho de que, a largo plazo, afirmar que hay una diferencia, será un error una de cada 20 veces.

Comúnmente se cree que el p-valor es la probabilidad de cometer un error. Obviamente hay dos maneras en que un investigador puede llegar a conclusiones equivocadas en base a los datos: puede reportar que el tratamiento tiene un efecto cuando en realidad no lo tiene, o puede reportar que el tratamiento no tiene un efecto cuando en realidad sí lo tiene. El p-valor solo cuantifica la probabilidad de cometer el error del primer tipo (error tipo I) concluyendo erróneamente que el tratamiento tiene un efecto cuando en realidad no lo tiene. Esto no da información acerca de la probabilidad de cometer el segundo tipo de error (error tipo II) concluyendo que el tratamiento no tiene efecto cuando en realidad sí tiene.

Errores comunes en el uso de la prueba t y cómo compensarlos.

La prueba t es usada para calcular la probabilidad de estar equivocado (el p-valor) cuando se asegura que la media de los valores de dos tratamientos es diferente. Puede probarse la hipótesis de que un fármaco no tiene efectos en la presión intraocular. La prueba t también es amplia pero erróneamente usada para probar diferencias entre más de dos grupos comparando todos los posibles pares de medias con pruebas t.

Por ejemplo, supongamos que un investigador mide la presión intraocular bajo una condición de control, en presencia del fármaco A y en presencia del fármaco B. Es común realizar 3 pruebas t en estos datos: una para comparar controles vs fármaco A, una para comparar controles vs fármaco B, y otra para comparar fármaco A vs fármaco B.

Esta práctica es incorrecta porque la verdadera probabilidad de concluir erróneamente que el fármaco afecta la presión intraocular más allá del nivel normal, digamos 5%, se utiliza cuando se busca el valor de corte "grande" del estadístico t en una tabla.

Para entender esto, reconsideremos el experimento descrito en el último párrafo. Si el valor del estadístico t calculado en una de las tres comparaciones descritas está en el 5% de los valores más extremos que ocurrirían si el fármaco realmente no tuviera efecto, rechazaremos la suposición y aseguraremos que el fármaco cambió la presión intraocular. Estaremos satisfechos si p<0.05, y estamos dispuestos a aceptar el hecho de que una declaración en 20 estará equivocada.

Por lo tanto cuando probamos control vs fármaco A, podemos afirmar erróneamente que existe una diferencia el 5% de las veces. Similarmente, cuando probamos control vs fármaco B, podemos erróneamente afirmar que tenemos una diferencia 5% de las veces, y cuando probamos fármaco A vs fármaco B, podemos erróneamente afirmar que hay una diferencia el 5% de las veces. Por lo tanto, cuando se consideran las tres pruebas como un grupo, esperamos concluir que al menos un par de los grupos difiere alrededor de 5%+5%+5%=15% de las veces, incluso si los fármacos no afectan la presión intraocular.

En general, simplemente sumando los p valores obtenidos en múltiples pruebas se produce un estimado realista y conservador del verdadero p-valor para el conjunto de comparaciones.

Terminamos la discusión de la prueba t con tres reglas de oro:

  1. La prueba t debería ser usada para probar la hipótesis de que las medias de dos grupos no son diferentes.
  2. Cuando el diseño experimental incluye múltiples grupos, deberían ser usadas otras pruebas, como el análisis de varianza o la generalización multigrupo de la prueba t.
  3. Cuando la prueba t es usada para probar diferencias entre múltiples grupos, el lector puede estimar el verdadero p-valor multiplicando el p-valor reportado por el número de posibles pruebas t.

En el ejemplo anterior hubo tres pruebas t, así que un p-valor efectivo era alrededor de 3X0.05=0.15, o 15%. Cuando comparamos cuatro grupos hay seis posibles pruebas t (1vs2, 1vs3, 1vs4, 2vs3, 2vs4, 3vs4); así, si el autor concluye que hay una diferencia y reporta p < 0.05, el p-valor efectivo es alrededor de 6X0.05=0.30; hay alrededor de 30% de probabilidad de hacer al menos una afirmación incorrecta si se concluye que el tratamiento tiene un efecto.

Estas reglas de oro pueden ayudar a los lectores a detectar y corregir el uso equivocado de la estadística. Obviamente sería mejor mantener esos errores fuera de las publicaciones o, aún mejor, corregirlos durante la investigación.

¿Cómo pueden prevenirse estos errores?

Primero, los editores de las revistas deberían insistir en que se usen correctamente los métodos estadísticos. Segundo, los comités de investigación no deberían aprobar experimentos si el estudio propuesto está diseñado pobremente o los datos resultantes no serán analizados correctamente. Estas dos acciones obligarán a los investigadores médicos a aprender la suficiente estadística elemental para diseñar sus experimentos y analizar sus datos correctamente, y reconocer casos que requieran ayuda de un estadístico profesional.

Esto no es un llamado a que los clínicos se vuelvan estadísticos. Prácticamente todos los errores en cuestión tienen que ver con el mal uso del material discutido en la mayoría de los libros de texto introductorios de estadística. El rechazo de un artículo debería motivar a los investigadores a aprender estadística elemental.

Referencia

Foto de SuriSul

No hay comentarios: