Sobre los malos usos de las pruebas de significación

El preguntar si una diferencia es significativa estadísticamente es una de las operaciones comunes y más recurrentes del análisis en muchos campos, y en específico en sociología. Pensemos en las discusiones existentes sobre si las diferencias entre resultados de encuestas son significativas.

Ahora bien, desde hace varios años se han desarrollado diversas críticas sobre el uso de la idea de significación, y que buena parte de los analistas en realidad no tienen claro que significa una prueba de significación.  En algún sentido, que usamos mal las dichosas pruebas y, luego, generamos mal conocimiento a partir de ese uso.

En estos últimos días, la American Statistical Association (ASA) decidió emitir una declaración formal (en este link) sobre el uso de estas pruebas. Una de las frases puestas al inicio de la declaración muestra un poco lo meramente ritual de mucho de nuestro uso y conocimiento al respecto:

Q: Why do so many colleges and grad schools teach p = .05?
A: Because that’s still what the scientific community and journal editors use.

Q: Why do so many people still use p = 0.05?
A: Because that’s what they were taught in college or grad school.

La definición informal que se da de la prueba de significación no es particularmente clara, pero eso es al parecer una característica común del dichoso parámetro:

Informally, a p-value is the probability under a specified statistical model that a statistical summary of the data (for example, the sample mean difference between two compared groups) would be equal to or more extreme than its observed value

Aunque el autor no es estadístico, una de las mejores y más claras descripciones de lo que implica esta declaración informal es en una entrada en el blog Crookedtimber (link aquí). Se usa el ejemplo de lanzar monedas y te encuentras que te ha salido cara en 5 ocasiones. Ahora bien, la probabilidad de ello sería 1/32 que sería inferior al límite estándar de  p < .05. La idea entonces es que si la moneda es ‘fair’ tendríamos una chance más baja que 1 en 20 a que podrías obtener un resultado equivalente (o mejor) que cinco caras seguidas. El autor de la entrada entonces nos hace las siguientes equivalencias entre esa afirmación en cursiva y el esquema de la ASA:

  • ‘Bajo un modelo estadístico específico’ = si esta moneda es ‘fair’
  • ‘La probabilidad que un resumen estadístico de los datos sea igual o más extremo que’ = la chance es inferior que 1 en 20 a que podrías obtener ese resultado
  • ‘Su valor observado’ = las cinco caras que tuve seguidas

El ejemplo, en todo caso, al mostrarnos más claramente en que consiste la significación estadística, nos muestra también sus límites: Porque de la significación del resultado, de la frase que está en cursiva, a pocos se nos ocurriría obtener como conclusión que la moneda está cargada. Por así decirlo, siguiendo una idea ‘bayesiana’ diríamos que la probabilidad de obtener una resultado significativo igual es mayor que la de tener una moneda cargada. En otras palabras, del rechazo de la hipótesis nula no se sigue nada en relación con la validez de la hipótesis sustantiva.

Citemos a continuación a algunos comentaristas que han enfatizado este último punto:

One of the most important messages is that the p-value cannot tell you if your hypothesis is correct. Instead, it’s the probability of your data given your hypothesis. That sounds tantalizingly similar to “the probability of your hypothesis given your data,” but they’re not the same thing (Christie Aschwanden en FiveThirtyEight.com, link aquí)

Y ahora a Andrew Gelman, que ha sido uno de los críticos más importantes de todo el uso de la significación estadística en la práctica de investigación:

Ultimately the problem is not with p-values but with null-hypothesis significance testing, that parody of falsificationism in which straw-man null hypothesis A is rejected and this is taken as evidence in favor of preferred alternative B (Link aquí)

Gelman continúa enfatizando la diferencia entre las hipótesis estadísticas con respecto a las hipótesis científicas sustantivas. Y que, como ya hemos visto, la prueba de significación no indica sobre la verdad de tu hipótesis. Los principios que establece la declaración de la ASA en ello es claro: Los valores de P indican cuan incompatible son tus resultados dados un modelo estadístico. Pero no miden la probabilidad que tu hipótesis sustantiva sea verdadera, ni tampoco que el proceso que generó el resultado sea al azar. (Principio 2)

Todo lo anterior tiene consecuencias para la investigación: La misma declaración de la ASA nos dice que las conclusiones científicas (o de recomendación de política) no pueden basarse sólo en el hecho que se ha obtenido un ‘resultado significativo’. Y la ASA recuerda algo que es conocido pero suele olvidarse: La significación estadística no es la sustantiva, no indica nada sobre la importancia de la relación declarada significativa.

En la discusión que generó la declaración de la ASA uno de los puntos era, ¿con qué se podría reemplazar entonces los valores de p? Sin embargo, creo que la conclusión de Gelman es más adecuada: Hay que salir de la idea que existe un indicador que establece por sí mismo la validez de un resultado.

Quiero a partir de este último punto hacer algunas observaciones más específicas sobre el tema de los usos de las pruebas de significación en sociología. La discusión que hemos mencionado hasta ahora aplica a múltiples disciplinas, el uso de los valores de p y el límite de p < .05 aparecen en diversos contextos, y en todos ellos re-aparece el tema del mal uso de estos parámetros. Pero creo que en nuestras disciplinas se suman otros elementos que hacen incluso más crítico este mal uso.

El caso es que dada la forma en que a los sociólogos se les enseña estadística, la tentación de reducir todo al simple parámetro del valor de significación es muy alto. Como la estadística se nos enseña como una caja negra, y luego en términos de unos procedimientos a seguir que en realidad no entendemos (¿cuántos sociólogos podrían reconocer la función que produce la distribución normal?), entonces nos es más fácil reducir todos los resultados de un análisis al simple parámetro de la prueba de significación. Que además viene con un criterio ‘claro y definido’: Alguien que no entiende mucho lo que está haciendo de todas formas puede revisar cualquier resultado de cualquier procedimiento y observar si p es menor a 0.05, y luego concluir que hay o no asociación significativa entre tal y tal.

Algunos de los problemas de la sociología en relación con el uso de las pruebas de significación dicen relación con aspectos que, en todo caso, resultan incluso más básicos que los anteriores; y hacen que el mal uso de este parámetro sea incluso más penoso en nuestra disciplina.

El primero de ellos es en torno al uso del umbral del p <.05 como muestra de resultado importante. Ello no es exclusivo de nuestras disciplinas: Uno de los temas que se discute, y que ha sido importante, en generar esta discusión es el uso no reflexionado del umbral de p < .05 como umbral de publicación y de resultados importantes. Ahora bien, como en toda investigación existe un importante grado de libertad en las operaciones (en el tipo de análisis, en el modelo concreto, en el procedimiento, en las variables que se insertan etc.) ‘buscar’ un resultado significativo es una tentación importante. Más aún, podemos recordar que una relación con el mismo grado de fuerza puede ser o no significativa dependiendo del tamaño de la muestra. La presión para publicar genera esta tentación para encontrar algo significativo.

Siendo un asunto general, creo que en sociología esto se refuerza con la aceptación de estándares muy bajos del nivel de efecto. Pensemos en los innumerables artículos publicados con modelos que explican un porcentaje bajo de la varianza: Se publican porque se encuentran efectos significativos estadísticamente, pero en realidad sigo tan desconocedor de la realidad como antes. La libertad de los modelos además tiene otro efecto: Que puedo terminar con un alto número de variables que influyen, dependiendo de cómo realizo el modelo el número de posibles variables que se asocian significativamente puede ser muy alto. Pero en la interpretación y discusión modelos que explican entre un 10% o un 14% se usan como si se estuvieran descubriendo procesos altamente importantes.

Oro elemento que suele afectar las lecturas de la significación, y tengo la impresión que ello es muy común en nuestras disciplinas, es la confusión entre X está asociado con Y con que los X son Y. Pensemos que encontramos que tal grupo (los hombres, las personas de estrato alto, los trabajadores bancarios etc.) tienen una diferencia significativa con respecto a otro grupo en determinada dimensión (digamos, son mayores lectores o más intolerantes o etc). Y de ahí concluimos y actuamos como si los hombres se caracterizaran por la lectoría o la intolerancia o etc, y se publicarán reportajes mostrando como ejemplo paradigmático de los hombres a quienes tienen esa característica. Pero uno revisa los datos y se encuentra con que la diferencia significativa es, por ejemplo, 3 o 4 puntos; y todos los grupos se caracterizan (a grandes rasgos) por la misma distribución entre los valores de la variable. Sólo pudiendo observar diferencias, entonces pasamos a pensar como si las diferencias fueran el valor.

En general, los problemas que hemos mencionado -desde los más sutiles a los más brutos, de los que cruzan a diversas disciplinas hasta los que son comunes, para nuestra vergüenza, en nuestras disciplinas- provienen de una voluntad de alejarse de las complejidades que implica analizar datos. La realidad no se deja asir a través de un sólo instrumento, y menos a través del uso burdo y simplista de reducir todo a la pregunta por el umbral de significación. Para hacer de verdad un análisis estadístico, hay que saber y conocer las herramientas usadas, describir los procesos y las decisiones, y tener claro que no hay un valor mágico que simplifica todas las complejidades de observar la realidad.

Bookmark the permalink.

Agregar un comentario

Su dirección de correo no se hará público. Los campos requeridos están marcados *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.