Hace poco tiempo atrás se publicó un artículo de Salganik et al (creo que antes había circulado un preprint, al menos había escuchado del resultado anteriormente) cuyo resultado central es que diversos equipos de investigadores, usando diversas herramientas de machine-learning, intentaron predecir resultados de la historia de vida de personas que habían sido estudiadas a lo largo de un estudio longitudinal. El link al paper publlicado en PNAS, titulado Measuring the predictability of life outcomes with a scientific mass collaboration aquí (PNAS, 2020 117 (15) 8398-8403).
Los datos provienen del Fragile Families and Child Wellbeing Study que sigue a personas nacidas en el año 2000 en diversas olas (edad 1, 3, 5, 9 y 15). El ejercicio era entregar a investigadores los datos de las primeras olas pero no la de la ola de 15 años, y el objetivo era predecir el resultado en esa edad de seis variables: “(1) child grade point average (GPA), 2) child grit, 3) household eviction, 4) household material hardship, 5) primary caregiver layoff, and 6) primary caregiver participation in job training”. Las variables son de distinto tipo así que era un desafío interesante. Además de los datos base de las olas iniciales, para entrenar sus algoritmos tenían acceso a la mitad de los datos de la ola de 15 años.
En general, los resultados no fueron muy buenos. La medida principal tiene valor 1 máximo y sin mínimo, pero con 0 indicando una predicción no mejor que simplemente asignar el promedio. Dicha medida alcanzó un 0,2 en los mejores casos (el resultado educacional, GPA, y dificultades materiales) y 0,05 -o sea, en realidad no mejor que asignar el promedio- en el resto. Los autores del artículo comentan, de hecho, que aunque los diversos equipos de investigadores usaron herramientas y algoritmos distintos, tendieron a predecir lo mismo, de forma tal que eran bastante buenos para predecir lo que otros equipos predecerían.
En Twitter, Nicholas A. Christakis comentó lo siguiente (link aquí):
La pregunta es, entonces, la siguiente: ¿Qué nos dice sobre el proyecto de las ciencias sociales estos resultados? ¿Es un resultado realmente perturbador?
Uno puede observar (y se hizo en la discusión en Twitter or Eric Hendriks) que en realidad el tema de las ciencias sociales no es la predicción de eventos individuales. Pero si las predicciones individuales son tan problemáticas bien se puede plantear que cualquier predicción agregada no tiene mayor sentido.
Cuando se revisa el estudio aparece un dato interesante. El artículo muestra los casos se pueden dividir en casos relativamente bien predichos y otros donde las predicciones tendieron a fracasar. Y ello tiene una estructura: Los casos bien predichos son casos cercanos a la media, los casos de difícil predicción son alejados a la media.
Y aquí volvemos entonces al carácter de la ciencia social. Si lo que se quiere es explicar tendencias en el agregado, y uno supondría que eso es el objetivo de una ciencia social, entonces ese tipo de resultados ya es informativo: puesto que ya sirve para establecer relaciones a ese nivel. Para lo que no sirve, claramente, es para predecir casos individuales, y en particular aquellos que se salen de la media, pero si los casos ‘promedio’ son bien predichos entonces sirven para los propósitos de la ciencia social.
Lo cual, por cierto, nos recuerda cuáles son los límites y características de las ciencias sociales. Ellas pueden (de hecho, así ha sucedido) establecer y comprender procesos y dinámicas, y determinar relaciones generales al nivel de los agregados sociales (‘en tales circunstancias es más probable que ocurra una revolución’ o ‘en general, tener tal nivel educacional está asociado a tales resultados’). Pero no para la predicción de resultados específicos, y menos individuales.
Más aún, diría que ello no es una ‘limitación’ o un ‘problema’ a resolver -eso proviene de características basales de lo que es la vida social. Es porque la vida social opera de la forma que lo hace que ocurre que su predecibilidad es siempre lejana. Y hay toda una ciencia social para comprender y dar cuenta de, precisamente, esa impredecibilidad.