La situación sobre el Censo que discutíamos en un post anterior tuvo resolución ese mismo día en el sentido de la renuncia del director del INE -con investigación del Ministerio Público. Teniendo director nuevo y habiendo tomando algunas decisiones, uno puede proceder a observar que lo que está pasando con el INE. El domingo apareció una nota en La Tercera sobre el tema y lo que uno puede sacar en limpio es:
- Al parecer la base para realizar ajustes y estimaciones existe y estaría en condiciones adecuadas. Los 15.8 millones de cuestionarios lo permitirían.
- Se revisará cómo se hicieron las estimaciones a partir de la información existente, porque todavía no hay claridad de cómo se hicieron. Por lo menos uno debiera esperar que las estimaciones cambiaran, y hay promesa que lo que es estimado será así claramente mencionado.
En general, el nuevo director parece serio y las medidas de auditoria (interna y externa) también parecen bien encaminadas.
Sin embargo (siempre hay un sin embargo) tenemos lo siguiente:
También está en revisión la cobertura real del último censo y su tasa de omisión, que se situó en torno a 1,5%. Todo indica, señalan Flores y Coeymans, que si se contabilizaron personas estimadas como personas censadas, esa cifra ya no corre. Sobre la noción de que si hubo 800 mil personas estimadas sobre un total de 16.600.000, esa tasa de omisión podría ser más cercana a 5%, no se pronuncian, pero sí manifiestan que sigue siendo “una buena muestra de la población”, muy representativa.
“Una muestra en que se levantó el 95% de la población nos entrega una certeza (de la realidad del país). Esto, porque se puede presumir que ese 5%, la tasa de omisión que no encuestaste, al ser aleatorio, no tiene un comportamiento tan distinto con el resto del 95% de la población censada”, señala Flores (ver entrevista página 6). En el Censo 2002 la tasa de omisión alcanzó el 3,8%.
Lamentablemente no es tan claro. Una tasa del 95% de cobertura suena muy bien, y ¿como podrían estar tan descaminados los datos? Pero precisamente el tema es si la omisión es aleatoria. No es claro que ella lo sea. Y la hipótesis de una no aleatoriedad de la atrición debiera al menos ser tomada en serio.
En el censo, cada casa fue visitada varias veces. Lo mismo que en una encuesta normal, sólo que más acucioso. Ahora, la probabilidad de encontrar a una persona en un hogar no es igual ente todos los hogares. Precisamente por eso se visita varias veces. Ahora, los hogares que no pudieron ser censados a pesar de varias visitas probablemente son distintos -al menos tienen mayor probabilidad que no se encuentre nadie en el hogar. Hogares de una sola persona, o donde todos trabajan, u hogares más jóvenes (presumiblemente más propensos a salir) etc. Bien se sabe en encuestas que hay segmentos que son más difíciles de encontrar que otros.
Lo anterior ocurre bastante menos en un censo de hecho (si es que los patrones de atrición de esos censos son los que están usando y estos se estimaron como no aleatorios). Esto porque la instrucción a la ciudadanía era a no abandonar sus hogares -y eso en general se cumplía. Por lo que incluso un hogar en el que habitualmente no se encuentra persona alguna, de todas formas tenía el día del censo a sus personas presentes.
Tengo la impresión que otras posibles causas de atrición no aleatoria no serían relevantes -pero es sólo una impresión. La dificultad de encontrar el hogar en zonas de difícil acceso, por ejemplo algunas rurales, no sé si sea relevante. A los censistas, al parecer, se les pagaba por día, así que usar todo un día para encontrar una vivienda censada (por ejemplo) no debiera ser mayor problema -y nuevamente si había que visitarla de nuevo. Si las personas de viviendas rurales tienden a estar fuera de sus hogares (en sus labores por ejemplo) eso podría afectar, pero ese era el tema que mencionábamos con anterioridad. Eso sí, es probable que los niveles de atrición no sean homogéneos a lo largo del país, y que a niveles comunales existan varias con atriciones muy superiores.
Otra causa posible es que existan segmentos que tengan una menor disposición a contestar el censo, que se resistan a él (y que por ello no contestaron). Si esto ocurre claramente produce un sesgo, pero no tengo evidencias que eso ocurra. De hecho, la circunstancia que fuera común que los no censados reclamaran hablaría en contra -pero eso tampoco es evidencia concluyente.
En cualquier caso, existe una probabilidad de atrición no completamente aleatoria y debiera ser trabajado.
Más aún, hay dos tipos de procesos de atrición no completamente aleatorios. El primero es atrición aleatoria (missing at random) en la cual la atrición no depende de la variable que estamos midiendo, aun cuando puede depender de otra variable. Supongamos que estamos midiendo desempleo y el hecho de estar desempleado no afecta la atrición, pero podría estar afectada por sexo (los hombres responden menos). Pero como no está asociado a la variable, el sesgo puede ser solucionado por otras formas (digamos ponderación, dado que los hombres que responden son iguales a los que no responden). El segundo es atrición no ignorable, en la cual la probabilidad de la atrición depende de lo que estamos midiendo, y por lo tanto ya no es solucionable con ponderación -sino que se requieren modelamientos más complejos. Ahora en el caso del censo, incluso suponiendo que estamos ante atrición aleatoria (i.e los hombres tienden a responder menos que las mujeres, y recordemos que al parecer habrían 200.000 hombres menos) el ajuste no es sencillo -precisamente porque es el censo el que usamos para calibrar otros datos.
Qué es lo que habría que hacer para detectar y solucionar los posibles sesgos que tenga la atrición del Censo no es algo que con la información que tenemos disponible en la actualidad se pueda determinar. Si podemos plantear, en todo caso, que la realización de un trabajo de campo (ya sea re-encuastaje o derechamente otro estudio) sobre las viviendas habitadas sin moradores podría resultar adecuado.
NOTA. Y este fue el post 300 de este blog. No deja de ser un hito supongo.