El día dos de abril de 2013 la
Ministra de Educación presentó los resultados de la Evaluación Censal de
Estudiantes (ECE) 2012, es decir, de la prueba de lectura y matemáticas que se
aplica en segundo grado en todo el país desde 2007.
Hay muchas cosas que comentar al
respecto: uno podría mencionar lo pobres que siguen siendo los resultados o
destacar que se está mejorando poquito a poquito en el promedio nacional aunque
las brechas se han incrementado (lo que, aparentemente, empezaría a estar cambiando),
etc. En un próximo post me referiré a esos temas, hoy quiero
enfocarme en un problema diferente.
¿Han notado que los resultados de
la evaluación censal se presentan usando lo que en estadística se llama error
estándar? Es decir, se presenta resultados que tienen un margen de error
por lo que es necesario indagar si las diferencias son
"significativas", es decir, suficientes para decir que son,
efectivamente, diferencias. Ahora bien, estos errores son clave para un buen
uso de información muestral ya que, efectivamente, una muestra probabilística
bien diseñada representa la situación poblacional pero dentro de determinados
límites de confianza o probabilidad (por ejemplo, una
encuestadora dice que hay un "empate técnico" cuando un candidato
tiene 29% de preferencias y otro 30% -la prueba de significancia justamente
busca indagar si 30 es, con cierto grado de certeza, más que 29).
¿Resultados censales con
errores estándar?
(esto
no deja de recordarme mi examen parcial de Estadística Social II en la
Universidad, cuando la gran profesora que teníamos nos puso información censal
de una manera tal que la mayoría de los estudiantes asumió que era muestral y
procedió, equivocadamente, de acuerdo a esto -gracias Ana)
La explicación de esta situación
radica en que quienes conducen las evaluaciones dentro del Ministerio saben
bien cómo hacerlo. Es decir, tienen muy claro que la evaluación censal no
brinda resultados que se puedan agregar de modo confiable a nivel nacional ya
que: (i) la cobertura censal es diferente en distintas partes del país y se presenta lo que se conoce como "sesgo de selección", (ii) no
hay garantía de que las pruebas se puedan aplicar de modo equivalente en todas
partes, (iii) la información base presenta dificultades para definir el real
universo a medir; entre muchas otras razones. Así, durante la "evaluación
censal" se evalúa también a una "muestra de control" que es de
donde se puede sacar los resultados confiables que se presenta a la comunidad
nacional.
Entonces, cabe preguntarse, si la
información que se usa viene de una muestra ¿para qué tener un censo?
La respuesta a esta pregunta
radica en el origen de la evaluación censal. Esta no se hizo para que podamos
saber cómo vamos a nivel país, o de las regiones, sino para que cada padre de
familia pueda recibir un informe sobre la situación de su hijo en el entendido
que al ver lo mal que están las cosas, éstos tomen un mayor protagonismo y
actúen sobre la escuela y sus docentes para que éstos mejoren. Si bien estas
razones no están claramente expresadas ni documentadas, algunos actores (especialmente
fuera del Ministerio de Educación) lo han tenido siempre muy claro. Es decir,
se buscó establecer un mecanismo de rendición de cuentas que dinamizaría la
vida escolar. Eso no se puede hacer si la prueba no es censal.
Ahora bien, esta decisión tiene
algunos costos: una prueba censal es muy grande y requiere muchos recursos no
sólo financieros, sino también profesionales; conducir una prueba censal hace
que el Ministerio limite su capacidad de explorar otras cosas que cabría
explorar y que la unidad a cargo no puede hacer por la carga de trabajo que
implica una evaluación censal.
Por otro lado, más allá de las
virtudes de medir competencias básicas en grados tempranos, una evaluación
censal en segundo grado limita la información que se puede acopiar: por
ejemplo, hay preguntas que permitirían determinar el nivel socio-económico de
las familias (variable clave para entender los resultados) que no se puede
preguntar a niños de segundo grado.
Es decir, la evaluación censal
sirve para informar a los padres (asumiendo que los informes de resultados efectivamente lleguen a éstos), pero nos limita a todos como comunidad
nacional en términos de la información que se produce. En 2004, antes de la
introducción de la evaluación censal, la evaluación muestral generó mucha más
información la que fue muy útil para entender las cosas. Lamentablemente, entre
entender y transformar hay un trecho muy importante.
Así, la pregunta es ¿cuánto
ganamos con un evento censal? ¿Lo que ganamos compensa lo que perdemos?
En primer lugar, los padres
reciben las libretas de notas de sus hijos, así que debemos suponer que ya
cuentan con información sobre el desempeño de éstos y que lo hacen de modo
regular a lo largo del año escolar. Luego, la información de la evaluación
censal sería redundante y extemporánea. Claro está que uno puede objetar y
decir que las notas en realidad no informan de modo adecuado sobre los
aprendizajes (¿si sólo menos de uno de cada tres niños lee de acuerdo a lo
esperado, cómo así la abrumadora mayoría tiene notas aprobatorias?). Si esto es
así, lo que tenemos es que los docentes evalúan según quién sabe qué criterio, cuando
se supone que deberían evaluar contra los aprendizajes esperados según el
curriculum nacional y los curricula regionales. Entonces, ¿debemos tener una
evaluación censal sólo por que las notas no sirven? Esta no parece ser una
solución muy coherente.
En segundo lugar, tenemos el
propósito por el que se estableció la evaluación censal. No sé si yo me he
perdido de algo estos años que estuve fuera pero, hasta donde tengo entendido,
no hemos presenciado una gran movilización de padres indignados por lo poco que
aprenden sus hijos, ¿o sí? Evidentemente, uno podría argüir que los padres
no tienen capacidad para movilizarse, pero durante estos mismos años hemos
visto que las comunidades se movilizan y, en ocasiones, con mucha vehemencia y
capacidad de presión. Un ejemplo muy claro: Conga. A mí esto me sugiere que hay
capacidad para actuar y presionar, pero que ésta se moviliza únicamente cuando
se trata de algo que le importa a las personas (por cualesquiera sea el
motivo). Esto me permite sugerir una hipótesis general: a la población y a sus
autoridades (por ejemplo en Cajamarca) les preocupa más la minería que si los
niños aprenden a leer o a sumar. Eso sería el caso si, en realidad, se
encuentran satisfechos con la educación que tienen, o porque no les parece que
sea un problema que amerite el esfuerzo que, por ejemplo, Conga si ameritó. Así,
debo imaginar que Conga (u otras casos como éste) es más importante que el
aprendizaje de los niños.
Por otro lado, imaginémonos una
situación en la que efectivamente la evaluación produzca el resultado que
imaginaron quiénes vendieron la idea de tenerla. ¿La movilización de los padres
podría, efectivamente, hacer que los niños aprendan lo que no están aprendiendo?
La respuesta sería afirmativa si la razón por la que no se enseña de modo
efectivo a leer y sumar fuese que los docentes no quieren hacerlo. En ese caso,
un poco de presión los podría “motivar”. Pero, ¿es ése el problema? ¿No será
más bien que hay muchos docentes que o no saben cómo enseñar o sabiendo hacerlo
no cuentan con los medios para hacerlo? La ilusoria e improbable movilización
de padres no va a cambiar esto.
Así, la evaluación censal nos
brinda menos información de la que necesitamos en aras de producir un
resultado que no sólo no se produce (como hemos visto a lo largo de cinco años),
sino que no puede producirse.
¿No es tiempo de reevaluar en
serio si necesitamos una prueba censal?
¿No sería mejor tener –con los
mismos recursos- evaluaciones muestrales que cubran más áreas y en más grados?
¿No cabría tener una evaluación censal cada cierto tiempo, digamos dos o tres
años, con el propósito de identificar escuelas que necesitan ser intervenidas/apoyadas
de modo decidido? ¿cuál es el lugar de las evaluaciones internacionales en este escenario?
Céar, tú que conoces el monstruo por dentro, ¿sabes cómo se financian esas evaluaciones censales? Pareciera que -por alguna u otra razón- el país estuviera "obligado a hacerlas". Sin ser paranoico, ¿hay una agenda global que obliga a que los países "tengan" que hacer estas evaluaciones o podríamos tener una propuesta de evaluaciones más diversificada como la que propones en este artículo?
ResponderEliminarA manera de respuesta hay algunas cosas que podría comentar:
Eliminar1. Unos 150 países del mundo miden los niveles de logro de sus estudiantes.
2. Lo hacen de maneras muy distintas (muestras, censos, exámenes, estudios internacionales, etc.)
3. Usualmente estos esfuerzos son conducidos por el Estado como parte del desarrollo de sus sistemas de información. Hay casos, sin embargo, donde organizaciones civiles llevan las iniciativas (India, Pakistán, etc.)
4. Como se trata de una tarea de los sistemas de información públicos, usualmente se financian con recursos públicos. A fin de cuentas a todos nos interesa saber qué pasa, y a todos nos interesa que las política se defina sobre la base de evidencia relevante. Hay casos en los que se cuenta con financiamiento de cooperación, pero suelen ser financiamiento limitados en magnitud y en el tiempo, ya que se suelen asociar a proyectos específicos.
5. Así, no veo que nadie obligue a nadie a hacer algo. Si hay una tendencia global, es más por la constatación cada vez más clara que ir a la escuela no es sinónimo de aprender y esto preocupa de modo creciente a mucha gente (ver lo que viene haciendo la Learning Metrics Task Force). Claro está que hay algunos que piensan que debería forzarse a los países a hacer algunas cosas, entre ellas medir aprendizajes, pero no son muchas las voces en ese sentido (UNESCO/IIEP publicará en unos meses un volumen que incluye un debate al respecto)
6. La preeminencia en los estudios de las áreas de lectura, matemática y ciencias obedece a varias cosas que van desde que se trata de lo más documentado (se sabe cómo medirlo) hasta discursos instrumentales que piensan que eso es lo único que importa.
7. Hay diversas perspectivas y también diversos intereses. Por ejemplo, los estudios de la OCDE (PISA, PIAAC, IALS) son muy diferentes a los de la IEA (PIRLS, TIMSS, ICCS, etc.).
Personalmente, creo que deberíamos celebrar que el Ministerio peruano tenga la capacidad de conducir estos estudios con seriedad y profesionalismo. Nuestros estudios son robustos y me encantaría ver ese mismo nivel de fortaleza en otras áreas vinculadas a la generación de información. En resumen, yo no veo en eso mucho espacio para pensar en "conspiraciones" (al menos no con relación a la ECE) y sí un bien público que hay que proteger y desarrollar.
César,
ResponderEliminarMuchas gracias por tus esclarecedoras respuestas sobre la medición de los aprendizajes. Con relación a la iniciativa LMTF liderada por Brookings y UNESCO, pues tiene el sello de Brookings :D
Sin embargo, me queda la duda de cómo medirán los subdominios valores sociales y comunitarios, valores civiles o arte creativo. Sin negar que son importantes en la formación de los estudiantes de primaria, el problema con su medición es que tienen muchos elementos subjetivos. Por citar nomás el concepto de arte creativo, ello supone definir qué es arte y creatividad (que será todo un debate) y luego traducir esas definiciones a indicadores. La definición de arte creativo de la p. 24 abarca un abanico bastante grande.
No es casual que en la sección Aprendizaje social y emocional en primaria (pp. 18 del informe completo) se hayan citado más documentos teóricos como enciclopedias o ensayos, en lugar de estudios originales (papers, tesis o trabajos monográficos).
Al ver el marco de trabajo global de dominios de aprendizaje me vino a la mente el comentario de Beatty y Pritchett (2012), citados en el mismo informe: "cualquier objetivo de aprendizaje (...) debería estar basado en su viabilidad, no en ilusiones". Estaremos atentos al segundo informe de la LMTF.
Algo similar pasó con el modelo de compentencias, cuando venía la hora de medir las competencias actitudinales, ya que no había mayor problemas con medir el logro de las competencias conceptuales y procedimentales.
Saludos,
Carlos
Hay muchos esfuerzos de medición de diversos aspectos incluyendo los más "subjetivos" (aunque en realidad los otros aspectos son igualmente "subjetivos" por así decirlo; la idea decimonónica de "objetividad" es insostenible aunque sea absolutamente necesario defender la objetividad y realidad en nuevos t{erminos como lo hace el Realismo Crítico)
ResponderEliminarRespecto de LMTF, no hay forma que a nivel global se plenteen mediciones estandarizadas de muchos temas, tanto por que no es factible hacerlo en el crto plazo, como por que resulta innceesario. Lo importante es que cada país mida las cosas que considera que debe medir, y que globalmente haya un grupo pequeño de elementos que sirva para tener una mirada de conjunto.
Claro, realismo crítico en la línea de Popper y su enfoque sobre la falsación de teorías y las verdades provisionales.
ResponderEliminarCon relación a la propuesta de la LMTF, ahora me queda más clara la propuesta. Imagino que irán avanzando de forma progresiva y que el modelo de estándares globales es más una meta a largo plazo.
Realismo Crítico como en Roy Bhaskar (muy distante de Popper)
Eliminar