19 abril, 2013

A propósito de la ECE 2012


El día dos de abril de 2013 la Ministra de Educación presentó los resultados de la Evaluación Censal de Estudiantes (ECE) 2012, es decir, de la prueba de lectura y matemáticas que se aplica en segundo grado en todo el país desde 2007.

Hay muchas cosas que comentar al respecto: uno podría mencionar lo pobres que siguen siendo los resultados o destacar que se está mejorando poquito a poquito en el promedio nacional aunque las brechas se han incrementado (lo que, aparentemente, empezaría a estar cambiando), etc. En un próximo post me referiré a esos temas, hoy quiero enfocarme en un problema diferente.

¿Han notado que los resultados de la evaluación censal se presentan usando lo que en estadística se llama error estándar? Es decir, se presenta resultados que tienen un margen de error por lo que es necesario indagar si las diferencias son "significativas", es decir, suficientes para decir que son, efectivamente, diferencias. Ahora bien, estos errores son clave para un buen uso de información muestral ya que, efectivamente, una muestra probabilística bien diseñada representa la situación poblacional pero dentro de determinados límites de confianza o probabilidad (por ejemplo, una encuestadora dice que hay un "empate técnico" cuando un candidato tiene 29% de preferencias y otro 30% -la prueba de significancia justamente busca indagar si 30 es, con cierto grado de certeza, más que 29).

¿Resultados censales con errores estándar?
(esto no deja de recordarme mi examen parcial de Estadística Social II en la Universidad, cuando la gran profesora que teníamos nos puso información censal de una manera tal que la mayoría de los estudiantes asumió que era muestral y procedió, equivocadamente, de acuerdo a esto -gracias Ana) 

La explicación de esta situación radica en que quienes conducen las evaluaciones dentro del Ministerio saben bien cómo hacerlo. Es decir, tienen muy claro que la evaluación censal no brinda resultados que se puedan agregar de modo confiable a nivel nacional ya que: (i) la cobertura censal es diferente en distintas partes del país y se presenta lo que se conoce como "sesgo de selección", (ii) no hay garantía de que las pruebas se puedan aplicar de modo equivalente en todas partes, (iii) la información base presenta dificultades para definir el real universo a medir; entre muchas otras razones. Así, durante la "evaluación censal" se evalúa también a una "muestra de control" que es de donde se puede sacar los resultados confiables que se presenta a la comunidad nacional.

Entonces, cabe preguntarse, si la información que se usa viene de una muestra ¿para qué tener un censo?

La respuesta a esta pregunta radica en el origen de la evaluación censal. Esta no se hizo para que podamos saber cómo vamos a nivel país, o de las regiones, sino para que cada padre de familia pueda recibir un informe sobre la situación de su hijo en el entendido que al ver lo mal que están las cosas, éstos tomen un mayor protagonismo y actúen sobre la escuela y sus docentes para que éstos mejoren. Si bien estas razones no están claramente expresadas ni documentadas, algunos actores (especialmente fuera del Ministerio de Educación) lo han tenido siempre muy claro. Es decir, se buscó establecer un mecanismo de rendición de cuentas que dinamizaría la vida escolar. Eso no se puede hacer si la prueba no es censal.

Ahora bien, esta decisión tiene algunos costos: una prueba censal es muy grande y requiere muchos recursos no sólo financieros, sino también profesionales; conducir una prueba censal hace que el Ministerio limite su capacidad de explorar otras cosas que cabría explorar y que la unidad a cargo no puede hacer por la carga de trabajo que implica una evaluación censal.

Por otro lado, más allá de las virtudes de medir competencias básicas en grados tempranos, una evaluación censal en segundo grado limita la información que se puede acopiar: por ejemplo, hay preguntas que permitirían determinar el nivel socio-económico de las familias (variable clave para entender los resultados) que no se puede preguntar a niños de segundo grado.

Es decir, la evaluación censal sirve para informar a los padres (asumiendo que los informes de resultados efectivamente lleguen a éstos), pero nos limita a todos como comunidad nacional en términos de la información que se produce. En 2004, antes de la introducción de la evaluación censal, la evaluación muestral generó mucha más información la que fue muy útil para entender las cosas. Lamentablemente, entre entender y transformar hay un trecho muy importante.

Así, la pregunta es ¿cuánto ganamos con un evento censal? ¿Lo que ganamos compensa lo que perdemos?

En primer lugar, los padres reciben las libretas de notas de sus hijos, así que debemos suponer que ya cuentan con información sobre el desempeño de éstos y que lo hacen de modo regular a lo largo del año escolar. Luego, la información de la evaluación censal sería redundante y extemporánea. Claro está que uno puede objetar y decir que las notas en realidad no informan de modo adecuado sobre los aprendizajes (¿si sólo menos de uno de cada tres niños lee de acuerdo a lo esperado, cómo así la abrumadora mayoría tiene notas aprobatorias?). Si esto es así, lo que tenemos es que los docentes evalúan según quién sabe qué criterio, cuando se supone que deberían evaluar contra los aprendizajes esperados según el curriculum nacional y los curricula regionales. Entonces, ¿debemos tener una evaluación censal sólo por que las notas no sirven? Esta no parece ser una solución muy coherente.

En segundo lugar, tenemos el propósito por el que se estableció la evaluación censal. No sé si yo me he perdido de algo estos años que estuve fuera pero, hasta donde tengo entendido, no hemos presenciado una gran movilización de padres indignados por lo poco que aprenden sus hijos, ¿o sí? Evidentemente, uno podría argüir que los padres no tienen capacidad para movilizarse, pero durante estos mismos años hemos visto que las comunidades se movilizan y, en ocasiones, con mucha vehemencia y capacidad de presión. Un ejemplo muy claro: Conga. A mí esto me sugiere que hay capacidad para actuar y presionar, pero que ésta se moviliza únicamente cuando se trata de algo que le importa a las personas (por cualesquiera sea el motivo). Esto me permite sugerir una hipótesis general: a la población y a sus autoridades (por ejemplo en Cajamarca) les preocupa más la minería que si los niños aprenden a leer o a sumar. Eso sería el caso si, en realidad, se encuentran satisfechos con la educación que tienen, o porque no les parece que sea un problema que amerite el esfuerzo que, por ejemplo, Conga si ameritó. Así, debo imaginar que Conga (u otras casos como éste) es más importante que el aprendizaje de los niños.

Por otro lado, imaginémonos una situación en la que efectivamente la evaluación produzca el resultado que imaginaron quiénes vendieron la idea de tenerla. ¿La movilización de los padres podría, efectivamente, hacer que los niños aprendan lo que no están aprendiendo? La respuesta sería afirmativa si la razón por la que no se enseña de modo efectivo a leer y sumar fuese que los docentes no quieren hacerlo. En ese caso, un poco de presión los podría “motivar”. Pero, ¿es ése el problema? ¿No será más bien que hay muchos docentes que o no saben cómo enseñar o sabiendo hacerlo no cuentan con los medios para hacerlo? La ilusoria e improbable movilización de padres no va a cambiar esto.

Así, la evaluación censal nos brinda menos información de la que necesitamos en aras de producir un resultado que no sólo no se produce (como hemos visto a lo largo de cinco años), sino que no puede producirse.

¿No es tiempo de reevaluar en serio si necesitamos una prueba censal?
¿No sería mejor tener –con los mismos recursos- evaluaciones muestrales que cubran más áreas y en más grados? ¿No cabría tener una evaluación censal cada cierto tiempo, digamos dos o tres años, con el propósito de identificar escuelas que necesitan ser intervenidas/apoyadas de modo decidido? ¿cuál es el lugar de las evaluaciones internacionales en este escenario?

6 comentarios:

  1. Céar, tú que conoces el monstruo por dentro, ¿sabes cómo se financian esas evaluaciones censales? Pareciera que -por alguna u otra razón- el país estuviera "obligado a hacerlas". Sin ser paranoico, ¿hay una agenda global que obliga a que los países "tengan" que hacer estas evaluaciones o podríamos tener una propuesta de evaluaciones más diversificada como la que propones en este artículo?

    ResponderEliminar
    Respuestas
    1. A manera de respuesta hay algunas cosas que podría comentar:

      1. Unos 150 países del mundo miden los niveles de logro de sus estudiantes.

      2. Lo hacen de maneras muy distintas (muestras, censos, exámenes, estudios internacionales, etc.)

      3. Usualmente estos esfuerzos son conducidos por el Estado como parte del desarrollo de sus sistemas de información. Hay casos, sin embargo, donde organizaciones civiles llevan las iniciativas (India, Pakistán, etc.)

      4. Como se trata de una tarea de los sistemas de información públicos, usualmente se financian con recursos públicos. A fin de cuentas a todos nos interesa saber qué pasa, y a todos nos interesa que las política se defina sobre la base de evidencia relevante. Hay casos en los que se cuenta con financiamiento de cooperación, pero suelen ser financiamiento limitados en magnitud y en el tiempo, ya que se suelen asociar a proyectos específicos.
      
5. Así, no veo que nadie obligue a nadie a hacer algo. Si hay una tendencia global, es más por la constatación cada vez más clara que ir a la escuela no es sinónimo de aprender y esto preocupa de modo creciente a mucha gente (ver lo que viene haciendo la Learning Metrics Task Force). Claro está que hay algunos que piensan que debería forzarse a los países a hacer algunas cosas, entre ellas medir aprendizajes, pero no son muchas las voces en ese sentido (UNESCO/IIEP publicará en unos meses un volumen que incluye un debate al respecto)

      6. La preeminencia en los estudios de las áreas de lectura, matemática y ciencias obedece a varias cosas que van desde que se trata de lo más documentado (se sabe cómo medirlo) hasta discursos instrumentales que piensan que eso es lo único que importa.

      7. Hay diversas perspectivas y también diversos intereses. Por ejemplo, los estudios de la OCDE (PISA, PIAAC, IALS) son muy diferentes a los de la IEA (PIRLS, TIMSS, ICCS, etc.).


      Personalmente, creo que deberíamos celebrar que el Ministerio peruano tenga la capacidad de conducir estos estudios con seriedad y profesionalismo. Nuestros estudios son robustos y me encantaría ver ese mismo nivel de fortaleza en otras áreas vinculadas a la generación de información. 
En resumen, yo no veo en eso mucho espacio para pensar en "conspiraciones" (al menos no con relación a la ECE) y sí un bien público que hay que proteger y desarrollar.

      Eliminar
  2. César,

    Muchas gracias por tus esclarecedoras respuestas sobre la medición de los aprendizajes. Con relación a la iniciativa LMTF liderada por Brookings y UNESCO, pues tiene el sello de Brookings :D

    Sin embargo, me queda la duda de cómo medirán los subdominios valores sociales y comunitarios, valores civiles o arte creativo. Sin negar que son importantes en la formación de los estudiantes de primaria, el problema con su medición es que tienen muchos elementos subjetivos. Por citar nomás el concepto de arte creativo, ello supone definir qué es arte y creatividad (que será todo un debate) y luego traducir esas definiciones a indicadores. La definición de arte creativo de la p. 24 abarca un abanico bastante grande.

    No es casual que en la sección Aprendizaje social y emocional en primaria (pp. 18 del informe completo) se hayan citado más documentos teóricos como enciclopedias o ensayos, en lugar de estudios originales (papers, tesis o trabajos monográficos).

    Al ver el marco de trabajo global de dominios de aprendizaje me vino a la mente el comentario de Beatty y Pritchett (2012), citados en el mismo informe: "cualquier objetivo de aprendizaje (...) debería estar basado en su viabilidad, no en ilusiones". Estaremos atentos al segundo informe de la LMTF.

    Algo similar pasó con el modelo de compentencias, cuando venía la hora de medir las competencias actitudinales, ya que no había mayor problemas con medir el logro de las competencias conceptuales y procedimentales.

    Saludos,

    Carlos

    ResponderEliminar
  3. Hay muchos esfuerzos de medición de diversos aspectos incluyendo los más "subjetivos" (aunque en realidad los otros aspectos son igualmente "subjetivos" por así decirlo; la idea decimonónica de "objetividad" es insostenible aunque sea absolutamente necesario defender la objetividad y realidad en nuevos t{erminos como lo hace el Realismo Crítico)
    Respecto de LMTF, no hay forma que a nivel global se plenteen mediciones estandarizadas de muchos temas, tanto por que no es factible hacerlo en el crto plazo, como por que resulta innceesario. Lo importante es que cada país mida las cosas que considera que debe medir, y que globalmente haya un grupo pequeño de elementos que sirva para tener una mirada de conjunto.

    ResponderEliminar
  4. Claro, realismo crítico en la línea de Popper y su enfoque sobre la falsación de teorías y las verdades provisionales.

    Con relación a la propuesta de la LMTF, ahora me queda más clara la propuesta. Imagino que irán avanzando de forma progresiva y que el modelo de estándares globales es más una meta a largo plazo.

    ResponderEliminar
    Respuestas
    1. Realismo Crítico como en Roy Bhaskar (muy distante de Popper)

      Eliminar