MareaVerde: ¿Por qué criticamos la interpretación que se hace del informe PISA?

EL PAÍS.COM: Las tripas del informe

El informe PISA de la OCDE es, sin duda, después de 13 años y cinco ediciones, la más famosa evaluación internacional sobre los resultados escolares de todo el mundo. Casi nadie discute la importancia de una monumental base de datos educativa que contiene todo tipo de información (no solo de los resultados de las pruebas, sino sobre los colegios, los intereses de los estudiantes, los profesores, las familias, los medios materiales…) acerca de cientos de miles de alumnos de 15 años de todo el mundo. En esta última prueba han participado 295.416 jóvenes de 67 países y regiones (por ejemplo, de China participan por separado, Hong Kong y Shanghái). Sin embargo, a medida que aumentaba el éxito de PISA (no hay político que no lo saque a colación para justificar su reforma, como ha hecho el ministro de Educación español, José Ignacio Wert, con su recién aprobada ley educativa), también se han ido acumulando las críticas.

Las hay desde las que simplemente se quejan del uso torticero de sus resultados en forma de ranking de países (algo que desaconsejan los propios responsables de la OCDE) o con lecturas que no reflejan los matices evidentes de unos resultados estadísticos que, por supuesto, tienen margen de error, ni la dificultad de hacer comparables mediante preguntas concretas de un examen tradiciones e historias educativas tan distintas. Pero también las hay que enmiendan la totalidad del informe, pues aseguran que formalmente no está bien hecho (por la selección de las preguntas, o por las fórmulas estadísticas utilizadas), lo cual lo convierte, simplemente, en inservible para lo que pretende: evaluar y comparar los resultados de los sistemas educativos de todo el mundo de tal manera que se pueda saber el impacto de sus políticas y guiar decisiones futuras.

“Existe una literatura académica creciente que dice que se trata de unos resultados simplificados de lo que pretende ser el rendimiento en lectura, matemáticas y ciencias. Hay investigaciones que demuestran que los países no pueden ser clasificados de manera inequívoca a lo largo de una única escala”, escribe el profesor de Estadística Social de la Universidad de Bristol Harvey Goldstein. La OCDE se declara consciente de las limitaciones de PISA, pero defiende que sus métodos son los más adecuados y que siempre los ha hecho públicos con transparencia. “La confianza en la solidez de PISA se basa en el rigor que se aplica a todos los aspectos técnicos del diseño de la encuesta, la ejecución y el análisis, no solo en la naturaleza del modelo estadístico, que se ha desarrollado a través del tiempo y continuará haciéndolo. […] la solidez de la evaluación radica en el rigor de los procedimientos utilizados en el desarrollo, prueba, análisis, revisión y selección”, asegura la página web del informe.

Pero, llegados a este punto, habría empezar por el principio: ¿en qué consiste la prueba y cómo se llega hasta los resultados finales?

Cada país elige una muestra estadísticamente representativa de alumnos de 15 años (da igual que hayan repetido y no estén en el curso que les corresponde; en España, cuarto de ESO); edad a la que en la inmensa mayoría de los países se acaba de terminar o se está a punto de acabar la escolarización básica y obligatoria. A los estudiantes de esa muestra se les hace un examen.

¿Sobre qué? Los responsables del estudio declaran que su objetivo no es descubrir si los alumnos se saben los contenidos de las asignaturas o las áreas de estudio sino evaluar lo que los alumnos saben hacer con lo que han aprendido, es decir, lo que han llamado destrezas en lectura, matemáticas y ciencias. En cada edición (cada tres años desde el 2000), el examen se centra en una de esas competencias, concentrando la mayor parte de las preguntas que contestan los estudiantes. El que se presenta hoy se centra en matemáticas. “Cada encuesta PISA incluye unas siete horas de material de prueba. Después, cada estudiante hace una prueba de dos horas con una combinación de los materiales, diferente para cada estudiante”, explica la web de la OCDE. Aseguran, además, que las preguntas se van expurgando año a año para eliminar aquellas que puedan tener un sesgo cultural o lingüístico que condicione los resultados (cada país, claro, lo hace en su propio idioma). Algunas de las preguntas de las pruebas se publican después (se pueden consultar en inglés aquí), pero no todas, pues hay una serie de cuestiones que se repiten año tras año para que los resultados se puedan comparar.

Los resultados de los alumnos se dividen en escalas de rendimiento, desde el nivel 1, donde están los alumnos que únicamente son capaces de responder bien a preguntas “que solo requieren de las habilidades más básicas para completar”. A medida que aumenta la dificultad de las preguntas que saben responder, sube el nivel hasta el 5. Una vez que la prueba de un estudiante ha sido corregida, su puntuación en la lectura, matemáticas y la ciencia se sitúa en la escala apropiada. Después, “la puntuación de cada país participante es el promedio de todas las calificaciones de los estudiantes en ese país. La puntuación media de los países de la OCDE es de 500 puntos y la desviación estándar es de 100 puntos. Alrededor de dos tercios de los estudiantes en todos los países de la OCDE puntúan entre 400 y 600 puntos”, es decir, que están en la media. No se da una nota combinada de cada país, sino separada en cada una de las áreas. Y advierten en cuanto a losranking: “Las puntuaciones reflejan una pequeña medida de la incertidumbre estadística y, por tanto, solo es posible informar de un rango de posiciones en el que un país puede estar colocado. Por ejemplo, en PISA 2003 se informó ampliamente que Finlandia y Corea del Sur fueron primero y segundo en la prueba, cuando en realidad solo podemos decir que, entre los países de la OCDE, el rango de Finlandia estuvo entre el primero y el tercero, y el de Corea del Sur, entre el primero y cuarto".

Sin embargo, los expertos que critican PISA van mucho más allá de esas limitaciones admitidas por sus responsables. Para empezar, se ponen peros pedagógicos, por la dificultad (o casi imposibilidad) de traducir en preguntas y después en resultados numéricos esa medición de competencias; esta idea la desarrolla el profesor de la Universidad de Wisconsin-Madison Thomas Popkewitz en su trabajo PISA: números, estandarización de la conducta y la alquimia de las materias escolares. Harvey Goldstein asegura, además, que el hecho de tener que eliminar las preguntas que reflejan las diferencias culturales entre países reduce la prueba a “una especie de ‘mínimo común denominador’ cuyo posible uso es muy limitado”. Y añade: “Incluso si uno está preparado para aceptar que estas pruebas son válidas es bastante obvio que algunos países van a hacer mejor que otros por una miríada de razones posibles. Estas incluyen las diferencias culturales, la situación económica, el énfasis en las técnicas para hacer exámenes tanto como las diferencias genuinas en el desempeño del país. Los resultados de PISA o cualquier otra comparación similar no nos dicen prácticamente nada acerca de las causas de las diferencias entre países”.

El catedrático de Sociología de la Complutense Julio Carabaña lleva años señalando en la misma dirección tras analizar los resultados e intentar dar explicación a las diferencias. Los resultados “no apoyan ningún curso de acción determinado, pese a los piadosos esfuerzos de sus autores e intérpretes por apuntalar con sus datos ciertas corrientes pedagógicas", ya que para cada afirmación se puede encontrar un ejemplo que funciona al contrario. "Es problemático juzgar la calidad de un sistema educativo diverso y complicado con una sola evaluación, no importa lo buena que sea. PISA y TIMSS [una prueba de matemáticas y ciencias en primaria] están bien diseñadas y bien implementadas, y proporcionan datos sólidos sobre las habilidades y conocimientos, pero es mucho lo que PISA no evalúa", advierte en un trabajo del año pasado la investigadora del Centro de Estudios Independientes, de Australia, Jennifer Buckingham.

Golstein, además, asegura que PISA sistemáticamente se ha utilizado políticamente para defender una cosa y la contraria: “En el pasado, Finlandia, que ha aparecido siempre en la parte superior de los resultados y siempre por encima de Reino Unido, ha sido presentado como un modelo a seguir: desde la derecha, haciendo hincapié en la 'formalidad' de los contenidos para justificar acercamientos hacia un currículo tradicional; desde la izquierda, señalando el carácter global del sistema finlandés para justificar el restablecimiento comprensividad [que todos los alumnos siguen un camino básicamente único hasta el final de la escuela obligatoria] en Reino Unido”.

Muchos especialistas —por ejemplo, recientemente Richard Rothstein, del Instituto de Política Económica, y Martin Carnoy, de la Universidad de Stanford— han insistido asimismo en que, en realidad, las diferencias entre un enorme grupo de países desarrollados, en general, son muy pequeñas, y son mucho más grandes dentro de los países y, sobre todo, dentro de cada escuela, lo que refuerza la idea de lo poco que pueden decir sus resultados sobre las políticas a seguir. Por ejemplo, frente a las lecturas catastrofistas sobre la mala situación de España, muchos defienden que en realidad están dentro, o muy muy cerca, del gran grupo. “Si se transforman a una escala de estatura los resultados de PISA, el conocimiento medio en la OCDE sería algo así como 180 centímetros, y los chicos españoles medirían en lectura 178,8, no muy lejos de Reino Unido (180,1), Dinamarca (180,2) o Estados Unidos (180,7), según suele ejemplificar el sociólogo de la universidad de La Laguna José Saturnino Martínez.

Pero también hay críticas sobre la propia metodología de la prueba. Mantienen que muchos estudiantes no responden preguntas de las tres áreas que se evalúan: por ejemplo, si el área principal es ciencias, todos se evalúan de esta, pero solo la mitad de matemáticas y la otra mitad de lengua. Y, sin embargo, todos reciben una nota de todas las áreas. ¿Cómo? “Es importante reconocer que PISA es una evaluación a nivel de sistema y el diseño de la prueba se crea con ese objetivo en mente. La evaluación no genera calificaciones de los individuos, sino que calcula los valores plausibles para cada estudiante con el fin de proporcionar magnitudes del sistema”, respondió recientemente la OCDE a la revista británica especializada en educación TES. Lo hace utilizando un modelo estadístico llamado Rasch, por el estudioso que lo inventó.

Con él trabajó durante muchos años el profesor de la Universidad de Copenhague (Dinamarca) Svend Kreiner, que ha asegurado en distintas ocasiones que ese modelo no sirve, no funciona para PISA porque necesitaría que todos los alumnos respondieran exactamente a las mismas preguntas, según el artículo de TES.

La OCDE responde a todo ello: “Las evaluaciones PISA se han diseñado de tal manera que el ajuste perfecto del modelo [matemático] no es necesario para permitir comparaciones sólidas entre los países. PISA tiene como objetivo investigar los aspectos de una materia en la amplitud y la profundidad, y también tiene que seleccionar los elementos adecuados para estudiantes de una amplia gama de contextos geográficos y culturales. […] Cualquier evaluación de las habilidades de las personas, si se trata de un examen de la escuela secundaria, un examen de conducir o una evaluación basada en muestras internacionales como PISA, tendrá cierta incertidumbre ya que los resultados dependen de las tareas que se eligen para la evaluación, de variaciones de las formas en que se aplicó la prueba, el hecho de que la evaluación se basa en muestras o incluso de la disposición de la persona que se examina. Así que el objetivo de PISA no es eliminar la incertidumbre, sino el diseño de instrumentos que permitan comparaciones sólidas de la eficacia de los sistemas educativos”.

Páginas

viernes, 6 de diciembre de 2013

¿Por qué criticamos la interpretación que se hace del informe PISA?

No hay comentarios:

Publicar un comentario