Los límites de la evaluación

Los avances tecnológicos, comandados por la omnipresente inteligencia artificial, están poniendo a prueba los sistemas que usamos para evaluar el conocimiento. Frente a esto, la preocupación inmediata suele centrarse en la trampa y el tramposo. Pero, quizás, el problema está más en el tipo de prueba y en por qué tantas actividades escolares pueden resolverse hoy en segundos sin que eso altere demasiado el resultado esperado. La inteligencia artificial no solo está cambiando la forma de estudiar. Está obligando a revisar qué tipo de pruebas considerábamos, hasta ahora, evidencia suficiente de aprendizaje.

Los límites de la evaluación

La tarea ya no demuestra lo que demostraba

Una estudiante entrega un comentario de texto impecable. El argumento está bien construido, las ideas aparecen ordenadas, no hay faltas de ortografía y las referencias son correctas. Hace apenas tres años, muchos docentes habrían interpretado ese trabajo como una evidencia razonable de comprensión lectora, capacidad de síntesis y dominio de la redacción. Hoy la reacción suele ser distinta. Enarcamiento de cejas y una sospecha: cuánto ha intervenido una inteligencia artificial en el proceso.

La escena empieza a repetirse en escuelas y universidades de todo el mundo. Redacciones, resúmenes, ejercicios, trabajos para casa o incluso proyectos completos pueden producirse hoy en cuestión de segundos con herramientas generativas cada vez más accesibles. Y eso está alterando algo más que la forma de hacer tareas. Está debilitando una de las ideas sobre las que descansó durante décadas buena parte de la evaluación escolar: que producir una respuesta compleja equivalía, más o menos, a haber aprendido algo en el proceso.

Evaluación e IAEl nuevo informe ODITE 2026, Claves para una nueva educación. Tendencias, retos y propuestas en la era de la IA, editado por el Observatorio de Innovación Educativa y Cultura Digital, identifica la evaluación como uno de los espacios donde el impacto de la inteligencia artificial resulta más palpable.

A partir de cuestionarios a alumnado y profesorado, entrevistas a expertos y experiencias de aula, el documento muestra hasta qué punto la llegada de herramientas generativas está obligando a revisar las formas tradicionales de comprobar el aprendizaje. No solo porque resulte cada vez más difícil distinguir entre trabajo propio y automatizado, sino porque empieza a cuestionarse el valor de algunas tareas que la escuela utilizó durante años como prueba de conocimiento.

El problema, en otras palabras, ya no se limita a detectar trampas. Si una máquina puede redactar un texto más que aceptable, resumir información o resolver determinados ejercicios sin comprender nada de lo que produce, quizá deberíamos preguntarnos hasta qué punto esas actividades siguen midiendo comprensión, razonamiento o capacidad de elaborar ideas propias.

A lo largo de este artículo veremos cómo la inteligencia artificial está obligando a replantear la relación entre evaluación y aprendizaje, por qué muchos de los problemas actuales existían antes de ChatGPT y qué tensiones empiezan a emerger alrededor del esfuerzo cognitivo, la automatización y el propio significado de aprender.

Evaluar procesos no solo productos

La inteligencia artificial ha puesto de manifiesto los problemas de la evaluación, pero muchas de las dificultades que hoy preocupan a escuelas y universidades existían antes de la aparición de ChatGPT. Durante mucho tiempo, buena parte de los sistemas educativos funcionaron con la siguiente lógica evaluadora: pedir a los estudiantes que produjeran algo (una redacción, un examen, un comentario de texto, una presentación) y utilizar ese resultado como evidencia indirecta de comprensión. El producto final importaba porque permitía inferir el proceso.

Al reflexionar sobre el impacto de la inteligencia artificial en las aulas, los codirectores del Observatorio, Juanmi Muñoz y Xavier Suñé, lanzan una pregunta muy concreta: “Si las tareas que pedimos pueden hacerse con un clic, quizás es el momento de preguntarnos si esas tareas merecían antes el esfuerzo que exigíamos”. Esto es: la IA no solo obliga a replantear cómo evaluar. Obliga también a revisar el tipo de actividades que durante años la escuela convirtió en prueba de aprendizaje.

La irrupción de herramientas capaces de generar textos, resolver ejercicios o sintetizar información en segundos ha empezado a romper esa equivalencia. No porque la automatización elimine necesariamente el aprendizaje, sino porque vuelve más difícil saber qué parte del trabajo intelectual sigue perteneciendo al estudiante y cuál ha sido delegada. Pero el problema principal no reside únicamente en la posibilidad de hacer trampas. Más bien está en descubrir hasta qué punto muchas de las actividades utilizadas durante años para evaluar conocimiento descansaban, en realidad, sobre procesos cognitivos poco visibles.

Esa transformación aparece formulada de manera muy concreta en algunos capítulos del informe. En Cuando evaluar es aprender. Evaluación auténtica para una educación centrada en el alumnado, Amaia Arroyo Sagasta y Carlos Magro plantean la necesidad de desplazar la evaluación desde la simple comprobación de resultados hacia formas de seguimiento más ligadas al aprendizaje real del estudiante. La diferencia es importante.

Durante mucho tiempo bastaba con analizar el producto terminado. Hoy empieza a ganar peso todo aquello que permite reconstruir cómo piensa un estudiante: cómo organiza información, cómo toma decisiones, cómo corrige errores, cómo justifica una respuesta o cómo revisa un argumento cuando recibe retroalimentación.

Eso ayuda a entender por qué conceptos como “evaluación auténtica”, metacognición o participación activa del alumnado han vuelto al centro del debate. Se trata no ya solo de verificar si alguien es capaz de dar una respuesta correcta, sino en entender qué ocurre durante el recorrido que conduce hasta ella. En algunos casos, como veremos a continuación, eso implica incorporar más oralidad, más trabajo iterativo, más discusión en clase o más actividades vinculadas a contextos reales donde copiar una respuesta deja de ser suficiente.

Algo parecido plantea Luis Miguel Iglesias Albarrán en IA y aprendizaje. Del producto final al proceso. El foco deja de situarse exclusivamente en el resultado terminado y empieza a desplazarse hacia el recorrido: cómo el estudiante organiza ideas, reformula respuestas, incorpora retroalimentación o justifica el uso de determinadas herramientas. En otros casos, supone dar más importancia a la capacidad de argumentar, relacionar ideas, defender decisiones o explicar por qué se ha utilizado (o no) una herramienta de inteligencia artificial. Muchas de esas operaciones son bastante más difíciles de automatizar que el producto final.

Si las tareas que pedimos pueden hacerse con un clic, quizás es el momento de preguntarnos si esas tareas merecían antes el esfuerzo que exigíamos

La escuela fue diseñada para corregir resultados, no procesos

La dificultad es que muchas de las formas de evaluación que empiezan a parecer más necesarias chocan frontalmente con la manera en que se organizaron históricamente los sistemas educativos. Resulta relativamente sencillo corregir un examen estandarizado, comparar respuestas o asignar calificaciones a tareas homogéneas. Sin embargo, es mucho más complejo observar cómo un estudiante construye un razonamiento, modifica una hipótesis después de recibir retroalimentación o conecta ideas en contextos ambiguos.

Buena parte de la escuela contemporánea se construyó, precisamente, para resolver un problema de escala. Cómo evaluar a muchos estudiantes, en poco tiempo y de forma relativamente comparable. El examen tradicional, las tareas cerradas o las respuestas estandarizadas no se consolidaron únicamente por razones pedagógicas. También porque permitían corregir rápido, ordenar resultados y hacer viable la evaluación masiva.

La inteligencia artificial empieza a tensionar ese equilibrio porque muchas de las capacidades que adquieren más valor en este nuevo contexto son precisamente las más difíciles de medir dentro de esas estructuras. Argumentar, interpretar, justificar decisiones, revisar críticamente una respuesta o explicar un proceso mental requieren observación, tiempo y acompañamiento. No encajan fácilmente en sistemas diseñados para corregir respuestas visibles y homogéneas.

Por eso el desplazamiento hacia formas de evaluación más centradas en el proceso introduce una tensión que rara vez aparece en los debates más superficiales sobre inteligencia artificial. No basta con decir que ahora habrá que evaluar pensamiento crítico, razonamiento o creatividad. La pregunta es cómo hacerlo dentro de aulas numerosas, currículos sobrecargados y sistemas educativos que durante años priorizaron velocidad, comparabilidad y estandarización.

La paradoja es evidente. Cuanto más importante se vuelve observar capacidades complejas como el criterio, la interpretación, la argumentación o la toma de decisiones, más difícil resulta hacerlo dentro de sistemas masivos pensados para medir aprendizajes visibles y relativamente fáciles de comparar.

Más allá de la autoría de las tareas

La discusión sobre evaluación suele presentarse como un problema técnico: cómo impedir trampas, cómo detectar textos generados o cómo adaptar los exámenes a la inteligencia artificial. Pero el conflicto es bastante más profundo. Lo que la IA está poniendo en cuestión no es únicamente la autoría de las tareas, sino una idea que la escuela llevaba décadas dando por sentada: que producir una respuesta era prueba suficiente de aprendizaje.

Durante mucho tiempo, esa equivalencia funcionó razonablemente bien. Redactar un texto coherente, resolver un problema o elaborar un comentario exigía recorrer ciertos procesos de comprensión y razonamiento. Hoy esa relación empieza a fallar. Y quizás ese sea el debate que debemos afrontar: no qué pueden hacer las máquinas, sino cuánto dependía ya la evaluación escolar de actividades más fáciles de automatizar de lo que estábamos dispuestos a admitir.

También podría interesarte