La IA en educación, vista desde la evidencia

Hay una escena que se repite en miles de aulas de todo el mundo. Un estudiante abre el portátil, formula su pregunta a una IA, recibe una respuesta elaborada y la entrega. O no la entrega, pero la aprende. O la entrega creyendo que la aprendió, y luego no sabe qué decir cuando el profesor le pregunta. Esta escena, cotidiana ya y en expansión, es precisamente la que la ciencia no sabe muy bien cómo interpretar todavía.

Un equipo de investigadores de la Universidad de Stanford acaba de publicar el informe The Evidence Base on AI in K-12: A 2026 Review, que intenta hacer inventario de lo que sabemos, de verdad, sobre el impacto de la inteligencia artificial en la educación preuniversitaria. Sin embargo, la primera conclusión del metaanálisis nos dice más sobre lo que no sabemos. El repositorio del AI Hub for Education contiene más de 800 artículos académicos relevantes para la IA en la educación K-12. Sin embargo, solo 20 de ellos producen evidencia causal sólida. Ochocientos estudios sobre el tema y apenas dos decenas que permiten sacar conclusiones fiables.

De los 800 estudios, casi la mitad son descriptivos: observan cómo se usa la IA, qué dicen los profesores de ella, qué perciben los alumnos. Otro tanto son técnicos o computacionales: miden si un modelo clasifica bien, si un algoritmo predice con precisión. Sin embargo, casi ningún estudio busca extraer evidencias causales, es decir, coger un grupo de alumnos, darle acceso a una herramienta de IA, negarle ese acceso a otro grupo comparable y medir qué pasa después.

Esto es importante, porque cuando un estudio observa que los alumnos que usan IA sacan mejores notas, eso podría significar que la IA les ayuda, pero también que los alumnos más motivados son los que más la usan, o que los centros con más recursos adoptan antes la tecnología. Sin ese diseño experimental, no hay manera de separar el efecto de la herramienta del contexto en que se ubica. Solo 20 estudios de los 800 lo hacen con suficiente rigor. Y estos son en los que se ha centrado Stanford y los que analizamos en este artículo.

Funciona mientras se usa, pero… ¿y después?

La primera conclusión que extraemos de los estudios rigurosos es que los sistemas de IA mejoran significativamente el rendimiento de los estudiantes en ejercicios de matemáticas, proyectos de programación y tareas de escritura mientras tienen acceso activo a la tecnología. Mientras la usan, van mejor. Hasta aquí, bien.

El problema aparece cuando se cierra el ordenador. Cuando se evalúa a los alumnos de forma independiente, sin apoyo de IA, los efectos son mixtos. No negativos siempre, pero tampoco positivos siempre. Mixtos. Esa palabra, que en la jerga científica suena a resultados dispares y poco concluyentes, es en este caso una señal de alarma real: algunas herramientas dejan huella, otras no. Y, en algunos casos, el uso intensivo puede haber deteriorado la capacidad de rendir sin apoyo.

Uno de los experimentos más llamativos que recoge el informe es un estudio realizado con cerca de un millar de estudiantes de secundaria en Turquía. Los alumnos que utilizaron un chatbot de IA de propósito general para preparar un examen obtuvieron peores resultados que sus compañeros que trabajaron con el libro de texto, mientras que los que usaron un chatbot específico de tutoría (chatbots diseñados para preguntar y no para responder) obtuvieron resultados similares a los del libro. La diferencia en este caso no estaba en el uso (o en el no uso) de inteligencia artificial. Estaba en qué tipo de IA, diseñada para qué propósito.

Otro estudio, realizado en Alemania con universitarios, añade un elemento algo más inquietante. Los estudiantes que usaron chatbots de propósito general para investigar temas científicos mostraron menor calidad en su razonamiento y argumentación comparados con quienes usaron un motor de búsqueda tradicional. Buscar en Google, con su fricción, su necesidad de evaluar fuentes y construir síntesis, resulta ser más formativo que recibir la respuesta masticada. La facilidad tiene un coste cognitivo que no siempre vemos.

Más fácil no significa mejor aprendido

En el corazón de toda esta investigación subyace una gran paradoja. Las herramientas de IA consiguen algo que ningún pedagogo rechazaría a priori: reducen la frustración, mejoran la experiencia de aprendizaje, hacen que los estudiantes disfruten más de tareas complicadas. Los alumnos experimentan un alivio cognitivo significativo al enfrentarse a tareas difíciles, como resolver demostraciones matemáticas, programar o hacer investigaciones científicas. Como resultado, disfrutan (o al menos dicen disfrutar más) sus experiencias de aprendizaje.

Pero la ciencia del aprendizaje lleva décadas acumulando evidencia sobre algo que se llama «dificultades deseables»: los obstáculos que encontramos al aprender, la necesidad de esforzarnos, de recuperar información de la memoria, de aplicar conocimiento en contextos nuevos, son los procesos que consolidan ese conocimiento de verdad. Las herramientas de IA pueden reducir el esfuerzo cognitivo productivo, la llamada “carga germana”, además de reducir el esfuerzo cognitivo innecesario. Los alumnos pueden preferir herramientas que faciliten el aprendizaje, pero enfrentarse a tareas cognitivamente exigentes, las llamadas «dificultades deseables», produce mejor retención a largo plazo.

Cuando la IA hace el trabajo pesado, el alumno gana fluidez inmediata y pierde práctica en el esfuerzo.

El impacto de la IA tanto en la equidad educativa como en el desarrollo emocional y social de los estudiantes sigue siendo en gran medida sin examinar en la literatura causal.

El diseño lo es todo

El informe de Stanford afirma que no existe algo llamado «el efecto de la IA en la educación». Existe el efecto de cada herramienta, diseñada de una manera específica, usada en un contexto concreto, por un tipo particular de estudiante. Las herramientas diseñadas para guiar sin dar la respuesta producen resultados distintos a las que simplemente responden. En algunos casos, la diferencia es la que separa aprender de no aprender nada.

La diferencia entre dar la respuesta y guiar hacia ella no es pequeña. En el experimento turco, el chatbot de tutoría daba pistas al estudiante sin revelar la solución. Eso los mantuvo en lo que los psicólogos del aprendizaje llaman la “zona de desarrollo próximo”, ese espacio óptimo entre lo que ya sabes y lo que aún no puedes hacer solo. Las herramientas que dan la respuesta directamente sacan al alumno de esa zona: hacen el trabajo en su lugar.

También se han estudiado los chatbots de tipo socrático, un tipo específico de chatbot de tutoría que, como el filósofo griego, solo utiliza preguntas para extraer el conocimiento de los estudiantes. Si el chatbot de tutoría convencional da pistas, señala errores y ofrece el primer paso resuelto, el socrático no hace nada de eso. Cuando el alumno se equivoca, no le corrige: le pregunta qué le llevó a esa conclusión. Cuando acierta, le pregunta por qué cree que es correcto. Se niega a dar respuesta y a afirmar nada. Esa negativa radical tiene un coste inmediato: los alumnos lo encuentran más frustrante y menos útil que cualquier otra alternativa.

Sin embargo, aunque percibido como menos útil, experimentos en Bélgica, Alemania y España encontraron que el chatbot socrático aumentaba el compromiso de los alumnos con la tarea y era valorado como más estimulante para el pensamiento crítico e independiente que uno de propósito general.

La ventaja de los docentes

Hay una parte del informe donde los datos son más claros y más optimistas. Es la que tiene que ver con los profesores, no con los alumnos. Los docentes que usaron herramientas de IA para preparar clases dedicaron menos tiempo a la planificación sin que se detectaran diferencias en la calidad de las lecciones, según valoraciones ciegas de expertos.

El dato concreto es notable: los profesores con acceso a ChatGPT dedicaron un 27% menos de tiempo a crear lecciones que sus compañeros en las primeras cinco semanas de uso, y un 31% menos entre las semanas seis y diez. Además, el uso de IA disminuyó con el tiempo, del 39% al 29% del total de lecciones generadas, pero el ahorro persistió, lo que sugiere que los docentes aprenden rápidamente dónde aporta valor la IA y la usan de forma más selectiva.

Pero hay algo más. Algunos sistemas de IA que proporcionan retroalimentación en tiempo real y diagnósticos a tutores humanos pueden mejorar la calidad de la instrucción y los resultados de los estudiantes.

El apoyo pedagógico de la IA puede ser especialmente efectivo para tutores con menos experiencia y con valoraciones más bajas, como demuestran los resultados de un experimento con 900 tutores: el sistema Tutor CoPilot (un sistema de IA diseñado para ayudar a tutores humanos) mejoró el dominio de los temas por parte de los estudiantes en cuatro puntos porcentuales de media, pero ese beneficio aumentó a siete puntos para los tutores con menos experiencia y a nueve para los peor valorados. La IA actúa como un nivelador de la experiencia docente, y eso tiene consecuencias de equidad que merecen atención.

Las preguntas que quedan sin respuesta

Todo lo anterior es lo que sí sabemos. Pero el informe de Stanford también es un catálogo de lo que no sabemos, y esa lista es larga. El impacto de la IA tanto en la equidad educativa como en el desarrollo emocional y social de los estudiantes sigue siendo en gran medida sin examinar en la literatura causal. Veamos cuáles son algunos de los ámbitos sobre los que aún no tenemos evidencia, según Stanford.

Las herramientas de IA podrían contribuir a reducir brechas si proporcionan apoyo individualizado de calidad y si están disponibles en los contextos que más lo necesitan. Pero esto depende de factores como la financiación, la infraestructura tecnológica y la capacidad de integración en los sistemas educativos.

La equidad no es solo acceso a los dispositivos. La capacidad de los estudiantes para beneficiarse de las herramientas de IA puede variar según la infraestructura tecnológica, la alfabetización digital y si los alumnos pueden acceder a las herramientas tanto en casa como en la escuela. La accesibilidad lingüística es también una preocupación clave, ya que muchas herramientas están optimizadas para el inglés y pueden ofrecer apoyo de menor calidad o sesgado para los estudiantes de otras lenguas.

Y luego está la cuestión que ningún padre o madre puede ignorar: el uso de IA fuera del aula. La rápida expansión del uso de IA fuera de la escuela, incluyendo como compañeros sociales, plantea preguntas sobre los impactos para la seguridad, el bienestar y el desarrollo de habilidades prosociales de los estudiantes. Los datos sobre uso de IA como sustituto de la interacción humana entre adolescentes están empezando a acumularse, y la experiencia con las redes sociales nos ha enseñado que los efectos de estas tecnologías sobre el desarrollo de las personas jóvenes pueden tardar años en hacerse visibles, y más aún en medirse bien.

Lo que esto significa ahora mismo

La conclusión provisional que puede extraerse del informe no es que la IA sea mala para la educación, ni que sea buena. Es que depende, enormemente, del cómo. La evidencia actual sugiere que las herramientas diseñadas para fomentar el razonamiento independiente son más susceptibles de apoyar un aprendizaje duradero en los estudiantes. También indica que las herramientas de IA pueden ayudar a los educadores a completar sus tareas de manera más eficiente y a mejorar sus prácticas pedagógicas.

Para los centros educativos que ya están tomando decisiones, las que toman todos los días, eso significa algo concreto: no es suficiente con preguntar si una herramienta usa IA. Hay que preguntar qué hace esa IA cuando un alumno se queda bloqueado, si le da la respuesta o si le hace pensar. Hay que preguntar a quién está diseñada para ayudar más, si a los que ya van bien o a los que van mal. Y hay que preguntar, igualmente, si el centro tiene datos propios sobre qué ocurre cuando sus alumnos la usan.

El campo de la IA en educación se está desarrollando rápidamente, tanto en los productos disponibles como en los conocimientos obtenidos de la investigación. Dado este panorama dinámico, muchas conclusiones requerirán actualización a medida que esté disponible investigación adicional más rigurosa. La ciencia irá llegando, pero las decisiones hay que tomarlas ahora. La única manera de no tomarlas a ciegas es entender cuán poco sabemos todavía, y cuánto importa ese poco que sí sabemos.

El informe «The Evidence Base on AI in K-12: A 2026 Review» ha sido elaborado por Lily Fesler, J.P. Martinez Claeys, Chris Agnew y Susanna Loeb, del AI Hub for Education de la SCALE Initiative de la Universidad de Stanford.