Aunque el sector educativo no ha sido de los primeros en apuntarse al carro de la inteligencia artificial (IA) y la ciencia de datos, hoy ya nadie duda de la importancia, implicaciones y aplicaciones que pueden tener estas tecnologías en la transformación del sector hacia una educación mejor y más equitativa.
Los datos y las estadísticas tienen mucho que ver con que niños y niñas y jóvenes puedan acceder a una educación de calidad. Porque, como decía Peter Drucker, lo que no se mide, no puede gestionarse.
Sin embargo, estos datos, esenciales para garantizar que los programas de intervención socioeducativa sean efectivos y relevantes, plantean retos en el seno de las organizaciones sociales. Estos desafíos suelen estar relacionados con factores como la recolección de información, la dificultad de encontrar indicadores adecuados o la adaptación de las metodologías evaluativas a diversos contextos socioculturales.
ProFuturo es un programa de alcance global, muy grande y complejo, que maneja datos provenientes de más de 5.000 escuelas en 45 países es muy consciente de estos desafíos y trabaja constantemente para mejorar sus procesos de recogida, tratamiento y gestión de los datos. Entre otras muchas cosas, trabajan con instituciones universitarias y académicas como la Universidad Pontificia de Salamanca (UPSA) con la que se ha creado la Cátedra Telefónica ProFuturo-UPSA ‘Analítica de datos de proyectos educativos en entornos vulnerables’, para impulsar la investigación y el desarrollo de tecnologías para la explotación de datos de los proyectos educativos como los de ProFuturo.
En las próximas líneas nos centraremos en el Trabajo de Fin de Grado (TFG) de uno de sus estudiantes, Jorge Carrasco, centrado en cómo aplicando IA a sistemas de datos complejos se puede impulsar la eficiencia de las organizaciones educativas. Sus resultados demuestran el gran potencial de los métodos de aprendizaje automático para mejorar la gestión y evaluación de los programas y proyectos educativos.
Objetivos del proyecto: maximizando el impacto con la IA y el análisis predictivo
Desde sus inicios, el programa ProFuturo siempre ha buscado disponer de herramientas para conocer el avance de los centros educativos en los que opera, así como el impacto generado por el proyecto. Para gestionar y evaluar su programa, ProFuturo utiliza un sofisticado sistema que utiliza una serie de indicadores clave de rendimiento (KPIs: Key Performance Indicators) y encuestas para asignar un nivel de madurez a sus escuelas, categorizándolas en cinco niveles: inicial, básico, medio, avanzado y transformación. Sin embargo, hasta ahora no se habían realizado análisis estadísticos sofisticados de estos datos ni se había evaluado su potencial predictivo. Este es, precisamente, el objetivo principal de este proyecto: llevar a cabo un análisis exhaustivo de los datos recopilados por ProFuturo para extraer información valiosa que facilite una mejor toma de decisiones y gestión de recursos.
Para lograr esto, se siguieron varios pasos clave:
- Diseñar un proceso de integración de datos para combinar datos de varias fuentes en un conjunto único y coherente y almacenarlos. Este proceso se conoce, por siglas en inglés, como ETL (Extraction, Transformation and Loading) y es muy relevante porque ayuda a la carga, limpieza y transformación de los datos para que, posteriormente, se pueda extraer de ellos información relevante.
- Predecir con alta precisión el grado de madurez de los proyectos implantados por ProFuturo utilizando un subconjunto de indicadores seleccionado. Este objetivo ha sido considerado muy relevante por ProFuturo ya que permitirá́ planificar estrategias de inversión más eficientes y dirigidas.
- Identificar los indicadores que son más relevantes en la evolución y madurez de las operaciones de ProFuturo: este objetivo ha sido propuesto por la propia organización, para contar con información relevante que evite invertir en sectores que no tienen el impacto deseado en la progresión de la operación. De esta forma se podrá́ optimizar la inversión en las operaciones.
- Identificar posibles correlaciones entre KPIs, que permitan a ProFuturo realizar una mejor gestión del Programa.
- Diseñar una herramienta software sencilla e intuitiva: Proporcionar a ProFuturo de visualizaciones útiles que puedan arrojar luz sobre los resultados experimentales obtenidos. Este objetivo es relevante para facilitar la posible transferencia tecnológica del TFG a ProFuturo.
Un proyecto innovador
A lo largo de los años, numerosos estudios se han centrado en predecir la evolución de los valores de los KPIs utilizando una variedad de técnicas, como la lógica difusa, métodos de aprendizaje automático regresivos y algoritmos de aprendizaje profundo. Por ejemplo, se han usado modelos de inteligencia artificial para predecir el estado del pavimento en carreteras utilizando una serie de indicadores; o para predecir el riesgo de abandono escolar en alumnos a partir de indicadores recogidos por escuelas; también se ha investigado el uso de indicadores de residuos para predecir el estado del agua en una región, o se han considerado ciertos indicadores para predecir el riesgo de accidentes en labores de construcción.
Estos proyectos han utilizado modelos de inteligencia artificial para hacer predicciones simples. Sin embargo, este trabajo hace algo diferente y más complejo. En lugar de predecir solo dos posibles resultados (como éxito o fracaso), el enfoque aplicado en este trabajo puede manejar múltiples resultados diferentes a la vez. Para lograr esto, se han procesado los datos de manera muy detallada y sistemática usando una serie de pasos organizados (pipeline). Este método innovador no solo mejora las capacidades de predicción, sino que también abre nuevas posibilidades para usar indicadores clave de rendimiento (KPIs) en la predicción del estado de proyectos, algo que no se había hecho antes.
El proceso
Los datos iniciales presentaban algunos desafíos, entre los que se encontraban los siguientes:
- Abundancia de variables cualitativas: Excepto por un campo, todas las variables eran cualitativas, lo que requiere métodos específicos para su tratamiento.
- “Ruido” excesivo: Las tablas contenían mucha información poco relevante para el proyecto de investigación, lo que obligó a realizar tareas de limpieza y preprocesamiento.
- Dispersión de los datos: Aunque había muchas mediciones, estas se tomaron de forma poco estructurada, sin medir siempre los mismos indicadores y omitiendo muchos otros.
- Datos no lineales: La naturaleza de los datos era altamente no lineal, por lo que se necesitaban modelos de inteligencia artificial complejos para realizar predicciones válidas.
- Datos desbalanceados: Al estudiar los niveles de madurez de las escuelas, se observó que la mayoría se encontraban en un mismo nivel. Se aplicaron técnicas de desbalanceo para evitar sesgos predictivos.
- Indicadores correlacionados: Había muchos indicadores correlacionados, lo que hizo necesario utilizar técnicas de selección de características para eliminar la redundancia entre ellos.
Para abordarlos, se llevó a cabo un tratamiento exhaustivo de limpieza y transformación que permitió la utilización de los datos en modelos de inteligencia artificial predictivos como Support Vector Machine, LASSO o Randon Forest Classifier. De todos los mencionados, destaca el modelo “Random Forest”.
Random Forest (bosque aleatorio) es un modelo que crea muchos árboles de decisión (de ahí el nombre «bosque») que trabajan juntos para hacer predicciones más precisas. Por ejemplo, supongamos que queremos predecir si un estudiante aprobará o no un examen basado en varias características (horas de estudio, asistencia a clases, etc.). Usando Random Forest, entrenamos múltiples árboles de decisión con diferentes subconjuntos de datos y características. Luego, para un nuevo estudiante, cada árbol hará su predicción (aprobará o no aprobará), y el resultado final será la opción que más árboles hayan votado.
Para mejorar aún más la precisión se ha tratado el problema del desbalanceo de clases (una distribución muy desequilibrada de clases que podría causar sesgos predictivos en los modelos de IA), se ha aplicado una técnica estadística llamada bootstrapping que permite mejorar la precisión de los modelos de predicción al asegurar que se utilicen diferentes combinaciones de datos para entrenar el modelo.
Después, se ha realizado una selección de características que ha permitido diseñar un modelo con unos excelentes resultados predictivos (98,2%), pero con tan solo siete indicadores, en vez de 25.
Como afirma el autor de este TFG, Jorge Carrasco, “estos excelentes resultados, permitirán a ProFuturo automatizar la evaluación del grado de madurez de las escuelas sin necesidad de realizar encuestas manuales, lo que ahorrará tiempo y recursos a la organización”. Además, prosigue, “al identificar los KPIs más relevantes, ProFuturo podrá́ enfocar sus esfuerzos en las áreas que realmente impactan en la mejora educativa, optimizando así́ la gestión y distribución de recursos”.
La implementación de este sistema no solo aumentará la precisión en la evaluación de proyectos educativos, sino que también ofrecerá una herramienta valiosa para la toma de decisiones estratégicas en todas las organizaciones socioeducativas. Con bases de datos más depuradas y modelos predictivos más sólidos, estas organizaciones estarán mejor preparadas para monitorear el avance de sus iniciativas y ajustar sus estrategias de manera más eficiente. Esto, a su vez, ayudará a reducir la brecha digital en comunidades desfavorecidas, garantizando que más estudiantes accedan a una educación de calidad.