Embora o setor educacional não tenha sido dos primeiros a adotar a inteligência artificial (IA) e a ciência de dados, hoje ninguém duvida da importância, implicações e aplicações que essas tecnologias podem ter na transformação do setor em direção a uma educação melhor e mais equitativa.
Dados e estatísticas têm muito a ver com o acesso de crianças e jovens a uma educação de qualidade. Como dizia Peter Drucker, o que não se mede, não pode ser gerido.
No entanto, esses dados, essenciais para garantir que os programas de intervenção socioeducativa sejam eficazes e relevantes, apresentam desafios dentro das organizações sociais. Esses desafios geralmente estão relacionados a fatores como a coleta de informações, a dificuldade de encontrar indicadores adequados ou a adaptação das metodologias de avaliação a diversos contextos socioculturais.
ProFuturo é um programa de alcance global, grande e complexo, que gerencia dados de mais de 5.000 escolas em 45 países. Está muito ciente desses desafios e trabalha constantemente para melhorar seus processos de coleta, processamento e gestão de dados. Entre outras coisas, colabora com instituições universitárias e acadêmicas, como a Universidade Pontifícia de Salamanca (UPSA), com a qual criou a Cátedra Telefônica ProFuturo-UPSA ‘Analítica de Dados de Projetos Educacionais em Ambientes Vulneráveis’, para promover a pesquisa e o desenvolvimento de tecnologias para a exploração de dados dos projetos educacionais como os do ProFuturo.
Nas linhas a seguir, vamos nos concentrar no Trabalho de Conclusão de Curso (TCC) de um de seus alunos, Jorge Carrasco, focado em como a aplicação de IA a sistemas de dados complexos pode impulsionar a eficiência das organizações educacionais. Seus resultados demonstram o grande potencial dos métodos de aprendizado de máquina para melhorar a gestão e avaliação dos programas e projetos educacionais.
Objetivos do projeto: maximizando o impacto com a análise preditiva
Desde o início, o programa ProFuturo sempre buscou dispor de ferramentas para conhecer o progresso dos centros educacionais em que opera, bem como o impacto gerado pelo projeto. Para gerenciar e avaliar seu programa, o ProFuturo utiliza um sistema sofisticado que emprega uma série de Indicadores-Chave de Desempenho (KPIs) e pesquisas para atribuir um nível de maturidade às suas escolas, categorizando-as em cinco níveis: inicial, básico, intermediário, avançado e transformador. No entanto, até agora, não foram realizadas análises estatísticas sofisticadas desses dados nem foi avaliado seu potencial preditivo. Esse é, precisamente, o principal objetivo deste projeto: realizar uma análise exaustiva dos dados coletados pelo ProFuturo para extrair informações valiosas que facilitem uma melhor tomada de decisões e gestão de recursos.
Para alcançar isso, foram seguidos vários passos-chave:
- Projetar um processo de integração de dados para combinar dados de várias fontes em um único conjunto coerente e armazená-los. Este processo é conhecido pela sigla ETL (Extraction, Transformation and Loading) e é muito relevante porque ajuda a carregar, limpar e transformar os dados para que, posteriormente, se possa extrair deles informações relevantes.
- Prever com alta precisão o grau de maturidade dos projetos implantados pelo ProFuturo utilizando um subconjunto de indicadores selecionado. Este objetivo foi considerado muito relevante pelo ProFuturo, pois permitirá planejar estratégias de investimento mais eficientes e direcionadas.
- Identificar os indicadores mais relevantes na evolução e maturidade das operações do ProFuturo: este objetivo foi proposto pela própria organização, para contar com informações relevantes que evitem investir em setores que não têm o impacto desejado na progressão da operação. Dessa forma, será possível otimizar o investimento nas operações.
- Identificar possíveis correlações entre KPIs, que permitam ao ProFuturo realizar uma melhor gestão do Programa.
- Projetar uma ferramenta de software simples e intuitiva: Proporcionar ao ProFuturo visualizações úteis que possam esclarecer os resultados experimentais obtidos. Este objetivo é relevante para facilitar a possível transferência tecnológica do TCC ao ProFuturo.
Um projeto inovador
Ao longo dos anos, numerosos estudos se concentraram em prever a evolução dos valores dos KPIs utilizando uma variedade de técnicas, como lógica difusa, métodos de aprendizado de máquina regressivos e algoritmos de aprendizado profundo. Por exemplo, modelos de inteligência artificial foram usados para prever as condições do pavimento de estradas usando uma série de indicadores, prever o risco de abandono escolar entre alunos com base em indicadores coletados pelas escolas, prever a condição da água em uma região usando indicadores de resíduos, ou prever o risco de acidentes em atividades de construção utilizando certos indicadores.
Esses projetos utilizaram modelos de inteligência artificial para fazer previsões simples. No entanto, este trabalho faz algo diferente e mais complexo. Em vez de prever apenas dois possíveis resultados (como sucesso ou fracasso), a abordagem aplicada neste trabalho pode lidar com múltiplos resultados diferentes ao mesmo tempo. Para alcançar isso, os dados foram processados de maneira muito detalhada e sistemática usando uma série de etapas organizadas (pipeline). Este método inovador não só melhora as capacidades de previsão, mas também abre novas possibilidades para o uso de KPIs na previsão do estado dos projetos, algo que não havia sido feito antes.
O Processo
Os dados iniciais apresentavam alguns desafios, incluindo:
- Abundância de variáveis qualitativas: Exceto por um campo, todas as variáveis eram qualitativas, o que requer métodos específicos para seu tratamento.
- Excesso de “ruído”: As tabelas continham muitas informações irrelevantes para o projeto de pesquisa, o que obrigou a realizar tarefas de limpeza e pré-processamento.
- Dispersão dos dados: Embora houvesse muitas medições, estas foram tomadas de forma pouco estruturada, sem medir sempre os mesmos indicadores e omitindo muitos outros.
- Dados não lineares: A natureza dos dados era altamente não linear, por isso eram necessários modelos de inteligência artificial complexos para realizar previsões válidas.
- Dados desbalanceados: Ao estudar os níveis de maturidade das escolas, observou-se que a maioria se encontrava no mesmo nível. Aplicaram-se técnicas de desbalanceamento para evitar vieses preditivos.
- Indicadores correlacionados: Havia muitos indicadores correlacionados, o que tornou necessário utilizar técnicas de seleção de características para eliminar a redundância entre eles.
Para abordá-los, foi realizado um tratamento exaustivo de limpeza e transformação que permitiu a utilização dos dados em modelos de inteligência artificial preditivos como Support Vector Machine, LASSO ou Random Forest Classifier. De todos os mencionados, destaca-se o modelo “Random Forest”.
Random Forest (floresta aleatória) é um modelo que cria muitas árvores de decisão (daí o nome “floresta”) que trabalham juntas para fazer previsões mais precisas. Por exemplo, suponhamos que queremos prever se um aluno passará ou não em um exame com base em várias características (horas de estudo, frequência às aulas, etc.). Usando o Random Forest, treinamos múltiplas árvores de decisão com diferentes subconjuntos de dados e características. Então, para um novo aluno, cada árvore fará sua previsão (passará ou não passará), e o resultado final será a opção que mais árvores tiverem votado.
Para melhorar ainda mais a precisão, foi aplicada uma técnica estatística chamada bootstrapping que permite melhorar a precisão dos modelos de previsão, assegurando que sejam utilizadas diferentes combinações de dados para treinar o modelo.
Depois, foi realizada uma seleção de características que permitiu projetar um modelo com excelentes resultados preditivos (98,2%), mas com apenas sete indicadores, em vez de 25. Como afirma o autor deste TCC, Jorge Carrasco, “esses excelentes resultados permitirão ao ProFuturo automatizar a avaliação do grau de maturidade das escolas sem necessidade de realizar pesquisas manuais, o que economizará tempo e recursos para a organização”. Além disso, prossegue, “ao identificar os KPIs mais relevantes, o ProFuturo poderá concentrar seus esforços nas áreas que realmente impactam a melhoria educacional, otimizando assim a gestão e distribuição de recursos.”
A implementação deste sistema não só aumentará a precisão na avaliação de projetos educacionais, mas também oferecerá uma ferramenta valiosa para a tomada de decisões estratégicas em todas as organizações socioeducativas. Com bases de dados mais depuradas e modelos preditivos mais robustos, essas organizações estarão melhor preparadas para monitorar o progresso de suas iniciativas e ajustar suas estratégias de maneira mais eficiente. Isso, por sua vez, ajudará a reduzir a lacuna digital em comunidades desfavorecidas, garantindo que mais estudantes tenham acesso a uma educação de qualidade.