Sesgo de datos en aplicaciones de aprendizaje automático: un estudio de caso de un modelo no supervisado para identificar el riesgo de corrupción en la contratación pública colombiana
Este estudio analiza el sesgo de datos en un algoritmo de aprendizaje no supervisado diseñado para identificar el riesgo de corrupción en la contratación pública de Colombia. El algoritmo empleado es un modelo de clustering en dos etapas utilizado para segmentar contratos electrónicos a partir de variables que indican riesgo de corrupción. El objetivo era desarrollar una herramienta de alertas tempranas de corrupción en la contratación del Programa de Alimentación Escolar (PAE), empleando datos del Sistema Electrónico para la Contratación Pública (SECOP). A pesar de que los resultados demuestran el potencial de los algoritmos de Inteligencia Artificial para la detección de riesgos de corrupción, también revelan limitaciones significativas en su implementación práctica, atribuibles a deficiencias en la disponibilidad y calidad de los datos. En particular, se identificaron sesgos de representación, de medición y de variables omitidas que afectan la confiabilidad del algoritmo. El estudio proporciona un análisis detallado de estos sesgos, evaluando su impacto en el desempeño del algoritmo, y enfatizando la importancia de reconocer y abordar los sesgos durante el desarrollo de este tipo de iniciativas. Finalmente, se presentan recomendaciones para mejorar la calidad de los datos en el SECOP, con el fin de fortalecer la fiabilidad y precisión de estos algoritmos en desarrollos futuros.
Autores: Kevin Steven Mojica Muñoz