Modelos de programação matemática para aprendizado não supervisionado e suas aplicações na clusterização de dados de escolas brasileiras

Victor Augusto do Carmo Duarte; Erito Marques de Souza Filho

doi:10.35819/remat2025v11id7421

Autores/as

Victor Augusto do Carmo Duarte Laboratório Nacional de Computação Científica (LNCC), Programa de Pós-Graduação em Modelagem Computacional, Petrópolis, RJ, Brasil https://orcid.org/0009-0005-6807-7500
Erito Marques de Souza Filho Universidade Federal Fluminense (UFF), Programa de Pós-Graduação em Ciências Cardiovasculares, Niterói, RJ, Brasil https://orcid.org/0000-0002-0381-3344

DOI:

https://doi.org/10.35819/remat2025v11id7421

Palabras clave:

aprendizaje no supervisado, agrupación, programación entera binaria, programación lineal entera mixta, datos educativos

Resumen

El análisis de datos educativos es fundamental para comprender el desempeño de las instituciones educativas e identificar áreas de mejora. En este contexto, la agrupación de datos es una herramienta ampliamente utilizada, especialmente con algoritmos modelados como problemas de programación matemática. Este trabajo propone el uso e implementación de tres algoritmos de aprendizaje no supervisado, modelados con Programación Entera Binaria y Programación Lineal Entera Mixta, para agrupar datos sobre el desempeño promedio de las escuelas brasileñas en el Examen Nacional de Educación Secundaria, publicados por el Instituto Nacional de Estudios e Investigaciones Educativas Anísio Teixeira. El objetivo es validar los modelos investigando las características de las instituciones en cada grupo, contrastando su Indicador de Nivel Socioeconómico y su dependencia administrativa con su desempeño escolar. Los resultados indican un desempeño superior de las escuelas públicas federales y privadas en comparación con las escuelas públicas municipales y estatales.

Descargas

Los datos de descarga aún no están disponibles.

Biografía del autor/a

Victor Augusto do Carmo Duarte, Laboratório Nacional de Computação Científica (LNCC), Programa de Pós-Graduação em Modelagem Computacional, Petrópolis, RJ, Brasil

http://lattes.cnpq.br/1883519126889519
Erito Marques de Souza Filho, Universidade Federal Fluminense (UFF), Programa de Pós-Graduação em Ciências Cardiovasculares, Niterói, RJ, Brasil

http://lattes.cnpq.br/0606341154404244

Referencias

ÁGOSTON, Kolos Cs.; E.-NAGY, Marianna. Mixed integer linear programming formulation for K-means clustering problem. Central European Journal of Operations Research, v. 32, n. 1, p. 11–27, 2023. DOI: https://doi.org/10.1007/s10100-023-00881-1.

AWASTHI, Pranjal; BANDEIRA, Afonso S.; CHARIKAR, Moses; KRISHNASWAMY, Ravishankar; VILLAR, Soledad; WARD, Rachel. Relax, no need to round: integrality of clustering formulations. In: PROCEEDINGS OF THE 2015 CONFERENCE ON INNOVATIONS IN THEORETICAL COMPUTER SCIENCE. New York, NY, USA: Association for Computing Machinery, 2015. p. 191-200. DOI: https://doi.org/10.1145/2688073.268811.

BISSCHOP, Johannes. AIMMS: Optimization Modelling. [S.l.]: AIMMS B.V, 2006.

BRASIL. Microdados. Brasília, DF: Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira, 2024. Disponível em: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados. Acesso em: 12 maio 2024.

FONSECA, Stella; NAMEN, Anderson. Mineração em bases de dados do INEP: uma análise exploratória para nortear melhorias no sistema educacional brasileiro. Educação em Revista, v. 32, p. 133–157, jan. 2016. DOI: https://doi.org/10.1590/0102-4698140742.

FRANCELINO, Wander; MACHADO, Lucas. Mineração de dados nos microdados Enade computação. Tubarão: Repositório Universitário de Ânima, 2020. Disponível em: https://repositorio.animaeducacao.com.br/handle/ANIMA/8471. Acesso em: 12 maio 2024.

MAIA, Marília Magalhães; ANDRADE, Luiza Helena Felix de; FERNANDES, Silvio. K-means na análise de características socioeconômicas de candidatos ao ensino superior. In: ENCONTRO DE COMPUTAÇÃO DO OESTE POTIGUAR, 5., 2021, Pau dos Ferros, RN. Anais [...]. Pau dos Ferros, RN: UFERSA, 2021. Disponível em: https://periodicos.ufersa.edu.br/ecop/article/view/11168/10877. Acesso em: 13 maio 2024.

MASCHIO, Pedro de Torres; VIEIRA, Marcos Alves; COSTA, Newarney Torrezão da; MELO, Sara Luzia de; PEREIRA JUNIOR, Cleon Xavier. Um panorama acerca da mineração de dados educacionais no Brasil. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO, 29., 2018, Fortaleza. Anais [...]. [S.l.]: SBC, 2018. p. 1936–1940. Disponível em: http://milanesa.ime.usp.br/rbie/index.php/sbie/article/viewFile/8194/5873. Acesso em: 2 maio 2025.

NUEDA, María; GANDÍA, Carmen; MOLINA, Mariola. LPDA: A new classification method based on linear programming. PLoS ONE, v. 17, n. 7, jul. 2022. DOI: https://doi.org/10.1371/journal.pone.0270403.

SAGLAM, Burcu; SALMAN, Sibel; SAYIN, Serpil; TÜRKAY, Metin. A mixed-integer programming approach to the slustering problem with an application in customer segmentation. European Journal of Operational Research, v. 173, n. 3, p. 866–879, set. 2006. DOI: https://doi.org/10.1016/j.ejor.2005.04.048.

WERNER, Hanna. K-means Clustering as a Mixed Integer Programming Problem. 2022. Degree Project (Technology) – Stockholm, Sweden. Disponível em: https://www.diva-portal.org/smash/get/diva2:1673547/FULLTEXT01.pdf. Acesso em: 2 maio 2025.