Mathematical programming models for unsupervised learning and their applications in the clustering of brazilian school data
DOI:
https://doi.org/10.35819/remat2025v11id7421Keywords:
unsupervised learning, clustering, binary integer programming, mixed-integer linear programming, educational dataAbstract
The analysis of educational data is essential for understanding the performance of educational institutions and identifying areas for improvement. In this context, data clustering is a widely used tool, particularly with algorithms modeled as mathematical programming problems. This paper proposes the use and implementation of three unsupervised learning algorithms, modeled with Binary Integer Programming and Mixed-Integer Linear Programming, for clustering data on the average performance of Brazilian schools in the National High School Exam, published by the National Institute for Educational Studies and Research Anísio Teixeira. The aim is to validate the models by investigating the characteristics of the institutions in each cluster, comparing their Socio-Economic Level Indicator and their administrative dependence with their school performance. The results found point to the superior performance of federal public schools and private schools when compared to municipal and state public schools.
Downloads
References
ÁGOSTON, Kolos Cs.; E.-NAGY, Marianna. Mixed integer linear programming formulation for K-means clustering problem. Central European Journal of Operations Research, v. 32, n. 1, p. 11–27, 2023. DOI: https://doi.org/10.1007/s10100-023-00881-1.
AWASTHI, Pranjal; BANDEIRA, Afonso S.; CHARIKAR, Moses; KRISHNASWAMY, Ravishankar; VILLAR, Soledad; WARD, Rachel. Relax, no need to round: integrality of clustering formulations. In: PROCEEDINGS OF THE 2015 CONFERENCE ON INNOVATIONS IN THEORETICAL COMPUTER SCIENCE. New York, NY, USA: Association for Computing Machinery, 2015. p. 191-200. DOI: https://doi.org/10.1145/2688073.268811.
BISSCHOP, Johannes. AIMMS: Optimization Modelling. [S.l.]: AIMMS B.V, 2006.
BRASIL. Microdados. Brasília, DF: Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira, 2024. Disponível em: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados. Acesso em: 12 maio 2024.
FONSECA, Stella; NAMEN, Anderson. Mineração em bases de dados do INEP: uma análise exploratória para nortear melhorias no sistema educacional brasileiro. Educação em Revista, v. 32, p. 133–157, jan. 2016. DOI: https://doi.org/10.1590/0102-4698140742.
FRANCELINO, Wander; MACHADO, Lucas. Mineração de dados nos microdados Enade computação. Tubarão: Repositório Universitário de Ânima, 2020. Disponível em: https://repositorio.animaeducacao.com.br/handle/ANIMA/8471. Acesso em: 12 maio 2024.
MAIA, Marília Magalhães; ANDRADE, Luiza Helena Felix de; FERNANDES, Silvio. K-means na análise de características socioeconômicas de candidatos ao ensino superior. In: ENCONTRO DE COMPUTAÇÃO DO OESTE POTIGUAR, 5., 2021, Pau dos Ferros, RN. Anais [...]. Pau dos Ferros, RN: UFERSA, 2021. Disponível em: https://periodicos.ufersa.edu.br/ecop/article/view/11168/10877. Acesso em: 13 maio 2024.
MASCHIO, Pedro de Torres; VIEIRA, Marcos Alves; COSTA, Newarney Torrezão da; MELO, Sara Luzia de; PEREIRA JUNIOR, Cleon Xavier. Um panorama acerca da mineração de dados educacionais no Brasil. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO, 29., 2018, Fortaleza. Anais [...]. [S.l.]: SBC, 2018. p. 1936–1940. Disponível em: http://milanesa.ime.usp.br/rbie/index.php/sbie/article/viewFile/8194/5873. Acesso em: 2 maio 2025.
NUEDA, María; GANDÍA, Carmen; MOLINA, Mariola. LPDA: A new classification method based on linear programming. PLoS ONE, v. 17, n. 7, jul. 2022. DOI: https://doi.org/10.1371/journal.pone.0270403.
SAGLAM, Burcu; SALMAN, Sibel; SAYIN, Serpil; TÜRKAY, Metin. A mixed-integer programming approach to the slustering problem with an application in customer segmentation. European Journal of Operational Research, v. 173, n. 3, p. 866–879, set. 2006. DOI: https://doi.org/10.1016/j.ejor.2005.04.048.
WERNER, Hanna. K-means Clustering as a Mixed Integer Programming Problem. 2022. Degree Project (Technology) – Stockholm, Sweden. Disponível em: https://www.diva-portal.org/smash/get/diva2:1673547/FULLTEXT01.pdf. Acesso em: 2 maio 2025.
Downloads
Published
Issue
Section
License
Copyright (c) 2025 Victor Augusto do Carmo Duarte, Erito Marques de Souza Filho

This work is licensed under a Creative Commons Attribution 4.0 International License.
Os autores detêm os direitos autorais dos artigos publicados e concedem à REMAT o direito de primeira publicação e distribuição de partes ou do trabalho como um todo com o objetivo de promover a revista. Os autores são autorizados a distribuir a versão publicada do artigo, como por exemplo em repositórios institucionais, desde que façam menção de publicação inicial nesta revista a partir da disponibilização do DOI do artigo.
Os artigos são publicados sob a licença Creative Commons Attribution 4.0 International License (CC BY 4.0). Isso permite que o conteúdo seja utilizado para criação de novos trabalhos, tanto para fins comerciais quanto não comerciais, desde que seja feita a devida atribuição ao autor original, conforme especificado na licença.
Última atualização: 07/02/2025, 19:22.

























