Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/15453
Files in This Item:
File Description SizeFormat 
brunohenriquerodrigues.pdfPDF/A1.03 MBAdobe PDFThumbnail
View/Open
Type: Trabalho de Conclusão de Curso
Title: Análise causal exploratória aplicada aos dados do Enem 2021: Revelando a estrutura causal dos fatores explicativos da nota final
Author: Rodrigues, Bruno Henrique
First Advisor: Souza, Augusto Carvalho
Co-Advisor: Vieira, Marcel de Toledo
Referee Member: Coelho, Ângela Mello
Referee Member: Freguglia, Ricardo da Silva
Resumo: Este trabalho tem como objetivo apresentar a relação causal entre variáveis socioeconômicas com a nota média do Exame Nacional do Ensino Médio (Enem) e entre si. O Enem foi criado em 1998 como ferramenta para avaliar o desempenho do estudante após o ensino básico e vem sendo usado como método de entrada no ensino superior desde 2009. Estudos anteriores mostraram que a renda familiar e a escolaridade dos pais são influentes no desempenho escolar do estudante. Quanto à investigação das relações entre as variáveis, a Análise Causal Exploratória, ou Descoberta Causal, é o processo de inferir modelos causais, ou seja, a relação de causa-efeito das variáveis em um conjunto de dados, um complemento da inferência causal. A Inferência Causal, por sua vez, busca identificar o nível de causa de uma variável no efeito de outra. As relações de causa-efeito são apresentadas por grafos acíclicos direcionados (Directed Acyclic Graphs, DAGs), nos quais as relações são representadas por setas, que apontam o sentido do efeito e causa. Por meio de algoritmos baseados em restrição e baseados em escore, aplicados na base de dados dos participantes do Enem 2021, propomos DAGs que identificam fatores que podem explicar a nota média do Enem. Após manipulação no conjunto de dados, foram selecionadas as variáveis mais associadas ao desempenho escolar: tipo de escola, classe do Critério Brasil, escolaridade dos pais, sexo, cor/raça, acesso à internet em casa, localidade da escola e região do IBGE. Os testes de diferença de média utilizados retornaram diferença significativa entre as notas médias por grupo das variáveis selecionadas, mas pelo teste de verossimilhança para independência condicional feitos nos algoritmos baseados em restrição, as variáveis sexo do participante e localidade da escola não foram relacionadas com as demais variáveis, e acesso à internet apenas com a região do IBGE. Para os três algoritmos utilizados, os modelos propuseram influências diretas do tipo de escola e classe do Critério Brasil na nota do Enem, essa última sendo efeito, ou mediadora, das demais variáveis selecionadas. Após a remoção das variáveis sexo, localização da escola e acesso à internet em casa, a escolaridade da mãe também tem efeito direto na nota média do participante, junto com a classe do Critério Brasil e o tipo de escola, resultados que estão de acordo com trabalhos anteriores.
Abstract: This work aims to present the causal relation between socioeconomic variables and the mean grade on the Exame Nacional do Ensino Médio (Enem). The Enem was created in 1998 as a tool to measure the performance of students after concluding basic education, and has been used as an entry method for higher education since 2009. Previous studies showed that family income and the parents' education level are influential on the performance of the student. As for the investigation on the relation between variables, the Exploratory Causal Analysis (ECA), or causal discovery, is the process of inferring a causal model, that is, the cause-effect relation of the variables on a dataset, a complement for Causal inference. Causal Inference, on the other hand, aims to identify the cause level of a variable as the effect on another. The cause-effect relationship is presented as Directed Acyclic Graphs (DAGs), where those relations are represented as arrows, pointing the cause-effect direction. Using constraint-based and score-based algorithms for causal discovery, applied to the Enem 2021 dataset, we proposed DAGs that identified factors which can explain the students’ average grade on Enem. After dataset manipulation, we select the variables most associated with school performance: type of school, income class, parental education, sex, color/race, access to the internet at home, location of school, and macroregion. The tests for difference between means returned significant differences between the groups of the selected variables, but testing conditional independence using likelihood tests for the constraint-based algorithms, sex, and location of school were not related to the other variables, and access to the internet at home being only related to the macroregion. For the three algorithms used, the models proposed direct influence of the type of school and income class on the Enem grade, the latter being influenced by, or mediating, the other variables. After removing variables sex, location of school, and access to the internet at home, the mother’s education also had a direct effect on the student’s Enem grade, along with income class and type of school, results that agree with previous studies.
Keywords: Análise causal exploratória
Inferência causal
Directed acyclic graphs
Enem
Desempenho escolar
Exploratory causal inference
Causal inference
School performance
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA
Language: por
Country: Brasil
Publisher: Universidade Federal de Juiz de Fora (UFJF)
Institution Initials: UFJF
Department: ICE – Instituto de Ciências Exatas
Access Type: Acesso Aberto
Attribution 3.0 Brazil
Creative Commons License: http://creativecommons.org/licenses/by/3.0/br/
URI: https://repositorio.ufjf.br/jspui/handle/ufjf/15453
Issue Date: 18-Jan-2023
Appears in Collections:Estatística - TCC Graduação



This item is licensed under a Creative Commons License Creative Commons