https://repositorio.ufjf.br/jspui/handle/ufjf/15453
File | Description | Size | Format | |
---|---|---|---|---|
brunohenriquerodrigues.pdf | PDF/A | 1.03 MB | Adobe PDF | View/Open |
Type: | Trabalho de Conclusão de Curso |
Title: | Análise causal exploratória aplicada aos dados do Enem 2021: Revelando a estrutura causal dos fatores explicativos da nota final |
Author: | Rodrigues, Bruno Henrique |
First Advisor: | Souza, Augusto Carvalho |
Co-Advisor: | Vieira, Marcel de Toledo |
Referee Member: | Coelho, Ângela Mello |
Referee Member: | Freguglia, Ricardo da Silva |
Resumo: | Este trabalho tem como objetivo apresentar a relação causal entre variáveis socioeconômicas com a nota média do Exame Nacional do Ensino Médio (Enem) e entre si. O Enem foi criado em 1998 como ferramenta para avaliar o desempenho do estudante após o ensino básico e vem sendo usado como método de entrada no ensino superior desde 2009. Estudos anteriores mostraram que a renda familiar e a escolaridade dos pais são influentes no desempenho escolar do estudante. Quanto à investigação das relações entre as variáveis, a Análise Causal Exploratória, ou Descoberta Causal, é o processo de inferir modelos causais, ou seja, a relação de causa-efeito das variáveis em um conjunto de dados, um complemento da inferência causal. A Inferência Causal, por sua vez, busca identificar o nível de causa de uma variável no efeito de outra. As relações de causa-efeito são apresentadas por grafos acíclicos direcionados (Directed Acyclic Graphs, DAGs), nos quais as relações são representadas por setas, que apontam o sentido do efeito e causa. Por meio de algoritmos baseados em restrição e baseados em escore, aplicados na base de dados dos participantes do Enem 2021, propomos DAGs que identificam fatores que podem explicar a nota média do Enem. Após manipulação no conjunto de dados, foram selecionadas as variáveis mais associadas ao desempenho escolar: tipo de escola, classe do Critério Brasil, escolaridade dos pais, sexo, cor/raça, acesso à internet em casa, localidade da escola e região do IBGE. Os testes de diferença de média utilizados retornaram diferença significativa entre as notas médias por grupo das variáveis selecionadas, mas pelo teste de verossimilhança para independência condicional feitos nos algoritmos baseados em restrição, as variáveis sexo do participante e localidade da escola não foram relacionadas com as demais variáveis, e acesso à internet apenas com a região do IBGE. Para os três algoritmos utilizados, os modelos propuseram influências diretas do tipo de escola e classe do Critério Brasil na nota do Enem, essa última sendo efeito, ou mediadora, das demais variáveis selecionadas. Após a remoção das variáveis sexo, localização da escola e acesso à internet em casa, a escolaridade da mãe também tem efeito direto na nota média do participante, junto com a classe do Critério Brasil e o tipo de escola, resultados que estão de acordo com trabalhos anteriores. |
Abstract: | This work aims to present the causal relation between socioeconomic variables and the mean grade on the Exame Nacional do Ensino Médio (Enem). The Enem was created in 1998 as a tool to measure the performance of students after concluding basic education, and has been used as an entry method for higher education since 2009. Previous studies showed that family income and the parents' education level are influential on the performance of the student. As for the investigation on the relation between variables, the Exploratory Causal Analysis (ECA), or causal discovery, is the process of inferring a causal model, that is, the cause-effect relation of the variables on a dataset, a complement for Causal inference. Causal Inference, on the other hand, aims to identify the cause level of a variable as the effect on another. The cause-effect relationship is presented as Directed Acyclic Graphs (DAGs), where those relations are represented as arrows, pointing the cause-effect direction. Using constraint-based and score-based algorithms for causal discovery, applied to the Enem 2021 dataset, we proposed DAGs that identified factors which can explain the students’ average grade on Enem. After dataset manipulation, we select the variables most associated with school performance: type of school, income class, parental education, sex, color/race, access to the internet at home, location of school, and macroregion. The tests for difference between means returned significant differences between the groups of the selected variables, but testing conditional independence using likelihood tests for the constraint-based algorithms, sex, and location of school were not related to the other variables, and access to the internet at home being only related to the macroregion. For the three algorithms used, the models proposed direct influence of the type of school and income class on the Enem grade, the latter being influenced by, or mediating, the other variables. After removing variables sex, location of school, and access to the internet at home, the mother’s education also had a direct effect on the student’s Enem grade, along with income class and type of school, results that agree with previous studies. |
Keywords: | Análise causal exploratória Inferência causal Directed acyclic graphs Enem Desempenho escolar Exploratory causal inference Causal inference School performance |
CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA |
Language: | por |
Country: | Brasil |
Publisher: | Universidade Federal de Juiz de Fora (UFJF) |
Institution Initials: | UFJF |
Department: | ICE – Instituto de Ciências Exatas |
Access Type: | Acesso Aberto Attribution 3.0 Brazil |
Creative Commons License: | http://creativecommons.org/licenses/by/3.0/br/ |
URI: | https://repositorio.ufjf.br/jspui/handle/ufjf/15453 |
Issue Date: | 18-Jan-2023 |
Appears in Collections: | Estatística - TCC Graduação |
This item is licensed under a Creative Commons License