DC Field | Value | Language |
dc.contributor.advisor1 | Goliatt, Priscila Vanessa Zabala Capriles | - |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br | pt_BR |
dc.contributor.advisor-co1 | Fonseca, Leonardo Goliatt da | - |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br | pt_BR |
dc.contributor.referee1 | Bernardino, Heder Soares | - |
dc.contributor.referee1Lattes | http://lattes.cnpq.br | pt_BR |
dc.contributor.referee2 | Colugnati, Fernando Antonio Basile | - |
dc.contributor.referee2Lattes | http://lattes.cnpq.br | pt_BR |
dc.contributor.referee3 | Augusto, Douglas Adriano | - |
dc.contributor.referee3Lattes | http://buscatextual.cnpq.br | pt_BR |
dc.contributor.referee4 | Silva, Eduardo Krempser da | - |
dc.contributor.referee4Lattes | http://lattes.cnpq.br | pt_BR |
dc.creator | Oliveira, João Paulo Scoralick de | - |
dc.creator.Lattes | http://buscatextual.cnpq.br | pt_BR |
dc.date.accessioned | 2024-11-25T15:22:37Z | - |
dc.date.available | 2024-11-25 | - |
dc.date.available | 2024-11-25T15:22:37Z | - |
dc.date.issued | 2024-09-12 | - |
dc.identifier.uri | https://repositorio.ufjf.br/jspui/handle/ufjf/17794 | - |
dc.description.abstract | Chronic kidney disease (CKD) represents a significant public health concern in
Brazil and globally. Characterized by the progressive and irreversible loss of kidney
function, CKD has an estimated average prevalence of 9.5% among the global adult
population. In Brazil, millions have been diagnosed with the disease, with the total
reaching an estimated 17 million in 2017. Early interventions can slow disease progression
and reduce the need for renal replacement therapies. Early detection of CKD across its
six clinical stages is critical for appropriate clinical management and is the most effective
approach to reducing treatment-associated costs.
This thesis aimed to develop application scenarios for algorithms and machine
learning (ML) techniques to predict CKD stages using a Brazilian public health database
comprising over seven thousand records containing personal, socioeconomic, clinical, and
laboratory information from patients. The proposal explored various combinations of
predictor variables to serve as a basis for ML methods capable of predicting disease
progression, thereby reducing reliance on traditional markers such as serum creatinine,
commonly used in related literature. Based on these variable combinations, connected to
clinical exams and personal data, this work also sought to identify the smallest viable set
of predictor variables for the six stages of CKD.
In developing the scenarios, three different dataset configurations were explored to
derive distinct perspectives on content representation. Various methods were applied to
infer missing data, along with techniques aimed at balancing the data, selecting relevant
variables, and partitioning the data for classification purposes. Additionally, supervised
ML algorithms with diverse theoretical foundations and objectives were employed to
facilitate a comparative analysis of the results.
The outcomes varied across the proposed scenarios. In the first scenario, classifications were performed using the random forest (RF) algorithm, with all approaches
achieving high accuracy, except for the dataset excluding serum creatinine as a predictor
variable. In the second scenario, which included 25 variables but excluded creatinine, the
extreme gradient boosting (XGBoost) algorithm demonstrated high accuracy comparable
to values reported in the literature, despite the latter’s inclusion of creatinine. In the third
scenario, dataset imbalance was addressed using different methods, and classification was
performed based on only three predictor variables. Although the overall results did not
meet expectations, some findings were promising for detecting early CKD stages. In the
fourth scenario, missing data inference was handled using the copula-based approach, but
results were unsatisfactory. Lastly, the fifth scenario was the most comprehensive in terms
of data organization, processing, selection, and classification; however, the new approaches
did not lead to significant improvements in results.
In conclusion, some of the developed scenarios successfully met the objectives
outlined in this thesis, especially as they retained the use of traditional disease markers.
The promising results may have potential applications in daily clinical practice and could
assist in the early diagnosis of chronic kidney disease. | pt_BR |
dc.description.resumo | A doença renal crônica (DRC) é um grave problema de saúde pública tanto no
Brasil quanto no mundo. Caracterizada pela perda progressiva e irreversível da função
renal, a DRC apresenta uma prevalência média projetada de 9,5% na população adulta
mundial. No Brasil, milhões de indivíduos possuem o diagnóstico da doença, tendo
esse número atingido um total estimado de 17 milhões em 2017. Intervenções precoces
podem retardar sua progressão e reduzir a necessidade de terapias renais substitutivas.
A antecipação da detecção da DRC, em cada um de seus seis estágios de gravidade, é
essencial para o adequado manejo clínico dos pacientes, representando o método mais
eficaz para a redução dos custos associados ao tratamento. O objetivo desta tese foi
desenvolver cenários de aplicação de algoritmos e técnicas de aprendizado de máquina
(AM) para a predição dos estágios da DRC, utilizando uma base de dados de saúde pública
do Brasil, composta por mais de sete mil registros que incluem informações pessoais,
socioeconômicas, clínicas e laboratoriais dos pacientes. A proposta foi explorar diferentes
combinações de variáveis preditoras que pudessem servir de base para a aplicação de
métodos de AM capazes de predizer a progressão da doença, reduzindo a dependência de
marcadores tradicionais, como a creatinina sérica, amplamente utilizada nos trabalhos da
literatura relacionada. A partir dessas combinações de variáveis relacionadas a exames
clínicos e dados pessoais, esta tese também teve como objetivo identificar o menor conjunto
viável de variáveis preditoras dos seis estágios da DRC. Para o desenvolvimento dos
cenários, foram exploradas três diferentes configurações da base de dados, com o objetivo
de extrair distintas perspectivas sobre a representação do conteúdo. Métodos variados
foram aplicados para a inferência de dados faltantes, juntamente com técnicas voltadas
ao balanceamento dos dados, seleção de variáveis relevantes e divisão dos dados para
fins de classificação. Adicionalmente, uma série de algoritmos supervisionados de AM,
com diferentes fundamentações e objetivos, foram empregados para permitir uma análise
comparativa dos resultados. Em cada cenário proposto, os resultados obtidos variaram.
No primeiro, com classificações realizadas pelo algoritmo de floresta aleatória (RF, do
inglês random forest), todas as abordagens apresentaram valores elevados de acurácia,
exceto o agrupamento que não incluiu a creatinina sérica como variável preditora. No
segundo cenário, composto por 25 variáveis e sem a inclusão da creatinina, o algoritmo
extreme gradient boosting (XGBoost) apresentou alta acurácia, comparável aos valores
reportados na literatura, em estudos que fazem uso da creatinina em suas análises. No
terceiro cenário, o desbalanceamento da base de dados foi tratado com diferentes métodos
e a classificação considerou apenas três variáveis preditoras. Embora os resultados gerais
tenham ficado aquém do esperado, alguns se revelaram promissores para a detecção dos
estágios iniciais da DRC. No quarto cenário, a inferência de dados faltantes foi abordada
por meio do conceito de cópulas, mas os resultados foram insatisfatórios. Por fim, o quinto
cenário foi o mais completo em termos de organização, tratamento, seleção e classificação
dos dados. Entretanto, as novas abordagens não resultaram em melhorias significativas
nos resultados. Em conclusão, uma parte dos cenários desenvolvidos foi bem sucedida em
corresponder aos objetivos delineados nesta tese, sobretudo por não prescindir do uso de
marcadores tradicionais da doença. Os resultados promissores possivelmente poderiam
ser avaliados para o uso na prática clínica diária e no auxílio ao diagnóstico precoce da
doença renal crônica. | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Juiz de Fora (UFJF) | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | ICE – Instituto de Ciências Exatas | pt_BR |
dc.publisher.program | Programa de Pós-graduação em Modelagem Computacional | pt_BR |
dc.publisher.initials | UFJF | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.rights | Attribution-ShareAlike 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-sa/3.0/br/ | * |
dc.subject | Aprendizado de máquina | pt_BR |
dc.subject | Algoritmo de classificação | pt_BR |
dc.subject | Doença renal crônica | pt_BR |
dc.subject | Taxa de filtração glomerular | pt_BR |
dc.subject | Sistema único de saúde | pt_BR |
dc.subject | Machine learning | pt_BR |
dc.subject | Classification algorithm | pt_BR |
dc.subject | Chronic kidney disease | pt_BR |
dc.subject | Glomerular filtration rate | pt_BR |
dc.subject | Public health system | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA | pt_BR |
dc.title | Cenários de aplicação de técnicas de aprendizado de máquina para a predição de estágios da doença renal crônica em uma base de dados do sistema público de saúde do Brasil | pt_BR |
dc.type | Tese | pt_BR |
Appears in Collections: | Doutorado em Modelagem Computacional (Teses)
|