Investigação sobre a capacidade de predição de afinidade de ligação entre moléculas em sistemas hospedeiro-hóspede por meio de métodos de aprendizado de máquina.

Carvalho, Ruan Medina

Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/13954

Files in This Item:

File	Description	Size	Format
ruanmedinacarvalho.pdf	PDF/A	8.39 MB	Adobe PDF	View/Open

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Fonseca, Leonardo Goliatt da	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/9030707448549156	pt_BR
dc.contributor.advisor-co1	Capriles, Priscila Vanessa Zabala	-
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/3074561832181610	pt_BR
dc.contributor.referee1	Borges, Carlos Cristiano Hasenclever	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/2487554612123446	pt_BR
dc.contributor.referee2	Guedes, Isabella Alvim	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/2265756121721735	pt_BR
dc.contributor.referee3	Saporetti, Camila Martins	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/4862105931908699	pt_BR
dc.creator	Carvalho, Ruan Medina	-
dc.creator.Lattes	http://lattes.cnpq.br/387975506952256	pt_BR
dc.date.accessioned	2022-03-21T19:26:52Z	-
dc.date.available	2022-03-21	-
dc.date.available	2022-03-21T19:26:52Z	-
dc.date.issued	2021-12-14	-
dc.identifier.doi	https://doi.org/10.34019/ufjf/di/2021/00417	-
dc.identifier.uri	https://repositorio.ufjf.br/jspui/handle/ufjf/13954	-
dc.description.abstract	The insertion of in silico experiments in the scientific context in recent decades has allowed the consolidation of interdisciplinary areas such as bioinformatics, computational biology, computational chemistry, among others, which seek to describe, understand and predict natural events through mathematical equations and computational methods. In this context, it is frequent that researchers are interested in predicting interaction measures between molecules, mainly to enable the rational study of drugs. Performing screenings of potential drugs computationally aims to reduce time to discover new drugs and reduce the high number of laboratory tests that make the whole process more expensive. Researchers usually perform computational molecular screenings through docking techniques, which define degrees of freedom for molecular representations within a simulation grid. The goal of the process is to evolve an optimization in this space that aims to find the geometric configuration of a possible bond between molecules and calculate metrics relating to this interaction state. To this end, the literature already presents several proposals for the formulation of objective functions for the search, sometimes based on mathematical models from the perspective of classical physics, sometimes based on models based on quantum theory. Recently, as an alternative, predictive models based on data and adjusted by computational machine learning methods have been proposed. Surprisingly, some of these methods have shown better results than the physical models, with lower prediction time once trained. Therefore, Machine Learning (ML) techniques are an integral part of rational drug design and discovery. Cyclodextrins (CDs) are nano-cages (nanohorns) used to enhance the delivery of insoluble or toxic drugs to the body. Due to the chemical similarity between CDs and proteins, ML approaches can vastly benefit studies in the field by identifying promising carriers for a given molecule of interest. In the present work, the performance of three well-known ML methods in the literature - Support Vector Regression (ε-SVR), Gaussian Process Regression (GPR), and eXtreme Gradient Boosting (XGB) - are evaluated to predict the binding affinity of cyclodextrin and ligands of interest in a host-ligand system (host-guest). We have tuned the hyperparameters of the proposed ML methods in a Random Search strategy. The results show the consistency of the methodology used by presenting controlled average error results. The best prediction performance was obtained by a GPR model optimized in random search, fitting the data well (R2 = 0.803) with low prediction errors (RMSE = 1.811kJ/mol and MAE = 1.201kJ/mol).	pt_BR
dc.description.resumo	A inserção de experimentações in silico no contexto científico nas últimas décadas permitiram a consolidação de áreas interdisciplinares como a bioinformática, biologia computacional, química computacional entre outras que buscam descrever, entender e prever eventos naturais por meio de equações matemáticas e métodos computacionais. Neste contexto, é comum que pesquisadores tenham interesse em prever medidas de interação entre moléculas, principalmente para viabilizar o estudo racional de fármacos. Realizar triagens de potenciais fármacos de forma computacional visa reduzir o tempo na descoberta de novas drogas, assim como reduzir o elevado número de testes em laboratório que encarece todo o processo. As triagens moleculares computacionais geralmente são realizadas por meio de processos chamados de docking, nos quais define-se graus de liberdade para representações moleculares no interior de uma grid de simulação. O objetivo do processo é evoluir uma otimização nesse espaço que visa encontrar a configuração geométrica de uma possível ligação entre as moléculas e calcular métricas relativas a esse estado de interação. Para isso, a literatura já apresenta diversas propostas para a formulação de funções objetivo para a busca, ora baseados em modelos matemáticos sob a ótica da física clássica, ora em modelos com base na teoria quântica. Mais recentemente, como alternativa, vêm sendo propostos modelos preditivos baseados em dados e ajustados por métodos computacionais de aprendizado de máquina. Alguns desses métodos vêm apresentando resultados superiores aos dos modelos físicos, além de possuírem tempo de predição inferiores, uma vez já treinados. Visto isso, as técnicas de aprendizado de máquina (ML, do inglês Machine Learning) estão se tornando parte integrante do desenho e descoberta racionais de fármacos e o estudo de uma série de moléculas. Nesse contexto, as Ciclodextrinas (CDs) são nano-gaiolas (nanohorns) usadas para melhorar a entrega de drogas insolúveis ou tóxicas para o organismo. Devido à semelhança química entre CDs e proteínas, abordagens ML podem beneficiar vastamente os estudos da área, identificando carreadores promisores para uma dada molécula de interesse. No presente trabalho, são avaliados o desempenho de três métodos de ML bem conhecidos na literatura - Support Vector Regression (ε-SVR), Gaussian Process Regression (GPR) e eXtreme Gradient Boosting (XGB) - para prever a afinidade de ligação da ciclodextrina e ligantes de interesse em um sistema hospedeiro-ligante (host-guest). Os hiperparâmetros dos métodos ML propostos foram ajutados em uma estratégia de busca randomizada (Random Search). Os resultados mostram a consistencia da metodologia utilizada por apresentar resultados médios de erro controlados. O melhor desempenho na predição foi obtido por um modelo GPR otmizado em busca randomizada, se ajustando bem aos dados (R2 = 0, 803) com baixos erros de predição (RMSE = 1, 811kJ/mol e MAE = 1, 201kJ/mol)..	pt_BR
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Juiz de Fora (UFJF)	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Faculdade de Engenharia	pt_BR
dc.publisher.program	Programa de Pós-graduação em Modelagem Computacional	pt_BR
dc.publisher.initials	UFJF	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights	Attribution 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/br/	*
dc.subject	Afinidade molecular	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Ciclodextrina	pt_BR
dc.subject	Molecular affinity	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Cyclodextrin	pt_BR
dc.subject.cnpq	CNPQ::ENGENHARIAS	pt_BR
dc.title	Investigação sobre a capacidade de predição de afinidade de ligação entre moléculas em sistemas hospedeiro-hóspede por meio de métodos de aprendizado de máquina.	pt_BR
dc.type	Dissertação	pt_BR
Appears in Collections:	Mestrado em Modelagem Computacional (Dissertações)

Show simple item record Recommend this item

This item is licensed under a Creative Commons License