Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/12121
Files in This Item:
File Description SizeFormat 
viniciuscariusdesouza.pdf8.68 MBAdobe PDFThumbnail
View/Open
Type: Tese
Title: Combinação de diferentes métodos de redução de dimensionalidade e de agrupamento para a detecção automática de conformações moleculares preferenciais
Author: Souza, Vinicius Carius de
First Advisor: Goliatt, Priscila Vanessa Zabala Capriles
Co-Advisor: Fonseca, Leonardo Goliatt da
Referee Member: Silva, Eduardo Krempser da
Referee Member: Dardenne, Laurent Emmanuel
Referee Member: Pinto, Priscila de Faria
Referee Member: Bernardino, Heder Soares
Resumo: A simulação de dinâmica molecular (DM) é uma técnica usada para estudar os movimentos de átomos e moléculas, permitindo a análise de conformações recorrentes e estados de transição. Por em, um grande número de conformações e necessário para estudos de predição de propriedades físico-químicas e geométricas de moléculas. Devido ao número de parâmetros considerados na descrição dos movimentos moleculares (e. g. distâncias intra e inter-atômicas, ângulos diedrais) os conjuntos de trajetórias apresentam uma alta-dimensionalidade, sendo este o principal fator que torna difícil a análise de longas simulações por DM. A utilização de técnicas como o aprendizado de máquina têm sido usadas para encontrar um espaço dimensional reduzido que representa os movimentos essenciais das moléculas, permitindo identicar movimentos representativo e facilitando a análise de longas simulações. Em geral, a análise das componentes principais (PCA), um método de transformação linear, tem sido frequentemente usado para reduzir a dimensionalidade do problema em estudos de DM essencial. Contudo, a literatura propõe o uso de métodos não-lineares para a detecção do espaço de fase de moléculas proteicas. Assim, o objetivo desta tese e desenvolver um fluxograma automatizado foi desenvolvido para a obtenção das conformações preferenciais de proteínas, trazendo para discussão os métodos de redução de dimensionalidade de dados (RDD): Autoencoder, Isomap, t-SNE, MDS e Spectral. Adicionalmente, nos propomos a combinação desses métodos com algoritmos de agrupamento para descobrir conformações representativas da trajetória de DM. Espectral. Adicionalmente uma análise estrutural e de inibição enzimática das proteínas alvo-terapêutico no tratamento da esquistossomose. Para seleção de estruturas representativas e gerado um per l de energia livre (FEL) usando o método Weighted Histogram Analysis Method (WHAM) para verificar a superfície de energia obtida por cada RDD e desta forma encontrar a conformação com maior convergência. A flutuação atômica das proteínas foi representada pelas distâncias euclidianas entre os átomos C α intra-moleculares em cada conformação. A matriz de características obtida foi usada como entrada para os redutores de dimensionalidade combinadas com algoritmos de agrupamento (K-means, Ward, Meanshift e A nity Propagation). O parâmetro de define o número de grupos do K-means e Ward foi predito usando os métodos BIC, elbow, GAP e m axima silhueta. E a análise de qualidade dos grupos detectados foi avaliado por métricas de validação interna de agrupamento (e.g., Calinski-Harabasz (CH), Davies-Bouldin index (DBI) e Silhueta). Como conjunto de testes, nós usamos como simulações as DM da miniproteína Trp-cage (PDB1L2Y) e da calmodulina (PDB1CLL) nas temperaturas de 310K e 510K. De acordo com os resultados, os métodos Spectral e Isomap foram capazes de gerar espaços de dimensionalidades reduzidas que fornecem um bom discernimento sobre a separação de classes de conformações. Por serem métodos não-lineares, o espaço gerado representa melhor os movimentos proteicos que o PCA, e ,portanto, podem ser considerados alternativas promissoras para a análise de DM por dinâmica essencial. Para a validação desses resultados, aplicamos o fluxograma em conformações da proteína HIV-1 protease obtidas por simulações de DM essencial e acelerada. Os resultados obtidos apresentaram novamente os métodos Spectral e Isomap como as melhores abordagens para a separação de classes de conformações. Por fim, aplicamos essas técnicas em estudo de caso com proteínas avaliadas por nosso grupo de pesquisa como alvos moleculares para o tratamento da esquistossomose, as isoformas 1 (smNTPDase1) e 2 (smNTPDase2) da ATP-Difosfohidrolase de Schistossoma mansoni. Para as estruturas de menor energia obtidas pelo m etodo Spectral, foram realizados estudos de docking molecular contra o composto LS1 sintetizado e cedidos pelo Núcleo de Identificação e Pesquisa em Princípios Ativos Naturais da UFJF, previamente estudado experimentalmente e apresentado como inibidor da smNTPDase1. Os resultados obtidos foram melhores do que os previamente publicados com o modelo de smNTDase1 e apontam que o composto LS1 possui grande potencial de inibição para ambas enzimas smNTPDases.
Abstract: Molecular dynamics simulation (MD) is a technique used to study atoms and molecules' movements, allowing the analysis of recurring conformations and transition states. However, many conformations are necessary for studies of the prediction of physical-chemical and geometric properties of molecules. Due to the number of parameters considered in the description of movements molecular (e. g. intra and inter-atomic distances, dihedral angles), the sets of trajectories present a high-dimensionality, this being the main factor that makes the analysis of long simulations by DM difficult. Use of techniques such as machine learning has been used to find a reduced dimensional space representing the essential movements of molecules, allowing them to identify representative movements and facilitate extended simulation analysis. In general, the principal component analysis (PCA), a linear transformation method, has often been used to reduce the problem's dimensionality in essential DM studies. However, the literature proposes the use of non-linear methods to detect the phase space of protein molecules. Thus, the objective of this thesis is to develop an automated work ow was developed to obtain the preferential conformations of proteins, bringing to discussion the methods of reducing the dimensionality of data (RDD): Autoencoder, Isomap, t-SNE, MDS, and Spectral. Additionally, we propose to combine these methods with algorithms of grouping to discover representative conformations of the DM trajectory. And finally, structural analysis and enzymatic inhibition of target-therapeutic proteins in the treatment of schistosomiasis. To select representative structures, a free energy profile (FEL) is generated using the Weighted Histogram Analysis Method (WHAM) method to check the energy surface obtained by each RDD and thus find the conformation with greater convergence. The atomic uctuation of proteins was represented by Euclidean distances between the Cα intra-molecular atoms in each conformation. The characteristic matrix obtained was used as an input for dimensionality reducers combined with clustering algorithms (K-means, Ward, Meanshift, and Affinity Propagation). The parameter defines the number of K-means groups, and Ward was predicted using the BIC, elbow, GAP, and maximum silhouette. And the quality analysis of the detected groups was evaluated by internal cluster validation metrics (e.g., Calinski-Harabasz (CH), Davies-Bouldin index (DBI) and Silhouette). As a set of tests, we used the DMs of the mini protein Trp-cage (PDB1L2Y) and calmodulin (PDB1CLL) as simulations in temperatures of 310K and 510K. According to the results, the Spectral and Isomap methods were able to generate dimensional spaces that provide a good insight into the separation of conformations classes. As they are non-linear methods, the space generated better represents protein movements than PCA and, therefore, can be considered promising alternatives for the analysis of MD by essential dynamics. We applied the work ow to HIV-1 protease conformations obtained by essential and accelerated MD simulations to validate these results. The results obtained again presented the Spectral and Isomap methods as the best approaches for separating classes of conformations. Finally, we apply these techniques in a case study with proteins evaluated by our research group as molecular targets for the treatment of schistosomiasis, isoforms 1 (smNTPDase1) and 2 (smNTPDase2) from ATP-Diphosphohydrolase de Schistossoma mansoni. For the lower energy structures obtained by the Spectral method, molecular docking studies against the LS1 compound synthesized and provided by Núcleo de Identificação e Pesquisa em Princípios Ativos Naturais da UFJF, previously studied experimentally and presented as a smNTPDase1 inhibitor. The results obtained were better than those previously published with the smNTDase1 model and point out that the compound LS1 has great potential for inhibition for both smNTPDases enzymes.
Keywords: Dinâmica molecular
Agrupamento
Redução de dimensionalidade
Schistossoma mansoni
Docking molecular
Molecular dynamics
Clustering
Dimensionality reduction
Schistossoma mansoni
Molecular docking
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA
Language: por
Country: Brasil
Publisher: Universidade Federal de Juiz de Fora (UFJF)
Institution Initials: UFJF
Department: ICE – Instituto de Ciências Exatas
Program: Programa de Pós-graduação em Modelagem Computacional
Access Type: Acesso Aberto
Creative Commons License: http://creativecommons.org/licenses/by-nc-nd/3.0/br/
URI: https://repositorio.ufjf.br/jspui/handle/ufjf/12121
Issue Date: 3-Dec-2020
Appears in Collections:Doutorado em Modelagem Computacional (Teses)



This item is licensed under a Creative Commons License Creative Commons