Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/11217
Files in This Item:
File Description SizeFormat 
igormagalhaesribeiro.pdf5.14 MBAdobe PDFThumbnail
View/Open
Type: Tese
Title: Uma metodologia para detecção de interações epistáticas em estudos de associação
Author: Ribeiro, Igor Magalhães
First Advisor: Borges, Carlos Cristiano Hasenclever
Co-Advisor: Arbex, Wagner Antonio
Referee Member: Franco, Gloria Regina
Referee Member: Oliveira, Fabrízzio Condé
Referee Member: Fonseca Neto, Raul
Referee Member: Bernardino, Heder Soares
Resumo: Estudos de associação genômica ampla (GWAS) buscam identi car marcadores moleculares do tipo SNP que in uenciam um determinado fenótipo de interesse, como por exemplo características especí cas ou doenças. Os SNPs são responsáveis pela formação de alelos sendo esse tipo de marcador utilizado para identi car um lócus que pode representar uma correlação próxima a um gene ou a própria mutação. Para determinar os mecanismos genéticos que in uenciam o fenótipo são utilizados milhares ou até centenas de milhares de SNPs que são genotipados à partir de dois grupos de indivíduos: os que expressam e os que não expressam o fenótipo respectivamente, estudo conhecido como caso-controle. A causa de algumas doenças complexas como câncer cervical, leucemia, diabetes do tipo I e II envolvem múltiplos genes que co-atuam para expressar esse fenótipo, essa interação é denominada de epistasia. Nesse tipo de interação um gene pode inibir ou potencializar o efeitos dos demais. O entendimento adequado desse processo passa pela determinação do mapeamento não-linear entre o genótipo e o fenótipo. Além da complexidade de encontrar os SNPs causais envolvidos em interações epistáticas, a maior parte das doenças complexas apresentam baixa a herdabilidade. Desta forma, quanto menor a herdabilidade, maior a in uência de fatores ambientais e menor a explicação genotípica do fenótipo. A maior parte dos estudos de GWAS utilizam testes estatísticos de hipóteses com valor-p de cada SNP presente no conjunto de dados, sendo estes estudos frequentemente baseados em modelos de regressão. Porém, esse tipo de modelo é e ciente para capturar apenas efeitos marginais ou efeitos de ações gênicas aditivas, ou seja, casos onde a relação genótipo-fenótipo é linear. Neste trabalho é proposta uma metodologia capaz de encontrar relações não lineares entre genótipo-fenótipo em bases de dados com grandes quantidades de SNPs. A metodologia também foi desenvolvida para lidar com diferentes níveis de herdabilidade. O modelo proposto é composto de três etapas distintas. A primeira etapa é responsável pela identi cação e seleção de subgrupos de SNPs de interesse. Assim, o conjunto de dados é particionado em pequenos grupos de tamanho xo e todas as possíveis permutações intra-grupos são classi cadas através de validação cruzada aplicada em um método de comitê de classi cadores do tipo boosting. Os grupos que apresentarem marcadores com maior potencial explicativo são selecionados para a fase posterior. Na segunda etapa, um processo de ranqueamento dos marcadores SNPs selecionados a partir dos subgrupos de nidos na primeira etapa, um modelo de oresta randômica com potencial para capturar a relevância dos SNPs avaliados é aplicado nesta fase do processo. Na terceira etapa, o ranqueamento dos marcadores serve como referência para a geração de uma população de marcadores, que servirá de base para a aplicação de um método evolucionista de programação genética que tem como objetivo determinar possíveis associações entre os SNPs ranqueados. Assim, ao nal do processo, são apresentadas as relações genotípicas que expressam o fenótipo de interesse a partir de interações epistáticas, baseando-se na interpretabilidade das regras geradas. A metodologia proposta foi comparada com outros modelos existentes na literatura, inclusive com o método referência conhecido como MDR, uma variação do MDR com um método de inicializa ção conhecido como ReliefF e o GPAS. Foram realizados diversos experimentos com bases de dados simuladas, dentre eles, conjuntos de dados compostos de 100, 1000 e 10000 marcadores, com diferentes níveis de herdabilidade variando de 0:4 e 0:1 e MAF de 0:4 e 0:2. O método foi analisado em dados que apresentam epistasia sem efeito principal em 70 modelos conhecidos na literatura com herdabilidade variando de 0:4 até 0:01. Também foram executados experimentos com interações entre mais de dois SNPs e experimentos com conjuntos de dados com um número expressivo de SNPs. Os resultados indicam que a utilização da metodologia é promissora se comparada com outros modelos na literatura de GWAS.
Abstract: Genomic Wide Association Studies (GWAS) aims to identify SNPs that in uence a particular phenotype, such as speci c characteristics or diseases. SNPs are responsible for allele formation and this markers are used to identify a lócus that may represent a close correlation to a gene or the mutation itself. To determine the genetic mechanisms that in uence the phenotype are used thousands or even hundreds of thousands of SNPs that are genotyped from two groups of individuals: case and control. The reason behind some complex diseases such as cervical cancer, leukemia, type I and II diabetes involve multiple genes combining to express this phenotype. This interaction is known as epistasis. In epistasis a gene can inhibit or potentiate the e ects of the other. From the statistical point of view, the objective is to nd a non-linear mapping between the genotype and the phenotype. In addition to the complexity of nding causal SNPs involved in epistatic interactions, most complex diseases have low heritability. Thus, the lower the heritability, the greater the in uence of environmental factors and the less the genotype explanation of the phenotype. Most of GWAS use statistical tests of p-value hypotheses of each SNP present in the data set. These studies are often based on regression models. However, this type of model is e cient to capture only marginal e ects or e ects of additive gene actions. Cases where the genotype-phenotype relationship is linear. This work proposes a methodology capable of nding non-linear relationships between genotype-phenotype in data sets with large amounts of SNPs. The approach was also developed to deal with di erent levels of heritability. The proposed model is composed of three distinct steps. The rst step is responsible for identifying and selecting subgroups of signi cant SNPs. The dataset is partitioned into small xed-size groups and all possible permutations of each group are sorted by cross-validation by a ensemble method of boosting classi ers. The best groups are selected for the later stage. In the second step a process of ranking the selected SNPs from the subgroups de ned in the rst step is performed. A random forest model with potential to capture the relevance of the SNPs evaluated is applied at this stage of the process. The ranking of markers serves as a reference for the generation of a population markers, which will serve as the basis for the application of an evolutionary method of genetic programming that aims to determine possible associations between the SNPs ranked. At the end of the process, the genotypic relations that express the phenotype of interest from epistatic interactions are presented, based on the interpretability of the generated rules. The proposed methodology was compared with other models in the literature, including the reference method known as MDR, a variation of the MDR with an initialization method known as ReliefF and GPAS. Several experiments were carried out with simulated datasets, including data sets composed of 100, 1000 and 10000 SNPs with di erent levels of heritability varying from 0:4 to 0:1 and MAF of 0:4 and 0:2. The method was analyzed in data presenting epistasis without main e ect in 70 models known in the literature with heritability ranging from 0:4 to 0:01. We also performed experiments with interactions between more than two SNPs and experiments with data sets that present an expressive number of SNPs. The results denote the use of the methodology is promising compared to other models in GWAS literature.
Keywords: Bioinformática
GWAS
Inteligência computacional
Aprendizagem de máquina
Programação genética
Bioinformatics
GWAS
Computational intelligence
Machine learning
Genetic programming
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA
Language: por
Country: Brasil
Publisher: Universidade Federal de Juiz de Fora (UFJF)
Institution Initials: UFJF
Department: ICE – Instituto de Ciências Exatas
Program: Programa de Pós-graduação em Modelagem Computacional
Access Type: Acesso Aberto
URI: https://repositorio.ufjf.br/jspui/handle/ufjf/11217
Issue Date: 19-Jun-2019
Appears in Collections:Doutorado em Modelagem Computacional (Teses)



Items in DSpace are protected by Creative Commons licenses, with all rights reserved, unless otherwise indicated.