Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/16915
Files in This Item:
File Description SizeFormat 
joseeduardohenriquesdasilva.pdf9.74 MBAdobe PDFView/Open
Type: Tese
Title: Inferência de redes de regulação gênica a partir de séries temporais via meta-heurísticas
Author: Silva, José Eduardo Henriques da
First Advisor: Bernardino, Heder Soares
Co-Advisor: Oliveira, Itamar Leite de
Co-Advisor: Camata, José Jerônimo
Referee Member: Goliatt, Priscila Vanessa Zabala Capriles
Referee Member: Vieira, Alex Borges
Referee Member: Augusto, Douglas Adriano
Referee Member: Goldschmidt, Ronaldo Ribeiro
Resumo: A inferência de redes de regulação gênica (GRNs - do inglês Gene Regulatory Networks) é um problema difícil e importante, com desafios amplamente endereçados na área denominada Biologia Sistêmica. Suas aplicações incluem biotecnologia e saúde, auxiliando no desenvolvimento de fármacos, uma vez que a compreensão de padrões nas interações gênicas pode levar a descobertas importantes relacionadas a doenças nos organismos. O sequencimento de RNA de célula única (scRNA-Seq - do inglês single-cell RNA Sequencing) proveu uma resolução sem precedentes para o campo da transcriptômica. Experimentos que utilizam scRNA-Seq são atrativos para a inferência de GRNs devido à geração de milhares de medidas independentes e à possibilidade de se obter uma visão pseudotemporal mais precisa da dinâmica da expressão gênica. Entretanto, nem todos os genes são expressos o tempo todo. A seleção de conjuntos de genes que modelam o fenômeno biológico desejado também constitui um desafio para a inferência de GRNs. As redes Booleanas e as modeladas por meio de sistemas de equações diferenciais ordinárias (EDOs) são comumente utilizadas para representar as GRNs. Contudo, não existe método padrão para discretização dos dados que são fornecidos às redes Booleanas. Redes Booleanas podem ser modeladas na forma de circuitos digitais. Dentre as técnicas de computação evolucionista, Programação Genética Cartesiana (CGP - do inglês Cartesian Genetic Programming) é apontada como a técnica mais eficiente para a evolução e otimização de circuitos lógicos combinacionais. Entretanto, técnicas de computação evolucionista não aparecem dentre os algoritmos destacados como estado da arte para a reconstrução de GRNs, motivado principalmente por problemas de escalabilidade. Além disso, o desconhecimento das redes ground-truth e não padronização da forma de atribuir qualidade à uma rede inferida aumentam o desafio ao resolver o problema. Neste trabalho propõese um framework que utiliza CGP para a inferência de GRNs Booleanas e a obtenção de um modelo contínuo a partir de dados na forma de séries temporais. Cada etapa do framework proposto é explorada, abrangendo (i) o pré-processamento dos dados de expressão gênica, (ii) a seleção de subconjuntos de genes via técnicas de agrupamento como forma de direcionar o processo de busca, (iii) as maneiras pelas quais os dados devem ser discretizados a fim de se obter um modelo Booleano, (iv) o comportamento dos operadores de variação genética na CGP, (v) a forma pela qual um modelo Booleano pode ser convertido em um sistema de EDOs e (vi) a determinação dos coeficientes numéricos deste sistema de EDOs via Estratégias Evolutivas. Propõe-se, também, um novo procedimento para discretização de dados de expressão gênica na forma de séries temporais. Por fim, uma revisão do processo metodológico adotado no contexto de inferência de redes de regulação gênica a partir de dados scRNA-Seq, abrangendo as características intrínsecas à tecnologia de sequenciamento, a seleção de genes de interesse, os motifs de rede, as redes de referência e as métricas e forma de avaliar as redes inferidas é apresentada. Como resultado, propõe-se um novo processo metodológico. Todas as propostas são avaliadas em problemas benchmark, que consideram dados sintéticos e reais obtidos por meio de microarrays e scRNA-Seq, dados oriundos de simulação estocástica, além de dados de organismos amplamente conhecidos e explorados na literatura, como Saccharomyces cerevisiae e Escherichia coli, e dados da competição DREAM4. Os resultados mostram que as propostas são superiores ou competitivas com os métodos estado da arte para a inferência de GRNs e fornecem uma solução interpretável que pode auxiliar os especialistas do domínio no campo de Biologia Sistêmica. Além disso, o processo metodológico proposto torna mais justa a comparação de diferentes algoritmos de inferência de GRNs.
Abstract: The inference of gene regulatory networks (GRNs) is a difficult and important problem, with challenges largely addressed in the area called Systems Biology. Its applications include biotechnology and health, assisting in the development of drugs, since understanding patterns in gene interactions can lead to important discoveries related to diseases in organisms. Single-cell RNA sequencing (scRNA-Seq) has provided unprecedented resolution to the field of transcriptomics. Experiments using scRNA-Seq are attractive for the inference of GRNs due to the generation of thousands of independent measurements and the possibility of obtaining a more accurate pseudotemporal view of the dynamics of gene expression. However, not all genes are expressed all the time. The selection of gene subsets that model the desired biological phenomenon also constitutes a challenge for the inference of GRNs. Boolean networks and those modeled through systems of ordinary differential equations (ODEs) are commonly used to represent GRNs. Nevertheless, there is no standard method for discretizing the data that is provided to Boolean networks. Boolean networks can be modeled in the form of digital circuits. Among evolutionary computing techniques, Cartesian Genetic Programming (CGP) is considered the most efficient technique for the evolution and optimization of combinational logic circuits. However, evolutionary computing techniques do not appear among the algorithms highlighted as state of the art for reconstructing GRNs, mainly motivated by scalability problems. Furthermore, the lack of knowledge about ground-truth networks and the non-standardization of the way to attribute quality to an inferred network increase the challenge when solving the problem. In this work, we propose a framework that uses CGP to infer Boolean GRNs and obtain a continuous model from data in the form of time series. Each step of the proposed framework is explored, covering the pre-processing of gene expression data, the selection of subsets of genes via clustering techniques as a way of directing the search process, the ways in which the data should be discretized in order to obtain a Boolean model, the behavior of the genetic variation operators in the CGP, the way in which a Boolean model can be converted into a system of ODEs and the determination of the numerical coefficients of this system of ODEs via Evolutionary Strategies. A new procedure for discretizing gene expression data in the form of time series is also proposed. Finally, a review of the methodological process adopted in the context of inferring gene regulation networks from scRNA-Seq data, covering the intrinsic characteristics of sequencing technology, the selection of genes of interest, the network motifs , the reference networks and the metrics and way to evaluate the inferred networks are presented. As a result, a new methodological process is proposed. All proposals are evaluated in benchmark problems, which consider synthetic and real data obtained through microarrays and scRNA-Seq, data from stochastic simulation, in addition to data from organisms widely known and explored in the literature , such as Saccharomyces cerevisiae and Escherichia coli, and data from the DREAM4 competition. The results show that the proposals are superior or competitive with state-of-the-art methods for the inference of GRNs and provide an interpretable solution that can assist domain experts in the field of Systemic Biology. Furthermore, the proposed methodological process makes the comparison of different GRN inference algorithms fairer.
Keywords: Rede de regulação gênica
Metaheurísticas
Programação genética cartesiana
Gene regulatory network
Metaheuristics
Cartesian genetic programming
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA
Language: por
Country: Brasil
Publisher: Universidade Federal de Juiz de Fora (UFJF)
Institution Initials: UFJF
Department: ICE – Instituto de Ciências Exatas
Program: Programa de Pós-graduação em Modelagem Computacional
Access Type: Acesso Aberto
Attribution-NonCommercial-NoDerivs 3.0 Brazil
Creative Commons License: http://creativecommons.org/licenses/by-nc-nd/3.0/br/
URI: https://repositorio.ufjf.br/jspui/handle/ufjf/16915
Issue Date: 9-Apr-2024
Appears in Collections:Doutorado em Modelagem Computacional (Teses)



This item is licensed under a Creative Commons License Creative Commons