DC Field | Value | Language |
dc.contributor.advisor1 | Bernardino, Heder Soares | - |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/7733681743453751 | pt_BR |
dc.contributor.advisor-co1 | Oliveira, Itamar Leite de | - |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/1732432475089669 | pt_BR |
dc.contributor.advisor-co2 | Camata, José Jerônimo | - |
dc.contributor.advisor-co2Lattes | http://lattes.cnpq.br/7065024769982205 | pt_BR |
dc.contributor.referee1 | Goliatt, Priscila Vanessa Zabala Capriles | - |
dc.contributor.referee1Lattes | http://lattes.cnpq.br/3074561832181610 | pt_BR |
dc.contributor.referee2 | Vieira, Alex Borges | - |
dc.contributor.referee2Lattes | http://lattes.cnpq.br/9037224811267705 | pt_BR |
dc.contributor.referee3 | Augusto, Douglas Adriano | - |
dc.contributor.referee3Lattes | http://lattes.cnpq.br/5364984237364336 | pt_BR |
dc.contributor.referee4 | Goldschmidt, Ronaldo Ribeiro | - |
dc.contributor.referee4Lattes | http://lattes.cnpq.br/9602002760041175 | pt_BR |
dc.creator | Silva, José Eduardo Henriques da | - |
dc.creator.Lattes | http://lattes.cnpq.br/3305201288921237 | pt_BR |
dc.date.accessioned | 2024-07-19T10:55:19Z | - |
dc.date.available | 2024-07-18 | - |
dc.date.available | 2024-07-19T10:55:19Z | - |
dc.date.issued | 2024-04-09 | - |
dc.identifier.uri | https://repositorio.ufjf.br/jspui/handle/ufjf/16915 | - |
dc.description.abstract | The inference of gene regulatory networks (GRNs) is a difficult and important
problem, with challenges largely addressed in the area called Systems Biology. Its applications include biotechnology and health, assisting in the development of drugs, since
understanding patterns in gene interactions can lead to important discoveries related
to diseases in organisms. Single-cell RNA sequencing (scRNA-Seq) has provided unprecedented resolution to the field of transcriptomics. Experiments using scRNA-Seq are
attractive for the inference of GRNs due to the generation of thousands of independent
measurements and the possibility of obtaining a more accurate pseudotemporal view of
the dynamics of gene expression. However, not all genes are expressed all the time. The
selection of gene subsets that model the desired biological phenomenon also constitutes
a challenge for the inference of GRNs. Boolean networks and those modeled through
systems of ordinary differential equations (ODEs) are commonly used to represent GRNs.
Nevertheless, there is no standard method for discretizing the data that is provided to
Boolean networks. Boolean networks can be modeled in the form of digital circuits.
Among evolutionary computing techniques, Cartesian Genetic Programming (CGP) is
considered the most efficient technique for the evolution and optimization of combinational
logic circuits. However, evolutionary computing techniques do not appear among the
algorithms highlighted as state of the art for reconstructing GRNs, mainly motivated by
scalability problems. Furthermore, the lack of knowledge about ground-truth networks and
the non-standardization of the way to attribute quality to an inferred network increase
the challenge when solving the problem. In this work, we propose a framework that uses
CGP to infer Boolean GRNs and obtain a continuous model from data in the form of
time series. Each step of the proposed framework is explored, covering the pre-processing
of gene expression data, the selection of subsets of genes via clustering techniques as a
way of directing the search process, the ways in which the data should be discretized in
order to obtain a Boolean model, the behavior of the genetic variation operators in the
CGP, the way in which a Boolean model can be converted into a system of ODEs and
the determination of the numerical coefficients of this system of ODEs via Evolutionary
Strategies. A new procedure for discretizing gene expression data in the form of time
series is also proposed. Finally, a review of the methodological process adopted in the
context of inferring gene regulation networks from scRNA-Seq data, covering the intrinsic
characteristics of sequencing technology, the selection of genes of interest, the network
motifs , the reference networks and the metrics and way to evaluate the inferred networks
are presented. As a result, a new methodological process is proposed. All proposals are
evaluated in benchmark problems, which consider synthetic and real data obtained through
microarrays and scRNA-Seq, data from stochastic simulation, in addition to data from
organisms widely known and explored in the literature , such as Saccharomyces cerevisiae
and Escherichia coli, and data from the DREAM4 competition. The results show that
the proposals are superior or competitive with state-of-the-art methods for the inference
of GRNs and provide an interpretable solution that can assist domain experts in the
field of Systemic Biology. Furthermore, the proposed methodological process makes the
comparison of different GRN inference algorithms fairer. | pt_BR |
dc.description.resumo | A inferência de redes de regulação gênica (GRNs - do inglês Gene Regulatory
Networks) é um problema difícil e importante, com desafios amplamente endereçados
na área denominada Biologia Sistêmica. Suas aplicações incluem biotecnologia e saúde,
auxiliando no desenvolvimento de fármacos, uma vez que a compreensão de padrões
nas interações gênicas pode levar a descobertas importantes relacionadas a doenças nos
organismos. O sequencimento de RNA de célula única (scRNA-Seq - do inglês single-cell
RNA Sequencing) proveu uma resolução sem precedentes para o campo da transcriptômica.
Experimentos que utilizam scRNA-Seq são atrativos para a inferência de GRNs devido à
geração de milhares de medidas independentes e à possibilidade de se obter uma visão
pseudotemporal mais precisa da dinâmica da expressão gênica. Entretanto, nem todos os
genes são expressos o tempo todo. A seleção de conjuntos de genes que modelam o fenômeno
biológico desejado também constitui um desafio para a inferência de GRNs. As redes
Booleanas e as modeladas por meio de sistemas de equações diferenciais ordinárias (EDOs)
são comumente utilizadas para representar as GRNs. Contudo, não existe método padrão
para discretização dos dados que são fornecidos às redes Booleanas. Redes Booleanas
podem ser modeladas na forma de circuitos digitais. Dentre as técnicas de computação
evolucionista, Programação Genética Cartesiana (CGP - do inglês Cartesian Genetic
Programming) é apontada como a técnica mais eficiente para a evolução e otimização
de circuitos lógicos combinacionais. Entretanto, técnicas de computação evolucionista
não aparecem dentre os algoritmos destacados como estado da arte para a reconstrução
de GRNs, motivado principalmente por problemas de escalabilidade. Além disso, o
desconhecimento das redes ground-truth e não padronização da forma de atribuir qualidade
à uma rede inferida aumentam o desafio ao resolver o problema. Neste trabalho propõese um framework que utiliza CGP para a inferência de GRNs Booleanas e a obtenção
de um modelo contínuo a partir de dados na forma de séries temporais. Cada etapa
do framework proposto é explorada, abrangendo (i) o pré-processamento dos dados de
expressão gênica, (ii) a seleção de subconjuntos de genes via técnicas de agrupamento como
forma de direcionar o processo de busca, (iii) as maneiras pelas quais os dados devem ser
discretizados a fim de se obter um modelo Booleano, (iv) o comportamento dos operadores
de variação genética na CGP, (v) a forma pela qual um modelo Booleano pode ser
convertido em um sistema de EDOs e (vi) a determinação dos coeficientes numéricos deste
sistema de EDOs via Estratégias Evolutivas. Propõe-se, também, um novo procedimento
para discretização de dados de expressão gênica na forma de séries temporais. Por fim,
uma revisão do processo metodológico adotado no contexto de inferência de redes de
regulação gênica a partir de dados scRNA-Seq, abrangendo as características intrínsecas
à tecnologia de sequenciamento, a seleção de genes de interesse, os motifs de rede, as
redes de referência e as métricas e forma de avaliar as redes inferidas é apresentada.
Como resultado, propõe-se um novo processo metodológico. Todas as propostas são
avaliadas em problemas benchmark, que consideram dados sintéticos e reais obtidos por
meio de microarrays e scRNA-Seq, dados oriundos de simulação estocástica, além de dados
de organismos amplamente conhecidos e explorados na literatura, como Saccharomyces
cerevisiae e Escherichia coli, e dados da competição DREAM4. Os resultados mostram
que as propostas são superiores ou competitivas com os métodos estado da arte para a
inferência de GRNs e fornecem uma solução interpretável que pode auxiliar os especialistas
do domínio no campo de Biologia Sistêmica. Além disso, o processo metodológico proposto
torna mais justa a comparação de diferentes algoritmos de inferência de GRNs. | pt_BR |
dc.description.sponsorship | CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Juiz de Fora (UFJF) | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | ICE – Instituto de Ciências Exatas | pt_BR |
dc.publisher.program | Programa de Pós-graduação em Modelagem Computacional | pt_BR |
dc.publisher.initials | UFJF | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Rede de regulação gênica | pt_BR |
dc.subject | Metaheurísticas | pt_BR |
dc.subject | Programação genética cartesiana | pt_BR |
dc.subject | Gene regulatory network | pt_BR |
dc.subject | Metaheuristics | pt_BR |
dc.subject | Cartesian genetic programming | pt_BR |
dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA | pt_BR |
dc.title | Inferência de redes de regulação gênica a partir de séries temporais via meta-heurísticas | pt_BR |
dc.type | Tese | pt_BR |
Appears in Collections: | Doutorado em Modelagem Computacional (Teses)
|