Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/17731
Files in This Item:
File Description SizeFormat 
joaomarcosdefreitas.pdf2.23 MBAdobe PDFThumbnail
View/Open
Type: Dissertação
Title: Uma técnica de programação genética gramatical e semântica para regressão simbólica
Author: Freitas, João Marcos de
First Advisor: Bernardino, Heder Soares
Co-Advisor: Oliveira, Itamar Leite de
Referee Member: Gonçalves, Luciana Brugiolo
Referee Member: Angelo, Jaqueline da Silva
Resumo: A Regressão Simbólica (RS) é uma técnica de modelagem cujo objetivo é encontrar uma expressão completa, e não apenas ajustar coeficientes de um modelo fixo, como ocorre em métodos de regressão convencionais. A RS consiste em descobrir automaticamente a estrutura de um modelo a partir de dados, o que pode resultar em soluções mais precisas e interpretáveis para problemas complexos. A utilização da Programação Genética (PG) para resolver problemas de RS é particularmente vantajosa, pois a PG explora o espaço de soluções de forma eficiente e garante que as expressões matemáticas geradas sejam sintaticamente válidas. Além disso, o uso de gramáticas formais livres de contexto (GLC) gera a Programação Genética Gramatical (PGG), que possibilita a definição de regras e delimitações no espaço de soluções a ser explorado durante a regressão. Isso é crucial em RS, onde simplicidade e interpretabilidade dos modelos são fatores determinantes. Contudo, a geração livre de candidatos em métodos de RS frequentemente leva à criação de soluções redundantes ou irrelevantes. A Programação Genética Semântica (PGS), ao considerar a semântica dos candidatos durante suas operações, mostrou-se capaz de evitar esses problemas entre diversas abordagens, aumentando tanto a eficiência da busca quanto a qualidade das soluções. Isso resulta em modelos de RS que capturam de maneira mais precisa as relações intrínsecas nos dados. A Programação Genética Gramatical e Semântica (PGGS) combina as gramáticas livres de contexto da PGG com o uso de semântica, aprimorando ainda mais a capacidade de orientar a busca para a produção de expressões que sejam tanto válidas quanto semanticamente relevantes para o problema em questão. Neste trabalho, a PGGS é estudada em profundidade, com foco em seu operador de recombinação, considerando diferentes abordagens e seus efeitos sobre a busca e a qualidade das soluções geradas. Propõe-se o Roulette Semantic Crossover (RSC) como um novo operador de recombinação, que cria uma roleta entre as soluções candidatas baseada em suas semânticas, aumentando as chances de gerar novos candidatos relevantes. Além disso, é realizada uma análise paramétrica desses operadores e do desempenho da técnica em um conjunto de problemas de um benchmark desenvolvido para avaliar métodos de RS, destacando as vantagens e limitações da abordagem proposta. O RSC demonstrou ser robusto, alcançando a maior área sob a curva nos Perfis de Desempenho (PP) e obtendo o maior número de sucessos nos testes. Esses resultados indicam que a PGGS é uma abordagem promissora para RS.
Abstract: Symbolic Regression (SR) is a modeling technique aimed at finding a complete expression, rather than just adjusting coefficients in a fixed model, as is done in conventional regression methods. SR involves automatically discovering the structure of a model from data, which can result in more accurate and interpretable solutions for complex problems. The use of Genetic Programming (GP) to solve SR problems is particularly advantageous because GP explores the solution space efficiently and ensures that the generated mathematical expressions are syntactically valid. Additionally, the use of context-free grammars (CFG) leads to Grammatical Genetic Programming (GGP), which allows for the definition of rules and boundaries within the solution space to be explored during regression. This is crucial in SR, where simplicity and interpretability of models are key factors. However, the unrestricted generation of candidates in SR methods often leads to redundant or irrelevant solutions. Semantic Genetic Programming (SGP), by considering the semantics of candidates during its operations, has shown the ability to avoid these issues across various approaches, enhancing both search efficiency and solution quality. This results in SR models that more accurately capture the intrinsic relationships within the data. Grammatical and Semantic Genetic Programming (GSGP) combines the context-free grammars of GGP with the use of semantics, further enhancing the ability to guide the search towards producing expressions that are both valid and semantically relevant to the problem at hand. In this study, GSGP is analyzed in depth, focusing on its recombination operator and considering different approaches and their effects on search and solution quality. We propose the Roulette Semantic Crossover (RSC) as a new recombination operator that creates a roulette among candidate solutions based on their semantics, increasing the likelihood of generating relevant new candidates. Furthermore, a parametric analysis of these operators and the technique’s performance is conducted on a benchmark set of problems developed to evaluate SR methods, highlighting the advantages and limitations of the proposed approach. RSC demonstrated robustness, achieving the highest area under the curve in Performance Profiles (PP) and obtaining the highest number of successes in the tests. These results indicate that GSGP is a promising approach for SR.
Keywords: Programação genética
Semântica
Gramáticas formais livres de contexto
Aprendizado de máquina
Genetic programming
Semantics
Context-free grammars
Machine learning
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Language: por
Country: Brasil
Publisher: Universidade Federal de Juiz de Fora (UFJF)
Institution Initials: UFJF
Department: ICE – Instituto de Ciências Exatas
Program: Programa de Pós-graduação em Ciência da Computação
Access Type: Acesso Aberto
Attribution 3.0 Brazil
Creative Commons License: http://creativecommons.org/licenses/by/3.0/br/
URI: https://repositorio.ufjf.br/jspui/handle/ufjf/17731
Issue Date: 20-Sep-2022
Appears in Collections:Mestrado em Ciência da Computação (Dissertações)



This item is licensed under a Creative Commons License Creative Commons