https://repositorio.ufjf.br/jspui/handle/ufjf/17731
File | Description | Size | Format | |
---|---|---|---|---|
joaomarcosdefreitas.pdf | 2.23 MB | Adobe PDF | View/Open |
Type: | Dissertação |
Title: | Uma técnica de programação genética gramatical e semântica para regressão simbólica |
Author: | Freitas, João Marcos de |
First Advisor: | Bernardino, Heder Soares |
Co-Advisor: | Oliveira, Itamar Leite de |
Referee Member: | Gonçalves, Luciana Brugiolo |
Referee Member: | Angelo, Jaqueline da Silva |
Resumo: | A Regressão Simbólica (RS) é uma técnica de modelagem cujo objetivo é encontrar uma expressão completa, e não apenas ajustar coeficientes de um modelo fixo, como ocorre em métodos de regressão convencionais. A RS consiste em descobrir automaticamente a estrutura de um modelo a partir de dados, o que pode resultar em soluções mais precisas e interpretáveis para problemas complexos. A utilização da Programação Genética (PG) para resolver problemas de RS é particularmente vantajosa, pois a PG explora o espaço de soluções de forma eficiente e garante que as expressões matemáticas geradas sejam sintaticamente válidas. Além disso, o uso de gramáticas formais livres de contexto (GLC) gera a Programação Genética Gramatical (PGG), que possibilita a definição de regras e delimitações no espaço de soluções a ser explorado durante a regressão. Isso é crucial em RS, onde simplicidade e interpretabilidade dos modelos são fatores determinantes. Contudo, a geração livre de candidatos em métodos de RS frequentemente leva à criação de soluções redundantes ou irrelevantes. A Programação Genética Semântica (PGS), ao considerar a semântica dos candidatos durante suas operações, mostrou-se capaz de evitar esses problemas entre diversas abordagens, aumentando tanto a eficiência da busca quanto a qualidade das soluções. Isso resulta em modelos de RS que capturam de maneira mais precisa as relações intrínsecas nos dados. A Programação Genética Gramatical e Semântica (PGGS) combina as gramáticas livres de contexto da PGG com o uso de semântica, aprimorando ainda mais a capacidade de orientar a busca para a produção de expressões que sejam tanto válidas quanto semanticamente relevantes para o problema em questão. Neste trabalho, a PGGS é estudada em profundidade, com foco em seu operador de recombinação, considerando diferentes abordagens e seus efeitos sobre a busca e a qualidade das soluções geradas. Propõe-se o Roulette Semantic Crossover (RSC) como um novo operador de recombinação, que cria uma roleta entre as soluções candidatas baseada em suas semânticas, aumentando as chances de gerar novos candidatos relevantes. Além disso, é realizada uma análise paramétrica desses operadores e do desempenho da técnica em um conjunto de problemas de um benchmark desenvolvido para avaliar métodos de RS, destacando as vantagens e limitações da abordagem proposta. O RSC demonstrou ser robusto, alcançando a maior área sob a curva nos Perfis de Desempenho (PP) e obtendo o maior número de sucessos nos testes. Esses resultados indicam que a PGGS é uma abordagem promissora para RS. |
Abstract: | Symbolic Regression (SR) is a modeling technique aimed at finding a complete expression, rather than just adjusting coefficients in a fixed model, as is done in conventional regression methods. SR involves automatically discovering the structure of a model from data, which can result in more accurate and interpretable solutions for complex problems. The use of Genetic Programming (GP) to solve SR problems is particularly advantageous because GP explores the solution space efficiently and ensures that the generated mathematical expressions are syntactically valid. Additionally, the use of context-free grammars (CFG) leads to Grammatical Genetic Programming (GGP), which allows for the definition of rules and boundaries within the solution space to be explored during regression. This is crucial in SR, where simplicity and interpretability of models are key factors. However, the unrestricted generation of candidates in SR methods often leads to redundant or irrelevant solutions. Semantic Genetic Programming (SGP), by considering the semantics of candidates during its operations, has shown the ability to avoid these issues across various approaches, enhancing both search efficiency and solution quality. This results in SR models that more accurately capture the intrinsic relationships within the data. Grammatical and Semantic Genetic Programming (GSGP) combines the context-free grammars of GGP with the use of semantics, further enhancing the ability to guide the search towards producing expressions that are both valid and semantically relevant to the problem at hand. In this study, GSGP is analyzed in depth, focusing on its recombination operator and considering different approaches and their effects on search and solution quality. We propose the Roulette Semantic Crossover (RSC) as a new recombination operator that creates a roulette among candidate solutions based on their semantics, increasing the likelihood of generating relevant new candidates. Furthermore, a parametric analysis of these operators and the technique’s performance is conducted on a benchmark set of problems developed to evaluate SR methods, highlighting the advantages and limitations of the proposed approach. RSC demonstrated robustness, achieving the highest area under the curve in Performance Profiles (PP) and obtaining the highest number of successes in the tests. These results indicate that GSGP is a promising approach for SR. |
Keywords: | Programação genética Semântica Gramáticas formais livres de contexto Aprendizado de máquina Genetic programming Semantics Context-free grammars Machine learning |
CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Language: | por |
Country: | Brasil |
Publisher: | Universidade Federal de Juiz de Fora (UFJF) |
Institution Initials: | UFJF |
Department: | ICE – Instituto de Ciências Exatas |
Program: | Programa de Pós-graduação em Ciência da Computação |
Access Type: | Acesso Aberto Attribution 3.0 Brazil |
Creative Commons License: | http://creativecommons.org/licenses/by/3.0/br/ |
URI: | https://repositorio.ufjf.br/jspui/handle/ufjf/17731 |
Issue Date: | 20-Sep-2022 |
Appears in Collections: | Mestrado em Ciência da Computação (Dissertações) |
This item is licensed under a Creative Commons License