Geração de dados sintéticos para anonimização de dados de saúde por meio de redes adversárias generativas e uma função de perda customizada

Coppo, Eduarda Costa

Use este identificador para citar ou linkar para este item: https://repositorio.ufjf.br/jspui/handle/ufjf/20552

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
eduardacostacoppo.pdf		2.67 MB	Adobe PDF	Visualizar/Abrir

Tipo:	Dissertação
Título:	Geração de dados sintéticos para anonimização de dados de saúde por meio de redes adversárias generativas e uma função de perda customizada
Autor(es):	Coppo, Eduarda Costa
Primeiro Orientador:	Villela, Saulo Moraes
Co-orientador:	Vieira, Marcelo Bernardes
Membro da banca:	Bernardino, Heder Soares
Membro da banca:	Xavier, Vinicius Layter
Resumo:	Dados de saúde podem apresentar vulnerabilidades por conterem informações privadas e sensíveis, as quais devem ser consideradas em contextos que exigem a manipulação desses dados. Uma das soluções para o problema de exposição de informações sensíveis é a geração de amostras sintéticas que representem adequadamente o conjunto de dados a ser estudado. Isso permitiria uma substituição da base de dados reais, isto é, a base de dados original, pelo novo conjunto de amostras sintéticas em estudos que propõe resolver alguma tarefa envolvendo essa base de dados. Entre os vários métodos de geração de dados sintéticos, a utilização de redes adversárias generativas (GANs) destaca-se no campo da geração de imagens. Para dados tabulares, embora os estudos ainda sejam limitados, as possibilidades são amplas e demonstram a flexibilidade dessas redes na geração de amostras de menor dimensionalidade. O método proposto baseia-se em uma arquitetura de GAN, complementada por um método de treinamento que emprega uma função de perda customizada e diferentes abordagens para sua aplicação, a fim de obter uma distribuição das amostras sintéticas o mais próxima possível à real, ou seja, preservando as características estatísticas dos dados reais, bem como correlações entre seus atributos. A principal hipótese é que a GAN, aliada ao método de treinamento proposto, é capaz de gerar dados cuja distribuição se aproxima da distribuição dos dados reais. Os resultados indicam que a utilização de uma função de perda baseada na aproximação de suas matrizes de covariância favorece a geração de dados sintéticos cujos atributos têm distribuição mais próxima aos atributos dos dados reais, fazendo com que esse conjunto de dados sintéticos possa ser utilizado nas aplicações requeridas por diversas tarefas de aprendizado de máquina.
Abstract:	Health data may present vulnerabilities by containing private and sensitive information, which must be considered in contexts that require the manipulation of such data. One solution to the problem of exposing sensitive information is the generation of synthetic samples that accurately represent the dataset to be considered, allowing it to be replaced in the works proposed for a specific task. Among the various methods for generating synthetic data, the use of generative adversarial networks (GANs) stands out in the field of image generation. For tabular data, although studies are still limited, the possibilities are vast and demonstrate the flexibility of these networks in generating samples of lower dimensionality. The proposed method is based on a GAN architecture, supplemented by a training method that employs a custom loss function and different approaches for its application. The goal is to obtain a distribution of the synthetic samples as faithful as possible to the real ones. The main hypothesis is that GAN, combined with the proposed training method, would be capable of generating data whose distribution closely approximates that of the real data. The results indicate that the use of a loss function, based on the approximation of two distributions, promotes the generation of more realistic data, which can be used in the applications required by various machine learning tasks.
Palavras-chave:	Redes adversárias generativas Aumento de dados Dados tabulares Generative adversarial networks Data augmentation Tabular data
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma:	por
País:	Brasil
Editor:	Universidade Federal de Juiz de Fora (UFJF)
Sigla da Instituição:	UFJF
Departamento:	ICE – Instituto de Ciências Exatas
Programa:	Programa de Pós-graduação em Ciência da Computação
Tipo de Acesso:	Acesso Aberto Attribution-ShareAlike 3.0 Brazil
Licenças Creative Commons:	http://creativecommons.org/licenses/by-sa/3.0/br/
URI:	https://repositorio.ufjf.br/jspui/handle/ufjf/20552
Data do documento:	11-Abr-2024
Aparece nas coleções:	Mestrado em Ciência da Computação (Dissertações)

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciado sob uma Licença Creative Commons