Framed Multi30K: um dataset multimodal-multilíngue baseado em semântica de frames

Custódio, Marcelo Barros

Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/16854

Files in This Item:

File	Description	Size	Format
marcelobarroscustodio.pdf	PDF/A	10.66 MB	Adobe PDF	View/Open

Type:	Tese
Title:	Framed Multi30K: um dataset multimodal-multilíngue baseado em semântica de frames
Author:	Custódio, Marcelo Barros
First Advisor:	Torrent, Tiago Timponi
Referee Member:	Matos, Ely Edison da Silva
Referee Member:	Fonseca, Aline Alves
Referee Member:	Pagano, Adriana Silvina
Referee Member:	Caseli, Helena de Medeiros
Resumo:	A combinação de diferentes modalidades de comunicação é uma das características definidoras da expressão humana, no entanto, muitas pesquisas voltam seus esforços para a análise da semântica textual e imagética de forma isolada. Nas últimas décadas, sistemas que processam dados de imagem e texto de forma correlacionada vêm sendo aplicados em tarefas computacionais como recuperação de dados, tradução automática e criação de legendas. Neste trabalho, partimos da premissa de que o desenvolvimento de tais aplicações computacionais pode se beneficiar de um melhor entendimento dos significados que se estabelecem a partir de combinação de informações textuais e visuais. Em particular, esta tese contribui com um dataset inovador que agrega a uma família de datesets padrão ouro para o PLN multimodal e multilíngue – Flickr30k, Multi30k e Flickr30k Entities – informações semânticas estruturadas em termos de frames, conforme modelados na FrameNet Brasil. O dataset resultante, denominado Framed Multi30k (FM30K), contribui os seguintes dados inovadores: (i) 150.000 descrições conceituais originalmente redigidas em português brasileiro para cada uma das 30.000 imagens no dataset Flickr30k; (ii) 30.000 traduções para o português brasileiro de uma das descrições originalmente escritas em inglês para cada uma das imagens no Flickr30k; (iii) anotações automáticas para frames de todas as descrições conceituais constantes do dataset para o português brasileiro e para o inglês, totalizando 330.000 descrições anotadas semanticamente; (iv) anotações manuais para cada uma das bounding boxes provenientes do dataset Flickr30k Entities em três condições de anotação distintas: anotação de entidades com presença de descrição, anotação de entidades sem presença de descrição e anotação de eventos com presença de descrição. O dataset resultante foi analisado para aspectos formais das descrições criadas em português brasileiro e para a similaridade de cosseno entre as representações semânticas derivadas das anotações automáticas e manuais realizadas para as descrições e imagens, respectivamente. Foram realizadas adicionalmente análises qualitativas acerca das distintas perspectivas codificadas nas representações semânticas geradas para as imagens em cada uma das condições de anotação. As análises corroboram a hipótese de que diferentes condições de anotação no que concerne à interação entre modalidades levam a distintas representações semânticas para as imagens, o que reforça o argumento em favor da adoção de uma abordagem perspectivista para a curadoria humana de datasets
Abstract:	The combination of dierent communication modalities is one of the defining characteristics of human expression. However, much research has focused on analyzing the semantics of text and images separately. In recent decades, systems that process image and text data in a correlated way have been applied to computational tasks such as data retrieval, machine translation, and caption generation. In this work, we start from the premise that the development of such computational applications can benefit from a better understanding of the meanings that are established from the combination of textual and visual information. In particular, this dissertation contributes an innovative dataset that adds to a family of gold standard datesets for multimodal and multilingual NLP - Flickr30k, Multi30k and Flickr30k Entities - semantic information structured in terms of frames, as modeled in FrameNet Brasil. The resulting dataset, called Framed Multi30k (FM30K), contributes the following innovative data: (i) 150,000 conceptual descriptions originally written in Brazilian Portuguese for each of the 30,000 images in the Flickr30k dataset; (ii) 30,000 translations into Brazilian Portuguese of one of the descriptions originally written in English for each of the images in the Flickr30K; (iii) automatic annotations for frames of all the conceptual descriptions in the dataset into Brazilian Portuguese and English, totaling 330,000 semantically annotated descriptions; (iv) manual annotations for each of the bounding boxes from the dataset Flickr30k Entities in three dierent annotation conditions: annotation of entities with presence of description, annotation of entities without presence of description and annotation of events with presence of description. The resulting dataset was analized for formal aspects of the descriptions created in Brazilian Portuguese and for the cosine similarity between the semantic representations derived from the automatic and manual annotations carried out for the descriptions and images, respectively. Qualitative analyses were also carried out on the dierent perspectives encoded in the semantic representations generated for the images in each of the annotation conditions. The analyses corroborate the hypothesis that dierent annotation conditions regarding the interaction between modalities lead to dierent semantic representations for the images, which reinforces the argument in favor of adopting a perspectivist approach to human curation of datasets.
Keywords:	Semântica de frames Dataset multimodal Representação semântica multimodal Frame semantics Multimodal dataset Multimodal semantic representation
CNPq:	CNPQ::LINGUISTICA, LETRAS E ARTES
Language:	por
Country:	Brasil
Publisher:	Universidade Federal de Juiz de Fora (UFJF)
Institution Initials:	UFJF
Department:	Faculdade de Letras
Program:	Programa de Pós-graduação em Letras: Linguística
Access Type:	Acesso Aberto Attribution-NonCommercial-ShareAlike 3.0 Brazil
Creative Commons License:	http://creativecommons.org/licenses/by-nc-sa/3.0/br/
URI:	https://repositorio.ufjf.br/jspui/handle/ufjf/16854
Issue Date:	16-Jul-2024
Appears in Collections:	Doutorado em Linguística (Teses)

Show full item record Recommend this item

This item is licensed under a Creative Commons License