Framed Multi30K: Um dataset multimodal-multilíngue baseado em semântica de frames

Custódio, Marcelo Barros

Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/16854

Files in This Item:

File	Description	Size	Format
marcelobarroscustodio.pdf	PDF/A	10.66 MB	Adobe PDF	View/Open

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Torrent, Tiago Timponi	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/9386603150293010	pt_BR
dc.contributor.referee1	Matos, Ely Edison da Silva	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/3950066148389503	pt_BR
dc.contributor.referee2	Fonseca, Aline Alves	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/3812887394679047	pt_BR
dc.contributor.referee3	Pagano, Adriana Silvina	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/9048531014341931	pt_BR
dc.contributor.referee4	Caseli, Helena de Medeiros	-
dc.contributor.referee4Lattes	http://lattes.cnpq.br/6608582057810385	pt_BR
dc.creator	Custódio, Marcelo Barros	-
dc.creator.Lattes	http://lattes.cnpq.br/8407779410593512	pt_BR
dc.date.accessioned	2024-07-18T15:24:44Z	-
dc.date.available	2024-07-18	-
dc.date.available	2024-07-18T15:24:44Z	-
dc.date.issued	2024-07-16	-
dc.identifier.uri	https://repositorio.ufjf.br/jspui/handle/ufjf/16854	-
dc.description.abstract	The combination of dierent communication modalities is one of the defining characteristics of human expression. However, much research has focused on analyzing the semantics of text and images separately. In recent decades, systems that process image and text data in a correlated way have been applied to computational tasks such as data retrieval, machine translation, and caption generation. In this work, we start from the premise that the development of such computational applications can benefit from a better understanding of the meanings that are established from the combination of textual and visual information. In particular, this dissertation contributes an innovative dataset that adds to a family of gold standard datesets for multimodal and multilingual NLP - Flickr30k, Multi30k and Flickr30k Entities - semantic information structured in terms of frames, as modeled in FrameNet Brasil. The resulting dataset, called Framed Multi30k (FM30K), contributes the following innovative data: (i) 150,000 conceptual descriptions originally written in Brazilian Portuguese for each of the 30,000 images in the Flickr30k dataset; (ii) 30,000 translations into Brazilian Portuguese of one of the descriptions originally written in English for each of the images in the Flickr30K; (iii) automatic annotations for frames of all the conceptual descriptions in the dataset into Brazilian Portuguese and English, totaling 330,000 semantically annotated descriptions; (iv) manual annotations for each of the bounding boxes from the dataset Flickr30k Entities in three dierent annotation conditions: annotation of entities with presence of description, annotation of entities without presence of description and annotation of events with presence of description. The resulting dataset was analized for formal aspects of the descriptions created in Brazilian Portuguese and for the cosine similarity between the semantic representations derived from the automatic and manual annotations carried out for the descriptions and images, respectively. Qualitative analyses were also carried out on the dierent perspectives encoded in the semantic representations generated for the images in each of the annotation conditions. The analyses corroborate the hypothesis that dierent annotation conditions regarding the interaction between modalities lead to dierent semantic representations for the images, which reinforces the argument in favor of adopting a perspectivist approach to human curation of datasets.	pt_BR
dc.description.resumo	A combinação de diferentes modalidades de comunicação é uma das características definidoras da expressão humana, no entanto, muitas pesquisas voltam seus esforços para a análise da semântica textual e imagética de forma isolada. Nas últimas décadas, sistemas que processam dados de imagem e texto de forma correlacionada vêm sendo aplicados em tarefas computacionais como recuperação de dados, tradução automática e criação de legendas. Neste trabalho, partimos da premissa de que o desenvolvimento de tais aplicações computacionais pode se beneficiar de um melhor entendimento dos significados que se estabelecem a partir de combinação de informações textuais e visuais. Em particular, esta tese contribui com um dataset inovador que agrega a uma família de datesets padrão ouro para o PLN multimodal e multilíngue – Flickr30k, Multi30k e Flickr30k Entities – informações semânticas estruturadas em termos de frames, conforme modelados na FrameNet Brasil. O dataset resultante, denominado Framed Multi30k (FM30K), contribui os seguintes dados inovadores: (i) 150.000 descrições conceituais originalmente redigidas em português brasileiro para cada uma das 30.000 imagens no dataset Flickr30k; (ii) 30.000 traduções para o português brasileiro de uma das descrições originalmente escritas em inglês para cada uma das imagens no Flickr30k; (iii) anotações automáticas para frames de todas as descrições conceituais constantes do dataset para o português brasileiro e para o inglês, totalizando 330.000 descrições anotadas semanticamente; (iv) anotações manuais para cada uma das bounding boxes provenientes do dataset Flickr30k Entities em três condições de anotação distintas: anotação de entidades com presença de descrição, anotação de entidades sem presença de descrição e anotação de eventos com presença de descrição. O dataset resultante foi analisado para aspectos formais das descrições criadas em português brasileiro e para a similaridade de cosseno entre as representações semânticas derivadas das anotações automáticas e manuais realizadas para as descrições e imagens, respectivamente. Foram realizadas adicionalmente análises qualitativas acerca das distintas perspectivas codificadas nas representações semânticas geradas para as imagens em cada uma das condições de anotação. As análises corroboram a hipótese de que diferentes condições de anotação no que concerne à interação entre modalidades levam a distintas representações semânticas para as imagens, o que reforça o argumento em favor da adoção de uma abordagem perspectivista para a curadoria humana de datasets	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Juiz de Fora (UFJF)	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Faculdade de Letras	pt_BR
dc.publisher.program	Programa de Pós-graduação em Letras: Linguística	pt_BR
dc.publisher.initials	UFJF	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights	Attribution-NonCommercial-ShareAlike 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/3.0/br/	*
dc.subject	Semântica de frames	pt_BR
dc.subject	Dataset multimodal	pt_BR
dc.subject	Representação semântica multimodal	pt_BR
dc.subject	Frame semantics	pt_BR
dc.subject	Multimodal dataset	pt_BR
dc.subject	Multimodal semantic representation	pt_BR
dc.subject.cnpq	CNPQ::LINGUISTICA, LETRAS E ARTES	pt_BR
dc.title	Framed Multi30K: Um dataset multimodal-multilíngue baseado em semântica de frames	pt_BR
dc.type	Tese	pt_BR
Appears in Collections:	Doutorado em Linguística (Teses)

Show simple item record Recommend this item

This item is licensed under a Creative Commons License