Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/16854
Files in This Item:
File Description SizeFormat 
marcelobarroscustodio.pdfPDF/A10.66 MBAdobe PDFView/Open
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Torrent, Tiago Timponi-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9386603150293010pt_BR
dc.contributor.referee1Matos, Ely Edison da Silva-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/3950066148389503pt_BR
dc.contributor.referee2Fonseca, Aline Alves-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/3812887394679047pt_BR
dc.contributor.referee3Pagano, Adriana Silvina-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/9048531014341931pt_BR
dc.contributor.referee4Caseli, Helena de Medeiros-
dc.contributor.referee4Latteshttp://lattes.cnpq.br/6608582057810385pt_BR
dc.creatorCustódio, Marcelo Barros-
dc.creator.Latteshttp://lattes.cnpq.br/8407779410593512pt_BR
dc.date.accessioned2024-07-18T15:24:44Z-
dc.date.available2024-07-18-
dc.date.available2024-07-18T15:24:44Z-
dc.date.issued2024-07-16-
dc.identifier.urihttps://repositorio.ufjf.br/jspui/handle/ufjf/16854-
dc.description.abstractThe combination of dierent communication modalities is one of the defining characteristics of human expression. However, much research has focused on analyzing the semantics of text and images separately. In recent decades, systems that process image and text data in a correlated way have been applied to computational tasks such as data retrieval, machine translation, and caption generation. In this work, we start from the premise that the development of such computational applications can benefit from a better understanding of the meanings that are established from the combination of textual and visual information. In particular, this dissertation contributes an innovative dataset that adds to a family of gold standard datesets for multimodal and multilingual NLP - Flickr30k, Multi30k and Flickr30k Entities - semantic information structured in terms of frames, as modeled in FrameNet Brasil. The resulting dataset, called Framed Multi30k (FM30K), contributes the following innovative data: (i) 150,000 conceptual descriptions originally written in Brazilian Portuguese for each of the 30,000 images in the Flickr30k dataset; (ii) 30,000 translations into Brazilian Portuguese of one of the descriptions originally written in English for each of the images in the Flickr30K; (iii) automatic annotations for frames of all the conceptual descriptions in the dataset into Brazilian Portuguese and English, totaling 330,000 semantically annotated descriptions; (iv) manual annotations for each of the bounding boxes from the dataset Flickr30k Entities in three dierent annotation conditions: annotation of entities with presence of description, annotation of entities without presence of description and annotation of events with presence of description. The resulting dataset was analized for formal aspects of the descriptions created in Brazilian Portuguese and for the cosine similarity between the semantic representations derived from the automatic and manual annotations carried out for the descriptions and images, respectively. Qualitative analyses were also carried out on the dierent perspectives encoded in the semantic representations generated for the images in each of the annotation conditions. The analyses corroborate the hypothesis that dierent annotation conditions regarding the interaction between modalities lead to dierent semantic representations for the images, which reinforces the argument in favor of adopting a perspectivist approach to human curation of datasets.pt_BR
dc.description.resumoA combinação de diferentes modalidades de comunicação é uma das características definidoras da expressão humana, no entanto, muitas pesquisas voltam seus esforços para a análise da semântica textual e imagética de forma isolada. Nas últimas décadas, sistemas que processam dados de imagem e texto de forma correlacionada vêm sendo aplicados em tarefas computacionais como recuperação de dados, tradução automática e criação de legendas. Neste trabalho, partimos da premissa de que o desenvolvimento de tais aplicações computacionais pode se beneficiar de um melhor entendimento dos significados que se estabelecem a partir de combinação de informações textuais e visuais. Em particular, esta tese contribui com um dataset inovador que agrega a uma família de datesets padrão ouro para o PLN multimodal e multilíngue – Flickr30k, Multi30k e Flickr30k Entities – informações semânticas estruturadas em termos de frames, conforme modelados na FrameNet Brasil. O dataset resultante, denominado Framed Multi30k (FM30K), contribui os seguintes dados inovadores: (i) 150.000 descrições conceituais originalmente redigidas em português brasileiro para cada uma das 30.000 imagens no dataset Flickr30k; (ii) 30.000 traduções para o português brasileiro de uma das descrições originalmente escritas em inglês para cada uma das imagens no Flickr30k; (iii) anotações automáticas para frames de todas as descrições conceituais constantes do dataset para o português brasileiro e para o inglês, totalizando 330.000 descrições anotadas semanticamente; (iv) anotações manuais para cada uma das bounding boxes provenientes do dataset Flickr30k Entities em três condições de anotação distintas: anotação de entidades com presença de descrição, anotação de entidades sem presença de descrição e anotação de eventos com presença de descrição. O dataset resultante foi analisado para aspectos formais das descrições criadas em português brasileiro e para a similaridade de cosseno entre as representações semânticas derivadas das anotações automáticas e manuais realizadas para as descrições e imagens, respectivamente. Foram realizadas adicionalmente análises qualitativas acerca das distintas perspectivas codificadas nas representações semânticas geradas para as imagens em cada uma das condições de anotação. As análises corroboram a hipótese de que diferentes condições de anotação no que concerne à interação entre modalidades levam a distintas representações semânticas para as imagens, o que reforça o argumento em favor da adoção de uma abordagem perspectivista para a curadoria humana de datasetspt_BR
dc.languageporpt_BR
dc.publisherUniversidade Federal de Juiz de Fora (UFJF)pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentFaculdade de Letraspt_BR
dc.publisher.programPrograma de Pós-graduação em Letras: Linguísticapt_BR
dc.publisher.initialsUFJFpt_BR
dc.rightsAcesso Abertopt_BR
dc.rightsAttribution-NonCommercial-ShareAlike 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/3.0/br/*
dc.subjectSemântica de framespt_BR
dc.subjectDataset multimodalpt_BR
dc.subjectRepresentação semântica multimodalpt_BR
dc.subjectFrame semanticspt_BR
dc.subjectMultimodal datasetpt_BR
dc.subjectMultimodal semantic representationpt_BR
dc.subject.cnpqCNPQ::LINGUISTICA, LETRAS E ARTESpt_BR
dc.titleFramed Multi30K: Um dataset multimodal-multilíngue baseado em semântica de framespt_BR
dc.typeTesept_BR
Appears in Collections:Doutorado em Linguística (Teses)



This item is licensed under a Creative Commons License Creative Commons