Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/10307
Files in This Item:
File Description SizeFormat 
hemersonaparecidodacostatacon.pdf5.07 MBAdobe PDFThumbnail
View/Open
Full metadata record
DC FieldValueLanguage
dc.contributor.advisor1Vieira, Marcelo Bernardes-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0858482819476716pt_BR
dc.contributor.referee1Villela, Saulo Moraes-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/3358075178615535pt_BR
dc.contributor.referee2Pedrini, Hélio-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/9600140904712115pt_BR
dc.creatorTacon, Hemerson Aparecido da Costa-
dc.creator.Latteshttp://lattes.cnpq.br/3214995498870414pt_BR
dc.date.accessioned2019-07-19T13:35:35Z-
dc.date.available2019-07-16-
dc.date.available2019-07-19T13:35:35Z-
dc.date.issued2019-06-11-
dc.identifier.urihttps://repositorio.ufjf.br/jspui/handle/ufjf/10307-
dc.description.abstractDespite the significant progress of Deep Learning models on the image classification task, they still need enhancement for efficient Human Action Recognition. Such gain could be achieved through the augmentation of the existing datasets. With this goal, we propose the usage of multiple Visual Rhythm crops, symmetrically extended in time and separated by a fixed stride. The premise to augment the temporal dimension of the Visual Rhythms is that the direction of video execution does not discriminate several actions. Besides that, we propose to use the Weighted Visual Rhythm: its extraction method attempts to reinforce motion patterns by weighing the closest aspects of a specific video position in which the action typically occurs. Therefore, we replicate the Weighted Visual Rhythm by concatenating, along the temporal dimension, as many as necessary copies of it, having the even copies horizontally flipped. While providing the possibility of extracting crops matching the fixed input size of the Convolutional Neural Network employed, the symmetric extension preserves the video frame rate, which is crucial to not distort actions. In addition, multiple crops with stride ensure the coverage of the entire video. Therefore, the main contributions of this work are a new form of extracting the Visual Rhythm and a new method for performing the data augmentation of video samples. Aiming to evaluate our method, a multi-stream strategy combining RGB and Optical Flow information is modified to include two additional spatiotemporal streams: one operating on the horizontal Symmetrically Extended Visual Rhythm, and another operating on the vertical Symmetrically Extended Visual Rhythm. Accuracy rates close to the state of the art were obtained from the experiments with our method on the challenging UCF101 and HMDB51 datasets.pt_BR
dc.description.resumoNos últimos anos, avanços significativos foram alcançados no problema de classificação de imagens devido ao aprimoramentos dos modelos de Aprendizagem Profunda. Entretanto, no que diz respeito ao Reconhecimento de Ações Humanas, ainda existe muito espaço para melhorias. Uma forma de melhorar o desempenho de tais modelos é através do aumento de dados. Dessa forma propomos, como aumento de dados, o uso de múltiplos recortes do Ritmo Visual, simetricamente estendidos no tempo e separados por uma distância fixa. Propomos ainda utilizar uma nova forma de extração do Ritmo Visual, o Ritmo Visual Ponderado. Este método propõe reforçar os padrões de movimento pesando os aspectos mais próximos de uma posição específica no vídeo na qual julgamos que a ação tenha maior probabilidade de ocorrer. O método final consiste na replicação do Ritmo Visual Ponderado concatenando quantas cópias forem necessárias ao longo da dimensão temporal, tendo as cópias pares invertidas horizontalmente. Esse método torna possível a extração de recortes que correspondam ao tamanho de entrada fixo da Rede Neural Convolucional utilizada, bem como a preservação da taxa de amostragem do vídeo, o que é crucial para não distorcer a velocidade das ações. Não obstante, os vários recortes garantem que toda extensão espacial e temporal do Ritmo Visual seja contemplada. Com o objetivo de avaliar nosso método, empregamos uma estratégia multi-fluxo. Essa estratégia consiste na combinação de informações extraídas a partir dos frames RGB dos vídeos, do Fluxo Ótico, e dos Ritmos Visuais Simetricamente Estendidos horizontal e vertical. Nosso método resultou em taxas de acurácia próximas ao estado da arte nos conjuntos de dados UCF101 e HMDB51.pt_BR
dc.description.sponsorshipCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorpt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Juiz de Fora (UFJF)pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentICE – Instituto de Ciências Exataspt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUFJFpt_BR
dc.rightsAcesso Abertopt_BR
dc.rightsAttribution-ShareAlike 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-sa/3.0/br/*
dc.subjectAprendizagem profundapt_BR
dc.subjectReconhecimento de ações humanaspt_BR
dc.subjectAumento de dadospt_BR
dc.subjectRitmo visualpt_BR
dc.subjectAnálise de vídeospt_BR
dc.subjectDeep learningpt_BR
dc.subjectHuman action recognitionpt_BR
dc.subjectData augmentationpt_BR
dc.subjectVisual rhythmpt_BR
dc.subjectVideo analysispt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.titleData augmentation of visual rhythms using symmetric extension for deep learning video based human action recognitionpt_BR
dc.typeDissertaçãopt_BR
Appears in Collections:Mestrado em Ciência da Computação (Dissertações)



This item is licensed under a Creative Commons License Creative Commons