Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico

Brito, André de Souza

Please use this identifier to cite or link to this item: https://repositorio.ufjf.br/jspui/handle/ufjf/12598

Files in This Item:

File	Description	Size	Format
andrédesouzabrito.pdf	PDF/A	2.39 MB	Adobe PDF	View/Open

Full metadata record

DC Field	Value	Language
dc.contributor.advisor1	Villela, Saulo Moraes	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3358075178615535	pt_BR
dc.contributor.advisor-co1	Vieira, Marcelo Bernardes	-
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/0858482819476716	pt_BR
dc.contributor.referee1	Bernardino, Heder Soares	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/7733681743453751	pt_BR
dc.contributor.referee2	Pedrini, Hélio	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/9600140904712115	pt_BR
dc.creator	Brito, André de Souza	-
dc.creator.Lattes	http://lattes.cnpq.br/1889743458002542	pt_BR
dc.date.accessioned	2021-04-15T12:34:38Z	-
dc.date.available	2021-04-15	-
dc.date.available	2021-04-15T12:34:38Z	-
dc.date.issued	2019-08-30	-
dc.identifier.uri	https://repositorio.ufjf.br/jspui/handle/ufjf/12598	-
dc.description.abstract	The human action recognition problem based on video classification has significantly benefited from the introduction of deep learning models. However, this is still an open problem due to the inherent difficulty in developing a general and robust solution. In this domain, addressing the temporal aspect of the videos is crucial in order to build realistic models. A key step in this direction is the selection of features that characterize the complexity of human actions. With this goal, we propose a solution for the video classification problem based on a multi-stream deep convolutional neural network architecture. A multi-stream is an interesting way to aggregate information from different sources with a lower training cost if compared to other methods. A new stream called optical flow rhythm was incorporated to improve accuracy rates. Our experiments suggest that optical flow rhythm is complementary to other streams, such as RGB, optical flow and visual rhythm, boosting the results of the approach. To combine the various streams in our architecture, we introduce a new weighted average fusion scheme where the weights of the classifiers are defined by a simulated annealing metaheuristic. Furthermore, we propose a training and test protocol based on the extraction of multiple planes of the visual and optical flow rhythms. The results indicate a performance augmentation using this protocol. Experiments conducted on the challenging UCF101 and HMDB51 datasets demonstrate that our method is comparable to state-of-the-art approaches.	pt_BR
dc.description.resumo	O problema de reconhecimento de ações humanas baseada em vídeos beneficiou-se significativamente do surgimento de modelos de aprendizado profundo. No entanto, este ainda ´e um problema em aberto devido `a dificuldade associada ao processo de desenvolvimento de uma solução robusta e geral neste domínio. Neste ambiente, abordar o aspecto temporal dos vídeo ´e crucial para construir modelos realistas. Um passo fundamental nessa direção ´e a seleção de características dos vídeos que retratem a complexidade das ações humanas. Com este objetivo, uma solução baseada em uma arquitetura multi-fluxo formada por redes neurais convolucionais profundas ´e proposta neste trabalho. Um esquema multi-fluxo ´e uma forma interessante de agregar informações de diferentes origens com um custo de treinamento inferior ao de outros m´métodos. Uma nova característica temporal, chamada ritmo do fluxo óptico, foi incorporada `a arquitetura para melhorar o seu desempenho. Os experimentos realizados sugerem que o ritmo do fluxo óptico ´e complementar `as outras informações geralmente usadas nessas arquiteturas, como imagens em RGB, fluxo ´optico e ritmo visual, potencializando os resultados da abordagem. Para combinar os vários fluxos de informação dessa arquitetura, ´e introduzido um novo m´método de fusão por m´média ponderada, onde os pesos dos classificadores são definidos pela meta-heurística resfriamento simulado. Além disso, ´e especificada uma nova estratégia de treinamento e teste para os dois novos fluxos introduzidos neste trabalho. Esse esquema ´e baseado na extração de m´múltiplos planos dos ritmos visuais e do fluxo óptico dos vídeos. Os resultados indicam um aumento na eficácia da arquitetura usando esta estratégia. Os experimentos realizados em dois conjuntos de dados desafiadores, UCF101 e HMDB51, demonstram que o m´método desenvolvido ´e comparável `as abordagens estado da arte.	pt_BR
dc.description.sponsorship	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Juiz de Fora (UFJF)	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	ICE – Instituto de Ciências Exatas	pt_BR
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação	pt_BR
dc.publisher.initials	UFJF	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights	Attribution-NonCommercial-ShareAlike 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/3.0/br/	*
dc.subject	Reconhecimento de ações humanas	pt_BR
dc.subject	Multi-fluxo	pt_BR
dc.subject	Ritmo do fluxo óptico	pt_BR
dc.subject	Human action recognition	pt_BR
dc.subject	Multi-stream	pt_BR
dc.subject	Optical flow rhythm	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.title	Uma arquitetura de redes neurais convolucionais para reconhecimento de ações humanas em vídeos utilizando ritmos de fluxo óptico	pt_BR
dc.type	Dissertação	pt_BR
Appears in Collections:	Mestrado em Ciência da Computação (Dissertações)

Show simple item record Recommend this item

This item is licensed under a Creative Commons License