Eder de Almeida Perez
Descritor de movimento baseado em tensor e histograma de gradientes
DissertacÌ§aÌƒo apresentada ao Programa
de PoÌs-graduacÌ§aÌƒo em Modelagem
Computacional, da Universidade Federal
de Juiz de Fora como requisito parcial aÌ€
obtencÌ§aÌƒo do grau de Mestre em Modelagem
Computacional.
Orientador: Prof. D.Sc. Marcelo Bernardes Vieira
Juiz de Fora
2012
  
  
Perez, Eder de Almeida. 
Descritor de movimento baseado em tensor e histograma de 
gradientes / Eder de Almeida Perez. â€“ 2012.  
61 f. : il. 
 
DissertaÃ§Ã£o (Mestrado em Modelagem Computacional)â€“Universidade 
Federal de Juiz de Fora, Juiz de Fora, 2012. 
 
1.CiÃªncia da computaÃ§Ã£o. 2. InteligÃªncia artificial. 3. Tensores. 4. VisÃ£o 
computacional. 4. Aprendizagem. I. TÃtulo. 
 
 
CDU 681.3 
 
Eder de Almeida Perez
Descritor de movimento baseado em tensor e histograma de gradientes
DissertacÌ§aÌƒo apresentada ao Programa
de PoÌs-graduacÌ§aÌƒo em Modelagem
Computacional, da Universidade Federal
de Juiz de Fora como requisito parcial aÌ€
obtencÌ§aÌƒo do grau de Mestre em Modelagem
Computacional.
Aprovada em 24 de Agosto de 2012.
BANCA EXAMINADORA
Prof. D.Sc. Marcelo Bernardes Vieira - Orientador
Universidade Federal de Juiz de Fora
Prof. D.Sc. Esteban Walter Gonzalez Clua
Universidade Federal Fluminense
Prof. D.Sc. Carlos Cristiano Hasenclever Borges
Universidade Federal de Juiz de Fora
Dedico este trabalho aÌ€ minha
esposa NataÌlia, aos meus pais,
irmaÌƒ e amigos.
AGRADECIMENTOS
AgradecÌ§o primeiramente aÌ€ minha esposa NataÌlia pelo apoio incondicional durante todo
mestrado e por ter sacrificado alguns finais de semana em prol da cieÌ‚ncia. Aos meus pais
e aÌ€ minha irmaÌƒ por estarem ao meu lado e permitirem que eu chegasse ateÌ aqui.
AÌ€ minha sogra e meu sogro que sempre torceram pelo meu sucesso e sempre me
incentivaram nos momentos difÌÄ±ceis.
Aos meus grandes amigos PecÌ§anha, TaÌssio, Thales e Scoralick que saÌƒo verdadeiros
irmaÌƒos com quem eu sempre posso contar.
Ao meu orientador Marcelo Bernardes por todo ensinamento me dado durante esses
longos anos de GCG.
AÌ€ futura doutora VirgÌÄ±nia Mota pelo apoio nesse trabalho e nas publicacÌ§oÌƒes oriundas
dele.
AÌ€ ENSEA-UCP pelo ambiente RETIN SVM sem o qual esse trabalho naÌƒo seria
possÌÄ±vel.
AÌ€ UFJF e ao Grupo de ComputacÌ§aÌƒo GraÌfica onde eu tive a oportunidade de adquirir
grande conhecimento e foi responsaÌvel pela minha formacÌ§aÌƒo profissional.
AgradecÌ§o tambeÌm ao Luiz MaurÌÄ±lio pela enorme ajuda nos testes experimentais e a
todos os membros do GCG pelos momentos de trabalho e diversaÌƒo.
Aos membros da banca por terem aceitado o convite e por suas contribuicÌ§oÌƒes.
Aos professores do Mestrado em Modelagem Computacional e aos companheiros de
turma.
AÌ€ CAPES pelo suporte financeiro.
â€Ser eÌ ser percebidoâ€
George Berkeley
RESUMO
O reconhecimento de padroÌƒes de movimentos tem se tornado um campo de pesquisa muito
atrativo nos uÌltimos anos devido, entre outros fatores, aÌ€ grande massificacÌ§aÌƒo de dados em
vÌÄ±deos e a tendeÌ‚ncia na criacÌ§aÌƒo de interfaces homem-maÌquina que utilizam expressoÌƒes
faciais e corporais. Esse campo pode ser considerado um dos requisitos chave para anaÌlise
e entendimento de vÌÄ±deos.
Neste trabalho eÌ proposto um descritor de movimentos baseado em tensores de 2a
ordem e histogramas de gradientes (HOG - Histogram of Oriented Gradients). O caÌlculo
do descritor eÌ raÌpido, simples e eficaz. AleÌm disso, nenhum aprendizado preÌvio eÌ necessaÌrio
sendo que a adicÌ§aÌƒo de novas classes de movimentos ou novos vÌÄ±deos naÌƒo necessita de
mudancÌ§as ou que se recalculem os descritores jaÌ existentes. Cada quadro do vÌÄ±deo eÌ
particionado e em cada particÌ§aÌƒo calcula-se o histograma de gradientes no espacÌ§o e no
tempo. A partir daÌÄ± calcula-se o tensor do quadro e o descritor final eÌ formado por uma
seÌrie de tensores de cada quadro.
O descritor criado eÌ avaliado classificando-se as bases de vÌÄ±deos KTH e Hollywood2,
utilizadas na literatura atual, com um classificador MaÌquina Vetor Suporte (SVM). Os
resultados obtidos na base KTH saÌƒo proÌximos aos descritores do estado da arte que utili-
zam informacÌ§aÌƒo local do vÌÄ±deo. Os resultados obtidos na base Hollywood2 naÌƒo superam
o estado da arte, mas saÌƒo proÌximos o suficiente para concluirmos que o meÌtodo proposto
eÌ eficaz. Apesar de a literatura apresentar descritores que possuem resultados superiores
na classificacÌ§aÌƒo, suas abordagens saÌƒo complexas e de alto custo computacional.
Palavras-chave: Descritor de movimento. Tensor de 2a ordem. SeÌrie de tensores.
SVM. Histograma de gradientes. Modelagem do movimento.
ABSTRACT
The motion pattern recognition has become a very attractive research field in recent years
due to the large amount of video data and the creation of human-machine interfaces that
use facial and body expressions. This field can be considered one of the key requirements
for analysis and understanding in video.
This thesis proposes a motion descriptor based on second order tensor and histograms
of oriented gradients. The calculation of the descriptor is fast, simple and effective.
Furthermore, no prior knowledge of data basis is required and the addition of new classes
of motion and videos do not need to recalculate the existing descriptors. The frame of a
video is divided into a grid and the histogram of oriented gradients is computed in each
cell. After that, the frame tensor is computed and the final descriptor is built by a series
of frame tensors.
The descriptor is evaluated in both KTH and Hollywood2 data basis, used in the
current literature, with a Support Vector Machine classifier (SVM). The results obtained
on the basis KTH are very close to the descriptors of the state-of-the-art that use local
information of the video. The results obtained on the basis Hollywood2 not outweigh the
state-of-the-art but are close enough to conclude that the proposed method is effective.
Although the literature presents descriptors that have superior results, their approaches
are complex and with computational cost.
Keywords: Motion descriptor. Second order tensor. Series of tensors. SVM.
Histogram of oriented gradients. Motion modeling.
SUMAÌRIO
1 INTRODUCÌ§AÌƒO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1 DefinicÌ§aÌƒo do problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 ContribuicÌ§oÌƒes e PublicacÌ§oÌƒes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.1 Descritores baseados em histogramas de gradientes . . . . . . . . . . . . . 14
1.4.2 Descritores baseados em tensores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.3 Descritores globais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 FUNDAMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1 MaÌquina Vetor Suporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 SIFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Histograma de gradientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 Tensor de 2a ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3 DESCRITOR DE MOVIMENTO PROPOSTO. . . . . . . . . . . . . . . . . . . . . . . 26
3.1 Gradiente espacÌ§o-temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Particionamento do quadro e histograma de gradientes . . . . . . . . . . . . 28
3.3 CriacÌ§aÌƒo dos tensores de 2a ordem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.1 Tensor de um quadro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.2 Tensor final de um vÌÄ±deo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.3 ReflexaÌƒo do tensor para captura de simetrias. . . . . . . . . . . . . . . . . . . 31
3.4 Minimizando o efeito da variacÌ§aÌƒo de brilho . . . . . . . . . . . . . . . . . . . . . . . . 31
4 RESULTADOS E ANAÌLISE COMPARATIVA . . . . . . . . . . . . . . . . . . . . . . . 33
4.1 Base de vÌÄ±deos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Resultados na base KTH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.1 ReflexaÌƒo do quadro para o caÌlculo do histograma . . . . . . . . . . . . . . . 38
4.2.2 Usando limiarizacÌ§aÌƒo da norma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.3 Combinando limiarizacÌ§aÌƒo e reflexaÌƒo . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.4 Efeito do uso da funcÌ§aÌƒo gaussiana na ponderacÌ§aÌƒo dos gradientes
das particÌ§oÌƒes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3 Resultados na base Hollywood2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.1 ReflexaÌƒo do quadro para o caÌlculo do histograma . . . . . . . . . . . . . . . 47
4.3.2 Efeito do uso da funcÌ§aÌƒo gaussiana na ponderacÌ§aÌƒo dos gradientes
das particÌ§oÌƒes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.4 ComparacÌ§aÌƒo com descritores da literatura . . . . . . . . . . . . . . . . . . . . . . . . . 53
5 CONCLUSAÌƒO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
REFEREÌ‚NCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
11
1 INTRODUCÌ§AÌƒO
Um dos primeiros estudos sobre a natureza do movimento foi feito pelo cientista franceÌ‚s
EÌtienne-Jules Marey no seÌculo XIX. Sua ideia original foi registrar as vaÌrias etapas do
movimento em uma uÌnica fotografia (Figura 1.1). Essas fotografias eram tiradas em
um instrumento conhecido como fuzil cronofotograÌfico, capaz de produzir 12 quadros
consecutivos em uma uÌnica imagem. Esses estudos revelaram aspectos interessantes na
locomocÌ§aÌƒo de animais e seres humanos [1].
Na deÌcada de 70, o cientista Gunnar Johansson realizou um experimento que consistia
na colocacÌ§aÌƒo de pontos refletores de luz dispostos nas juntas de um modelo humano cujos
movimentos eram capturados por uma caÌ‚mera de vÌÄ±deo [2]. AtraveÌs desse experimento,
conhecido como MLD (Moving Light Display), ele foi capaz de realizar estudos a respeito
da percepcÌ§aÌƒo visual de padroÌƒes de movimentos. O trabalho de Johansson despertou grande
interesse da neurocieÌ‚ncia no estudo e anaÌlise da percepcÌ§aÌƒo do movimento [1], abrindo
caminho para a modelagem matemaÌtica de movimentos e reconhecimento automaÌtico que,
naturalmente, envolve o campo da visaÌƒo computacional e reconhecimento de padroÌƒes.
Figura 1.1: Voo de um pelicano. Foto tirada por EÌtienne-Jules Marey por volta de 1882
(domÄ±Ìnio puÌblico).
O avancÌ§o tecnoloÌgico nos dispositivos de captura de imagem e vÌÄ±deo e a popularizacÌ§aÌƒo
12
de sites de compartilhamento deste tipo de mÄ±Ìdia na internet, fez com que a pesquisa
em reconhecimento de movimentos crescesse muito nos uÌltimos anos. Algumas aÌreas de
aplicacÌ§aÌƒo saÌƒo [1]:
â€¢ Biometria Comportamental: A biometria envolve o reconhecimento de pessoas atraveÌs
de caracterÌÄ±sticas fisioloÌgicas como Ä±Ìris e impressoÌƒes digitais. Mais recentemente, ca-
racterÌÄ±sticas comportamentais como o modo de agir e se movimentar tem atraÌÄ±do
grande interesse nessa aÌrea. Diferentemente das caracterÌÄ±sticas fisioloÌgicas, eÌ possÌÄ±vel
capturar informacÌ§oÌƒes que identificam um indivÌÄ±duo sem a necessidade de interacÌ§aÌƒo
com o mesmo ou interrompendo suas atividades. Com isso, o reconhecimento de
movimentos em vÌÄ±deos desempenha papel fundamental nessa tarefa. [3]
â€¢ AnaÌlise de vÌÄ±deo baseada em conteuÌdo: Existem hoje inuÌmeros sites de compar-
tilhamento de vÌÄ±deos na internet. A classificacÌ§aÌƒo e armazenagem dessas mÄ±Ìdias
necessitam de meÌtodos eficientes para que seja possÌÄ±vel fazer buscas raÌpidas e au-
mentar a experieÌ‚ncia do usuaÌrio. Tudo isso requer o aprendizado de padroÌƒes em
vÌÄ±deos classificando-os a partir de seu conteuÌdo. [4] [5]
â€¢ SegurancÌ§a e VigilaÌ‚ncia: Sistemas de segurancÌ§a e vigilaÌ‚ncia geralmente contam com
diversas caÌ‚meras espalhadas em locais estrateÌgicos e um ou mais operadores moni-
torando cada uma delas em busca de acÌ§oÌƒes suspeitas. Quanto mais caÌ‚meras, mais
suscetÌÄ±vel aÌ€s falhas humanas torna-se o sistema. Tais falhas podem ser minimiza-
das atraveÌs de sistemas de visaÌƒo capazes de reconhecer acÌ§oÌƒes suspeitas de maneira
automaÌtica. [6] [7]
â€¢ AplicacÌ§oÌƒes Interativas e Ambientes: A interacÌ§aÌƒo entre humanos e computadores
atraveÌs de comunicacÌ§aÌƒo visual eÌ um grande desafio no projeto de interfaces homem-
maÌquina. O reconhecimento eficiente de gestos e expressoÌƒes faciais pode ajudar a
criar computadores que interagem de forma faÌcil e raÌpida com pessoas. [8]
â€¢ AnimacÌ§aÌƒo e sÌÄ±ntese: A induÌstria de jogos e cinema faz uso intenso de sistemas de
captura para sÌÄ±ntese realÌÄ±stica de movimentos em modelos tridimensionais. O avancÌ§o
dos algoritmos e hardware torna a sÌÄ±ntese de movimentos cada vez mais realista [9].
Antes de partirmos para definicÌ§aÌƒo do presente problema, faremos aqui algumas de-
finicÌ§oÌƒes baÌsicas:
13
DefinicÌ§aÌƒo 1.0.1 (Imagem). Uma imagem I pode ser definida como uma funcÌ§aÌƒo (Gomes
e Velho [10]):
I : U âŠ‚ <2 â†’ <n,
onde U eÌ um conjunto suporte, ou seja, uma regiaÌƒo onde a funcÌ§aÌƒo toma valores e <n eÌ o
espacÌ§o de cores associado a cada ponto da imagem.
DefinicÌ§aÌƒo 1.0.2 (VÄ±Ìdeo). Um vÌÄ±deo s nada mais eÌ do que uma sequeÌ‚ncia de imagens1:
s : [U âŠ‚ <2]Ã—< â†’ <n,
que representa uma imagem I em um determinado tempo t âˆˆ <. Cada imagem em um
vÌÄ±deo eÌ chamada de quadro.
1.1 DefinicÌ§aÌƒo do problema
Dados vÌÄ±deos s1 e s2 em um espacÌ§o de vÌÄ±deos S, queremos encontrar uma funcÌ§aÌƒo f
f : S â†’ <m,
onde <m eÌ um espacÌ§o euclidiano de descritores, tal que, se s1 e s2 conteÌm movimentos
similares, seus descritores saÌƒo proÌximos segundo a norma euclidiana.
1.2 Objetivos
O objetivo deste trabalho eÌ apresentar um descritor de movimentos em vÌÄ±deos sem que
nenhuma informacÌ§aÌƒo preÌvia ou aprendizado de uma base seja necessaÌrio. EÌ primordial
tambeÌm que se utilizem poucos paraÌ‚metros e haja alto desempenho no tempo de caÌlculo
dos descritores. A abordagem escolhida combina tensores de 2a ordem e histogramas de
gradientes na geracÌ§aÌƒo dos descritores utilizando informacÌ§aÌƒo de todo o quadro. Gradi-
entes de imagens saÌƒo bons estimadores de movimento. Eles representam a direcÌ§aÌƒo de
maÌxima variacÌ§aÌƒo de brilho em um ponto da imagem, sendo usados, por exemplo, por
1NaÌƒo estamos considerando aqui vÌÄ±deos com aÌudio
14
diversos meÌtodos para o caÌlculo do fluxo oÌptico [11]. Por outro lado, tensores saÌƒo pode-
rosas ferramentas matemaÌticas que vem sendo exploradas em diversas aÌreas da cieÌ‚ncia.
Tensores derivados dos gradientes na vizinhancÌ§a de um ponto de uma imagem sinteti-
zam suas direcÌ§oÌƒes predominantes, podendo-se explorar essa caracterÌÄ±stica na descricÌ§aÌƒo de
movimentos.
Muitos trabalhos calculam pontos caracterÌÄ±sticos, entre outras informacÌ§oÌƒes locais da
imagem, para geracÌ§aÌƒo dos descritores (abordagem local). Isso torna o problema mais
complexo de ser resolvido e aumenta o custo computacional. Neste trabalho os descritores
saÌƒo gerados utilizando toda informacÌ§aÌƒo do quadro (abordagem global), sendo mais simples
e menos custoso computacionalmente. AleÌm disso, a insercÌ§aÌƒo de novos vÌÄ±deos ou categorias
naÌƒo requer que se recalcule ou modifique os descritores gerados previamente.
1.3 ContribuicÌ§oÌƒes e PublicacÌ§oÌƒes
A principal contribuicÌ§aÌƒo deste trabalho estaÌ em combinar histogramas de gradientes com
tensores de 2a ordem para gerar descritores de movimentos simples, poreÌm efetivos. O
descritor eÌ simples devido aÌ€ baixa complexidade de tempo e espacÌ§o, necessitando de
poucos paraÌ‚metros e gerando um descritor compacto que eÌ calculado de maneira raÌpida
se comparado aÌ€ outros descritores. EÌ efetivo porque consegue resultados competitivos em
relacÌ§aÌƒo aÌ€s abordagens locais da literatura.
Este trabalho gerou uma publicacÌ§aÌƒo no International Conference on Pattern Recogni-
tion 2012 entitulada Combining gradient histograms using orientation tensors for human
action recognition [12].
1.4 Trabalhos relacionados
SaÌƒo apresentados aqui alguns trabalhos sobre descritores de movimentos utilizando ten-
sores e/ou histogramas de gradientes, aleÌm de alguns trabalhos sobre descritores globais.
1.4.1 Descritores baseados em histogramas de gradientes
Em [13], Lowe apresenta um novo meÌtodo de reconhecimento de objetos em imagens
usando caracterÌÄ±sticas locais. Essas caracterÌÄ±sticas saÌƒo invariaÌveis aÌ€ escala, translacÌ§aÌƒo,
15
rotacÌ§aÌƒo e, parcialmente invariaÌveis aÌ€s mudancÌ§as de brilho e projecÌ§oÌƒes afins [13]. Chamado
de Scale Invariante Feature Transform ou SIFT, esse meÌtodo transforma uma imagem em
uma grande colecÌ§aÌƒo de vetores de caracterÌÄ±sticas locais. Um dos estaÌgios na criacÌ§aÌƒo desses
vetores eÌ a geracÌ§aÌƒo de descritores a partir do gradiente local da imagem. Esses descritores
saÌƒo gerados por histogramas de gradientes e saÌƒo altamente distintivos, permitindo que
um vetor de caracterÌÄ±sticas encontre, com alta probabilidade, seu correspondente em uma
base de caracterÌÄ±sticas. Apesar de naÌƒo ser um descritor de movimentos, o trabalho de
Lowe inspirou diversos trabalhos voltados para descrever movimentos em vÌÄ±deos. PoreÌm,
seu desempenho em vÌÄ±deos naÌƒo eÌ muito bom, pois eÌ necessaÌrio a geracÌ§aÌƒo dos vetores de
caracterÌÄ±sticas em cada quadro, exigindo alto custo computacional.
Laptev [14] estende meÌtodos conhecidos de reconhecimento em imagens para o domÄ±Ìnio
espacÌ§o-temporal a fim de classificar movimentos em vÌÄ±deos. Para caracterizar o movi-
mento, ele calcula histogramas em volumes espacÌ§o-temporais na vizinhancÌ§a de pontos
de interesse. Cada volume eÌ subdividido em um conjunto de cuboides e para cada cu-
boide calculam-se histogramas de gradientes (HOG) e de fluxo oÌptico (HOF - Histogram
of Optical Flow). Os histogramas saÌƒo normalizados e concatenados em um descritor
similar ao usado no SIFT [13]. Dado um conjunto desses descritores, eÌ criado um bag-of-
features (BoF) utilizado na posterior classificacÌ§aÌƒo. Bag-of-features podem ser utilizados
na classificacÌ§aÌƒo de imagens. A ideia eÌ representar uma imagem atraveÌs de um conjunto
de descritores locais que naÌƒo possuem relacÌ§aÌƒo de ordem entre si. EÌ anaÌlogo ao bag-of-
words (BoW) em que um documento de texto eÌ representado como um histograma das
frequeÌ‚ncias de cada palavra (perdendo a relacÌ§aÌƒo de ordem entre as palavras - daÌÄ± o termo
â€œbagâ€). O uso de BoF requer a criacÌ§aÌƒo de um dicionaÌrio a partir de uma base de treino,
tornando necessaÌrio um aprendizado preÌvio.
KlaÌˆser et al. [15] apresenta um descritor espacÌ§o-temporal baseado em HOG em treÌ‚s
dimensoÌƒes. Em seu trabalho, os histogramas de orientacÌ§aÌƒo saÌƒo quantizados em poliedros
regulares onde cada face do poliedro representa um intervalo de classe do histograma.
1.4.2 Descritores baseados em tensores
Kim et al. [16] introduzem um novo meÌtodo chamado Tensor Canonical Correlation
Analysis (TCCA) que eÌ uma extensaÌƒo do claÌssico Canonical Correlation Analysis (CCA2)
2Uma ferramenta padraÌƒo para inspecÌ§aÌƒo de relacÌ§oÌƒes lineares entre dois conjuntos de vetores [17, 18]
16
para tensores e o aplicam para a classificacÌ§aÌƒo de acÌ§oÌƒes/gestos em vÌÄ±deos. Nesse meÌtodo,
caracterÌÄ±sticas de similaridade entre dois vÌÄ±deos saÌƒo produzidas atraveÌs de relacÌ§oÌƒes line-
ares e combinadas com um seletor discriminativo de caracterÌÄ±sticas e um classificador
por â€œvizinho mais proÌximoâ€ (nearest neighbor) para classificacÌ§aÌƒo de acÌ§oÌƒes. PoreÌm, o
meÌtodo exige alta demanda computacional caso movimentos similares entre dois vÌÄ±deos
naÌƒo estejam alinhados no espacÌ§o e no tempo.
Krausz e Bauckhage [19] fazem o reconhecimento de acÌ§oÌƒes baseado na ideia da fato-
rizacÌ§aÌƒo de tensores naÌƒo-negativos. Eles consideram uma sequeÌ‚ncia de vÌÄ±deo como um ten-
sor de terceira ordem e aplicam uma fatoracÌ§aÌƒo naÌƒo negativa de tensores a essa sequeÌ‚ncia.
Dessa fatoracÌ§aÌƒo saÌƒo extraÌÄ±das imagens base cuja combinacÌ§aÌƒo linear geram os quadros da
sequeÌ‚ncia. Dado um conjunto de vÌÄ±deos de teste, determina-se um conjunto de imagens
base que representam diferentes partes da silhueta do objeto em movimento. Uma vez
que diferentes combinacÌ§oÌƒes lineares dessas bases codificam diferentes poses, uma sequeÌ‚ncia
particular de poses corresponde a uma sequeÌ‚ncia particular de coeficientes lineares. O re-
conhecimento eÌ feito aplicando esse mecanismo a diferentes partes de um quadro. Como
as imagens base saÌƒo geradas previamente por uma base, eÌ necessaÌrio gerar novas imagens
a cada vez que um novo padraÌƒo de movimentos eÌ inserido.
Jia et al. [20] apresentam um meÌtodo de reconhecimento de acÌ§oÌƒes usando anaÌlise ten-
sorial e caracterÌÄ±sticas em multiescala. Nesse meÌtodo, uma seÌrie de silhuetas formam uma
imagem chamada de Serials-Frame (SF). Assim, uma acÌ§aÌƒo fica representada atraveÌs de
poses contÌÄ±nuas em uma imagem. A imagem SF eÌ entaÌƒo associada a um auto-espacÌ§o de
tensores chamado SF-Tensor (Serials-Frame Tensor). EÌ atraveÌs da anaÌlise desse espacÌ§o
que saÌƒo extraÌÄ±das informacÌ§oÌƒes para o reconhecimento de diferentes tipos de acÌ§oÌƒes. As-
sim como em [19], silhuetas representando um movimento saÌƒo geradas previamente por
uma base, resultando no mesmo problema quando necessaÌrio inserir novos padroÌƒes de
movimento.
Khadem et al. [21], assim como em [20], utiliza tensores de terceira ordem a partir
de silhuetas de um conjunto de testes. O tensor formado compreende treÌ‚s modos que
saÌƒo: pixels, acÌ§oÌƒes e pessoas. SaÌƒo encontrados os coeficientes no espacÌ§o de acÌ§oÌƒes bem
como o operador de projecÌ§aÌƒo. A sequeÌ‚ncia a ser consultada eÌ projetada no espacÌ§o de
acÌ§oÌƒes e o vetor resultante eÌ comparado aos vetores aprendidos para encontrar a classe
correspondente aÌ€ acÌ§aÌƒo.
17
Kihl et al. [22] utiliza informacÌ§aÌƒo de movimento atraveÌs do fluxo oÌptico. O campo
vetorial gerado pelo caÌlculo do fluxo eÌ projetado em uma base ortogonal de polinoÌ‚mios e
uma medida de similaridade eÌ criada usando o maior autovalor do tensor da projecÌ§aÌƒo dos
valores dos campos vetoriais. O custo computacional para a projecÌ§aÌƒo do fluxo oÌptico na
base de polinoÌ‚mios tende a aumentar consideravelmente na medida em que se aumenta o
nuÌmero de coeficientes da base.
Mota [23] propoÌƒe um descritor global de movimento baseado em um tensor de ori-
entacÌ§aÌƒo. Esse tensor, assim como em [22], tambeÌm eÌ extraÌÄ±do da projecÌ§aÌƒo do fluxo oÌptico
em uma base ortogonal de polinoÌ‚mios.
1.4.3 Descritores globais
Zelnik-manor e Irani [24] desenvolvem um descritor global baseado em histogramas de
gradientes. O descritor eÌ obtido extraindo-se escalas multitemporais atraveÌs da construcÌ§aÌƒo
de uma piraÌ‚mide temporal. Para cada escala, o gradiente de cada pixel eÌ calculado. EntaÌƒo,
um HOG eÌ criado para cada vÌÄ±deo e comparado com outros histogramas para classificar a
base de dados. Assim, dois movimentos seraÌƒo considerados similares se seus histogramas,
em uma mesma escala, saÌƒo similares. Os testes foram realizados na base Weizmann.
Laptev et al [25] aplicam o descritor global de Zelnik-manor [24] na base KTH de duas
maneiras: usando escalas multitemporais, como o original e usando escalas multitemporais
e multiespaciais.
18
2 FUNDAMENTOS
Neste capÌÄ±tulo saÌƒo apresentados os fundamentos os quais o descritor proposto se baseia.
EÌ feita uma introducÌ§aÌƒo aÌ€ MaÌquina Vetor Suporte, teÌcnica utilizada na classificacÌ§aÌƒo dos
descritores gerados em cada base de vÌÄ±deos testada. NaÌƒo nos aprofundaremos no estudo
do SVM porque foge do escopo deste trabalho. A ideia eÌ apenas usaÌ-las para classificar
os descritores gerados e testar a qualidade dos mesmos na discriminacÌ§aÌƒo de movimentos.
Sendo assim, na secÌ§aÌƒo 2.1 eÌ feita uma introducÌ§aÌƒo desta ferramenta.
Na secÌ§aÌƒo 2.2 eÌ introduzido o meÌtodo SIFT, um algoritmo para detectar e descrever
caracterÌÄ±sticas locais em imagens. Uma das etapas desse meÌtodo eÌ gerar um descritor
baseado em histograma de gradientes. Os histogramas de gradientes usados na criacÌ§aÌƒo
do descritor proposto nesta dissertacÌ§aÌƒo saÌƒo baseados especificamente nessa etapa.
Por fim, nas secÌ§oÌƒes 2.3 e 2.4 saÌƒo apresentados o histograma de gradientes (HOG) e
tensores de 2a ordem. EÌ com base nessas duas ferramentas que o descritor proposto eÌ
criado.
2.1 MaÌquina Vetor Suporte
Uma maÌquina vetor suporte (SVM) eÌ uma teÌcnica de aprendizado supervisionado que
utiliza algoritmos de aprendizado para analisar dados e reconhecer padroÌƒes. Basicamente,
o SVM pega um conjunto de dados de entrada e preveÌ‚ a qual de duas possÌÄ±veis classes
cada um deles pertence. A partir de um conjunto de treino, onde um dado eÌ marcado
como pertencente a uma de duas categorias distintas, a etapa de aprendizado do SVM
constroÌi um modelo que associa cada dado a uma ou outra categoria. Um SVM pode
classificar dados linearmente separaÌveis ou naÌƒo linearmente separaÌveis. No caso linear,
dado um conjunto de treino X de vetores de caracterÌÄ±sticas xi, com i = 1, 2, 3, . . . , N ,
que pertencem a uma de duas classes Ï‰1 ou Ï‰2 linearmente separaÌveis [26], o objetivo eÌ
encontrar o hiperplano g(x) = wTx+w0 = 0 que classifica corretamente todos os vetores
de X. A Figura 2.1 mostra um exemplo de uma solucÌ§aÌƒo para um dado conjunto de
dados. Observe que o hiperplano h(x) tambeÌm consegue dividir as classes dos dados de
treino de forma correta, poreÌm, o hiperplano g(x) consegue essa divisaÌƒo com mais â€œfolgaâ€
19
permitindo que um conjunto submetido aÌ€ classificacÌ§aÌƒo possa ter uma margem de variacÌ§aÌƒo
maior sem que seja classificado de forma incorreta (Figura 2.2).
h(x)
g(x)
Figura 2.1: Exemplo de duas classes separaÌveis linearmente e os hiperplanos g(x) e h(x)
que as separam.
h(x)
g(x)
Figura 2.2: Dados classificados utilizando os hiperplanos da Figura 2.1. Observe que o
hiperplano h(x) permitiu que dois vetores fossem classificados incorretamente enquanto
que g(x) permitiu uma correta classificacÌ§aÌƒo.
Quando as classes naÌƒo saÌƒo separaÌveis linearmente (Figura 2.3), naÌƒo eÌ possÌÄ±vel encontrar
20
um hiperplano que divida os vetores em duas classes distintas. Neste caso, uma funcÌ§aÌƒo naÌƒo
linear f eÌ usada para levar o conjunto de vetores a uma dimensaÌƒo maior onde eÌ possÌÄ±vel
separaÌ-los por um hiperplano (Figura 2.4). Existem diversas funcÌ§oÌƒes que cumprem esse
papel, chamadas nuÌcleo ou kernel, e o resultado da classificacÌ§aÌƒo pode variar de acordo
com a escolha da funcÌ§aÌƒo, como visto em [23].
Figura 2.3: NaÌƒo existe um hiperplano que divida os vetores em duas classes distintas.
f
Figura 2.4: Os vetores saÌƒo levados a uma dimensaÌƒo maior por uma funcÌ§aÌƒo f onde eÌ
possÌÄ±vel separaÌ-los linearmente.
O SVM classifica os dados em duas classes distintas, mas pode-se fazer uma clas-
sificacÌ§aÌƒo multiclasse considerando o problema, por exemplo, como um conjunto de M
21
classes dois a dois (abordagem conhecida como um contra todos) [26]. Nessa abordagem,
para cada uma das classes, o objetivo eÌ conseguir uma funcÌ§aÌƒo gi(x), i = 1, 2, . . . ,M tal
que gi(x) > gj(x),âˆ€j 6= i, se x âˆˆ Ï‰i. Pode-se entaÌƒo projetar funcÌ§oÌƒes discriminantes tal
que gi(x) = 0 eÌ o hiperplano otimal separando a classe Ï‰i de todas as outras. Assim, cada
classificador eÌ projetado para ter gi(x) > 0 para x âˆˆ Ï‰i e gi(x) < 0 caso contraÌrio. A
classificacÌ§aÌƒo eÌ entaÌƒo alcancÌ§ada de acordo com a regra:
i = arg max{gk(x)} â‡’ x âˆˆ Ï‰i (2.1)
k
2.2 SIFT
SIFT (Scale-Invariant Feature Transform) eÌ um meÌtodo para extrair caracterÌÄ±sticas dis-
tintas e invariantes em imagens, podendo ser usado para deteccÌ§aÌƒo de objetos ou cenas em
diferentes imagens [27]. O vetor de caracterÌÄ±sticas calculado eÌ invariante aÌ€ mudancÌ§a de
escala e rotacÌ§aÌƒo e parcialmente invariante aÌ€ distorcÌ§oÌƒes afins, adicÌ§aÌƒo de ruÌÄ±do e mudancÌ§as
de iluminacÌ§aÌƒo. Segundo Lowe, esse vetor possui certo nuÌmero de propriedades em comum
com as respostas dos neuroÌ‚nios do coÌrtex inferior temporal dos primatas, responsaÌvel pelo
reconhecimento de objetos no sistema de visaÌƒo desses animais.
O caÌlculo dos vetores de caracterÌÄ±sticas eÌ feito em etapas. Primeiramente, deseja-
se encontrar pontos no espacÌ§o de escalas que sejam invariantes aÌ€ rotacÌ§aÌƒo, translacÌ§aÌƒo,
escalamento e que sofram o mÄ±Ìnimo de influeÌ‚ncia de ruÌÄ±dos e distorcÌ§oÌƒes. Isso eÌ feito
identificando pontos chave atraveÌs de maÌximos e mÄ±Ìnimos encontrados em funcÌ§oÌƒes geradas
por diferencÌ§as de gaussianas, que nada mais saÌƒo do que uma subtracÌ§aÌƒo entre duas imagens
com um filtro gaussiano aplicado com valores diferentes de Ïƒ para cada uma delas.
Em seguida, eÌ feita uma varredura de informacÌ§oÌƒes na vizinhancÌ§a dos pontos localiza-
dos. Assim, pontos que tem baixo contraste (suscetÌÄ±veis a ruÌÄ±dos) ou mal localizados em
bordas saÌƒo rejeitados e os pontos mantidos saÌƒo chamados pontos chave (keypoint).
O proÌximo passo eÌ associar uma orientacÌ§aÌƒo aos pontos chave baseado nas propriedades
locais da imagem, tornando-o assim, invariante aÌ€ rotacÌ§aÌƒo. Isso eÌ feito calculando-se os
vetores gradientes numa vizinhancÌ§a do ponto chave e acumulando-os num histograma de
gradientes. O pico desse histograma indica a tendeÌ‚ncia de orientacÌ§aÌƒo dos gradientes e
seraÌ a orientacÌ§aÌƒo do ponto.
22
Os passos anteriores tratam da invariaÌ‚ncia quanto aÌ€ localizacÌ§aÌƒo, escala e rotacÌ§aÌƒo de
um ponto chave. A uÌltima etapa calcula um descritor para cada ponto de modo que ele
seja altamente distintivo e parcialmente invariante aÌ€ iluminacÌ§aÌƒo, mudancÌ§as de caÌ‚mera,
etc. Primeiro um conjunto de histogramas de gradientes, com oito intervalos de classe
cada, eÌ criado em uma vizinhancÌ§a de 4 Ã— 4 pixels. Esses histogramas saÌƒo calculados a
partir dos valores da magnitude e orientacÌ§aÌƒo de amostras de 16 Ã— 16 regioÌƒes ao redor
do ponto chave, de forma que cada histograma conteÌm amostras de uma sub-regiaÌƒo de
4 Ã— 4 pixels da vizinhancÌ§a original da regiaÌƒo. As magnitudes saÌƒo ponderadas por uma
funcÌ§aÌƒo gaussiana com metade da largura da janela do descritor. O descritor entaÌƒo se
torna um vetor com todos os valores dos histogramas. A Figura 2.5 exemplifica esse
processo. O descritor eÌ entaÌƒo normalizado a fim de aumentar a invariaÌ‚ncia de mudancÌ§as
lineares de iluminacÌ§aÌƒo. Para reduzir os efeitos de mudancÌ§as naÌƒo lineares um limiar de
0, 2 eÌ aplicado ao vetor que eÌ novamente normalizado. Esse valor de 0, 2 foi determinado
experimentalmente e o autor ([27]) naÌƒo daÌ informacÌ§oÌƒes detalhadas de como foi obtido.
Gradientes da imagem Descritor
Figura 2.5: Exemplo de um descritor de um ponto no SIFT. Calcula-se o gradiente em
cada ponto (imagem da esquerda) e pondera-se com uma janela gaussiana (indicada pelo
cÌÄ±rculo). Os gradientes saÌƒo entaÌƒo acumulados em histogramas (imagem da direita) onde
o comprimento de cada vetor corresponde aÌ€ soma das magnitudes dos gradientes com
orientacÌ§aÌƒo similar. O exemplo utiliza um descritor 2 Ã— 2 calculado em uma janela 8 Ã— 8
para melhor visualizacÌ§aÌƒo.
23
2.3 Histograma de gradientes
O gradiente do j -eÌsimo quadro de um vÌÄ±deo em um ponto p eÌ dado por,
[ ]
âˆ‡ â‰¡ âˆ‚Ij(p) âˆ‚Ij(p) âˆ‚Ij(p)Ij(p) , , , (2.2)
âˆ‚x âˆ‚y âˆ‚t
ou, equivalentemente, em coordenadas esfeÌricas,
âˆ‡Ij(p) â‰¡ [Ïp, Î¸p, Ï•p] , (2.3)
onde Î¸p âˆˆ [0, Ï€], Ï•p âˆˆ [0, 2Ï€] e Ïp = â€–âˆ‡Ij(p)â€–.
Este vetor aponta para a direcÌ§aÌƒo de maior variacÌ§aÌƒo de I no ponto p, o que pode indicar
informacÌ§aÌƒo local de movimento.
Um histograma de gradientes (HOG) eÌ uma distribuicÌ§aÌƒo das frequeÌ‚ncias de gradientes
de um quadro ou imagem. Foi proposto por Dalal e Triggs [28], inicialmente utilizado
para deteccÌ§aÌƒo de pessoas em imagens por ser um bom descritor de caracterÌÄ±sticas.
A Figura 2.6 mostra um exemplo de um histograma de gradientes bidimensional subdi-
vido em seis intervalos. Cada intervalo guarda a soma das magnitudes de todos os vetores
pertencentes ao mesmo. Por exemplo, a frequeÌ‚ncia em [120o, 180o) eÌ a soma das magni-
tudes dos dois vetores desse intervalo. De fato, um histograma bidimensional pode ser
visto como uma aproximacÌ§aÌƒo de um cÌÄ±rculo por um polÌÄ±gono, onde cada lado do polÌÄ±gono
corresponde a um intervalo de classe do histograma. Isso pode ser estendido para o caso
tridimensional aproximando-se uma esfera por poliedros. Uma vez que estamos interes-
sados em gradientes espacÌ§o-temporais, o histograma de gradientes tridimensionais hk,l
com k âˆˆ [1, bÎ¸] e l âˆˆ [1, bÏ•], sendo bÎ¸ e bÏ• o nuÌmero de intervalos de classe para Î¸ e Ï•
respectivamente, eÌ calculado como:
âˆ‘
hk,l = Ïp, (2.4)
âŒŠ âŒ‹ âŒŠ p âŒ‹
onde {p âˆˆ I bÎ¸Â·Î¸p bÏ•Â·Ï•pj | k = 1 + , l = 1 + } saÌƒo pontos cujos aÌ‚ngulos dos vetoresÏ€ 2Ï€
gradientes saÌƒo mapeados no intervalo de classe (k, l). O campo de gradientes fica entaÌƒo
representado por um vetor ~hj com bÎ¸ Â· bÏ• elementos.
24
120Âº 60Âº
180Âº 0Âº
240Âº 300Âº [0Âº, 60Âº) [60Âº - 120Âº) [120Âº - 180Âº) [180Âº - 240Âº) [240Âº - 300Âº) [300Âº - 360Âº)
(a) (b)
Figura 2.6: (a) representacÌ§aÌƒo das orientacÌ§oÌƒes de vetores gradientes na aproximacÌ§aÌƒo do
cÌÄ±rculo por um hexaÌgono. Cada lado do polÌÄ±gono corresponde a um intervalo de classe do
histograma. (b) histograma gerado pelas magnitudes e orientacÌ§oÌƒes dos gradientes.
2.4 Tensor de 2a ordem
Tensores saÌƒo entidades matemaÌticas que generalizam o conceito de vetores e escalares.
Ou seja, um vetor e um escalar saÌƒo casos particulares de tensores sendo o vetor um tensor
de primeira ordem e o escalar um tensor de ordem zero.
Um tensor de 2a ordem eÌ uma matrizmÃ—m real e simeÌtrica para sinais m-dimensionais.
Podemos usaÌ-los para representar as orientacÌ§oÌƒes predominantes em um campo de gradi-
entes. Nesse contexto, saÌƒo geralmente utilizados em processamento de imagens e visaÌƒo
computacional sendo aplicados, por exemplo, aÌ€ deteccÌ§aÌƒo de pontos de interesse, anaÌlise
de espacÌ§o de escalas [29] e no algoritmo para o caÌlculo do fluxo oÌptico de Lucas-Kanade
[30].
Definimos o tensor de 2a ordem Tf como:
Tf = ~v~v
T , (2.5)
onde ~v eÌ um vetor com m elementos.
A fim de fornecer uma expressaÌƒo do movimento meÌdio de quadros consecutivos de um
vÌÄ±deo, podemos combinar os tensores em uma seÌrie dada por:
âˆ‘
St = Ti, (2.6)
i
25
onde Ti eÌ o tensor calculado no i -eÌsimo quadro de um vÌÄ±deo.
26
3 DESCRITOR DE MOVIMENTO
PROPOSTO
Neste capÌÄ±tulo eÌ apresentado o descritor proposto nesta dissertacÌ§aÌƒo. Sua criacÌ§aÌƒo envolve o
caÌlculo de um tensor em cada quadro do vÌÄ±deo ou em um intervalo de quadros. O quadro
eÌ divido em particÌ§oÌƒes (Figura 3.2) e em cada uma delas eÌ calculado um histograma de
gradientes. Um tensor intermediaÌrio eÌ criado a partir dos histogramas e saÌƒo somados
gerando o tensor do quadro. Por fim, esses tensores saÌƒo somados gerando o descritor final
do vÌÄ±deo. O diagrama da Figura 3.1 mostra as etapas do processo de obtencÌ§aÌƒo do tensor
de um quadro que seraÌ apresentado nas secÌ§oÌƒes seguintes.
i - 1
i
CÃ¡lculo do i + 1
gradiente
Gradientes
Particionamento
do quadro
em sub-imagens
PonderaÃ§Ã£o
do gradiente
por gaussiana
CÃ¡lculo do HOG
Tensor
Tensor da
Sub-imagem
Tensor do
quadro ...
*Todos os cÃ¡lculos sÃ£o executados tambÃ©m
NormalizaÃ§Ã£o
do tensor com a imagem refletida na horizontal
e os dois tensores somados
Figura 3.1: Diagrama do caÌlculo do tensor de um quadro. O descritor final eÌ a soma dos
tensores calculados num intervalo de quadros.
27
Abaixo eÌ mostrado o pseudo-coÌdigo do meÌtodo, os passos para o caÌlculo do descritor
seraÌƒo apresentados nas secÌ§oÌƒes seguintes.
Algorithm 1: PseudocoÌdigo do meÌtodo proposto.
Entrada: VÄ±Ìdeo s; nuÌmero de particÌ§oÌƒes nx e ny
SaÌÄ±da: Descritor Ts dos movimentos do vÌÄ±deo
inÌÄ±cio
para cada quadro si de s facÌ§a
sÌ‚i = si refletido horizontalmente;
Calcula o gradiente de si e de sÌ‚i;
Particiona si e sÌ‚i em nx Ã— ny particÌ§oÌƒes;
para cada particÌ§aÌƒo p de si e pÌ‚ de sÌ‚i facÌ§a
// PonderacÌ§aÌƒo do gradiente
âˆ‡p = w Â· âˆ‡p;
âˆ‡pÌ‚ = w Â· âˆ‡pÌ‚;
// CaÌlculo do HOG
Calcula o histograma ~hk,l de p;
Calcula o histograma ~Ì‚hk,l de pÌ‚;
// Calcula o tensor da sub-imagem
Tp = ~h ~
T
k,l Â· hk,l ;
TÌ‚ = ~Ì‚p hk,l Â· ~Ì‚hTk,l ;
fim pâˆ‘ara
Ti = p Tp + TÌ‚p;
Normaliza Ti;
fim pâˆ‘ara
Ts = i Ti;
Normaliza Ts
fim
28
3.1 Gradiente espacÌ§o-temporal
A primeira etapa na criacÌ§aÌƒo do descritor eÌ o caÌlculo dos vetores gradientes em cada pixel
do quadro. Dado um vÌÄ±deo s, o gradiente espacÌ§o-temporal de um quadro si âˆˆ s eÌ:
[ ]
âˆ‡ â‰¡ âˆ‚si âˆ‚si âˆ‚sisi , , , (3.1)( ) âˆ‚x (âˆ‚y) âˆ‚t
onde âˆ‚si , âˆ‚si eÌ o gradiente espacial em si e
âˆ‚si eÌ a taxa de variacÌ§aÌƒo entre si e o quadroâˆ‚x âˆ‚y âˆ‚t
consecutivo si+1. Esses vetores gradientes capturam variacÌ§aÌƒo tanto no espacÌ§o quanto no
tempo permitindo obter informacÌ§aÌƒo de movimento.
3.2 Particionamento do quadro e histograma de gra-
dientes
Quando o histograma de gradientes eÌ calculado usando-se toda a imagem, perde-se qual-
quer correlacÌ§aÌƒo existente entre vetores gradientes que estejam em uma mesma vizinhancÌ§a
na imagem. Como observado em [13] e comprovado nos resultados apresentados no
capÌÄ±tulo 4, o particionamento dos quadros do vÌÄ±deo aumenta a taxa de reconhecimento. O
nuÌmero de particÌ§oÌƒes naÌƒo deve ser arbitraÌrio e devemos encontrar o valor que proporciona
a melhor taxa de reconhecimento. AleÌm disso, essas particÌ§oÌƒes devem se manter fixas em
todos os quadros durante a geracÌ§aÌƒo dos descritores e um descritor deve ser comparado
apenas com outro descritor gerado sob as mesmas configuracÌ§oÌƒes.
A segunda etapa na criacÌ§aÌƒo do descritor consiste entaÌƒo em dividir o quadro em
particÌ§oÌƒes e calcular o histograma de gradientes em cada uma delas. Seja si um qua-
dro uniformemente dividido em nx Ã— ny particÌ§oÌƒes naÌƒo sobrepostas (Figura 3.2). Cada
uma das particÌ§oÌƒes pode ser vista como o quadro de um vÌÄ±deo distinto. Em cada um
desses quadros eÌ calculado um histograma de gradientes ~ha,bk,l , onde a âˆˆ [1, nx] e b âˆˆ [1, ny].
Essa subdivisaÌƒo permite obtermos uma melhor correlacÌ§aÌƒo de posicÌ§aÌƒo entre os gradientes
da imagem. No entanto, dados dois quadros consecutivos si e si+1, alguns vetores gradi-
entes pertencentes aÌ€ uma particÌ§aÌƒo no primeiro quadro podem aparecer em uma particÌ§aÌƒo
vizinha no quadro seguinte. Isso pode acarretar em uma mudancÌ§a brusca do histograma
mesmo que o movimento seja suave. Para evitar isso, ponderamos cada vetor gradiente
em uma particÌ§aÌƒo com uma gaussiana cujo centro coincide com o centro da particÌ§aÌƒo (Fi-
29
gura 3.3a). Isso faz com que vetores proÌximos aÌ€ fronteira tenham um peso menor e com
isso influenciem menos, caso eles transitem de uma particÌ§aÌƒo para outra. Essa ponderacÌ§aÌƒo
mostrou-se eficaz, como seraÌ visto no capÌÄ±tulo 4.
Figura 3.2: Exemplo de um quadro com nove particÌ§oÌƒes. Cada particÌ§aÌƒo gera um HOG.
3.3 CriacÌ§aÌƒo dos tensores de 2a ordem
ApoÌs a criacÌ§aÌƒo dos histogramas de gradientes, o descritor final eÌ criado a partir dos
tensores formados em cada quadro do vÌÄ±deo.
3.3.1 Tensor de um quadro
Primeiramente, cada histograma ~ha,bk,l de cada particÌ§aÌƒo produz um tensor Ta,b referente
aÌ€quela particÌ§aÌƒo (Figura 3.3). Esse tensor carrega a informacÌ§aÌƒo de movimento obtida dos
gradientes daquela regiaÌƒo e eÌ dado por:
T
Ta,b = wp Â· ~ha,b ~ a,bk,l hk,l , (3.2)
onde wp eÌ um fator de ponderacÌ§aÌƒo que eÌ uniforme quando os quadros naÌƒo saÌƒo particionados
e gaussiano quando saÌƒo.
Individualmente, Ta,b conteÌm apenas informacÌ§aÌƒo referente aÌ€ particÌ§aÌƒo a qual ele per-
tence. Mas combinando os tensores de outras particÌ§oÌƒes consegue-se obter covariaÌ‚ncia
entre eles. Assim, criados todos os tensores das particÌ§oÌƒes de um quadro si, calcula-se o
30
tensor final do quadro como:
âˆ‘
Ti = Ta,b (3.3)
a,b
Esse tensor captura a incerteza da direcÌ§aÌƒo dos vetores m-dimensionais ~ha,bk,l de si. AleÌm
disso, a subdivisaÌƒo da imagem naÌƒo muda o tamanho do tensor, podendo-se entaÌƒo variar
o nuÌmero de particÌ§oÌƒes sem interferir no tamanho de Ti e, consequentemente, do descritor
final.
Tensor
HOG
Gradiente
( a ) ( b ) ( c )
Figura 3.3: (a) gradientes em uma particÌ§aÌƒo. O cÌÄ±rculo tracejado representa a funcÌ§aÌƒo gaus-
siana centrada no centro da particÌ§aÌƒo. (b) histograma de gradientes. (c) tensor calculado
a partir do histograma de gradientes gerado.
3.3.2 Tensor final de um vÌÄ±deo
Uma vez calculado todos os tensores de todos os quadros, o descritor final Ts de um vÌÄ±deo
s eÌ dado por:
âˆ‘
Ts = Ti (3.4)
i
Esse descritor, representado por uma seÌrie de tensores, expressa a meÌdia de movimento
dos quadros consecutivos de s. Podem-se usar todos os quadros do vÌÄ±deo ou algum
intervalo de interesse. O tamanho do tensor final depende exclusivamente da dimensaÌƒo
do histograma de gradientes e eÌ dado por (b 2Î¸ Â· bÏ•) . PoreÌm, o tensor eÌ uma matriz simeÌtrica
e pode ser armazenado com m(m+1) elementos, onde m eÌ o nuÌmero de linhas ou colunas do
2
tensor. Por exemplo, um histograma com bÎ¸ = 8 e bÏ• = 16 geraria um tensor de tamanho
31
128Ã— 128 com um total de (8 Â· 16)2 = 16384 elementos. PoreÌm, somente 8256 elementos
precisariam ser armazenados.
Por fim, o descritor final eÌ normalizado usando a norma L2. Essa normalizacÌ§aÌƒo eÌ
necessaÌria para que descritores gerados por um nuÌmero diferente de quadros ou por dife-
rentes resolucÌ§oÌƒes de imagem possam ser comparados.
3.3.3 ReflexaÌƒo do tensor para captura de simetrias
EÌ possÌÄ±vel reforcÌ§ar simetrias horizontais do gradiente que ocorrem no vÌÄ±deo, mesmo aquelas
entre muÌltiplos frames, atraveÌs da reflexaÌƒo horizontal do quadro. Com isso, calcula-se o
tensor TÌ‚i do quadro refletido e acumula-se com o tensor Ti gerando o tensor final:
âˆ‘
TÌ‚s = (Ti + TÌ‚i) (3.5)
i
Essa mudancÌ§a naÌƒo interfere no processo de obtencÌ§aÌƒo do tensor final que eÌ o mesmo
descrito em 3.3.2. Ou seja, somam-se os tensores gerados em cada quadro, com a diferencÌ§a
de que o tensor de cada quadro i passa a ser a soma de Ti com TÌ‚i.
No capÌÄ±tulo 4 mostra-se que a adicÌ§aÌƒo desse tensor aumenta consideravelmente a taxa
de classificacÌ§aÌƒo dos dados.
3.4 Minimizando o efeito da variacÌ§aÌƒo de brilho
VariacÌ§oÌƒes na iluminacÌ§aÌƒo podem fazer com que dois descritores gerados para movimentos
similares sejam bem diferentes jaÌ que a magnitude do vetor gradiente estaÌ diretamente
ligada ao brilho da imagem. Para evitar os efeitos devido aÌ€ mudancÌ§a de iluminacÌ§aÌƒo nos
quadros, eÌ feita uma normalizacÌ§aÌƒo usando a norma L2 em cada ~h
a,b
k,l . Como explicado em
[27], uma mudancÌ§a no contraste da imagem, no qual o valor de um pixel eÌ multiplicado
por uma constante, iraÌ multiplicar o gradiente pela mesma constante, assim, a norma-
lizacÌ§aÌƒo iraÌ cancelar o efeito dessa mudancÌ§a. PoreÌm, uma variacÌ§aÌƒo no brilho, na qual uma
constante eÌ somada ao valor de um pixel naÌƒo afetaraÌ os valores do gradiente porque eles
saÌƒo calculados a partir de diferencÌ§as entre pixels.
Podem ocorrer tambeÌm, mudancÌ§as naÌƒo lineares de iluminacÌ§aÌƒo devido aÌ€ saturacÌ§aÌƒo da
caÌ‚mera ou variacÌ§oÌƒes de iluminacÌ§aÌƒo em superfÌÄ±cies com diferentes orientacÌ§oÌƒes. Esses efei-
tos podem causar uma grande mudancÌ§a nas magnitudes de alguns gradientes, mas saÌƒo
32
menos provaÌveis de afetar sua orientacÌ§aÌƒo [27]. Isso eÌ reduzido usando uma normalizacÌ§aÌƒo
igual a encontrada no SIFT, onde eÌ feita uma limiarizacÌ§aÌƒo dos valores do vetor unitaÌrio,
normalizando novamente em seguida. Isso significa que gradientes com altas magnitudes
naÌƒo saÌƒo mais importantes do que a proÌpria distribuicÌ§aÌƒo de orientacÌ§oÌƒes. Na secÌ§aÌƒo de resul-
tados comprova-se que essa limiarizacÌ§aÌƒo produz um aumento significativo na classificacÌ§aÌƒo
dos movimentos. EÌ importante dizer que essa normalizacÌ§aÌƒo torna o tensor possivelmente
indefinido, podendo ter autovalores negativos.
33
4 RESULTADOS E ANAÌLISE
COMPARATIVA
Neste capÌÄ±tulo eÌ apresentada a avaliacÌ§aÌƒo do descritor de movimentos em diversas confi-
guracÌ§oÌƒes e eÌ feita uma comparacÌ§aÌƒo dos melhores resultados com o que haÌ de mais recente
na literatura. O descritor foi utilizado em um classificador MaÌquina de Vetor Suporte
(SVM). NaÌƒo eÌ objetivo deste trabalho aprofundar-se no estudo do SVM e sim de como
montar o descritor de forma simples e eficiente. As configuracÌ§oÌƒes adotadas para o SVM,
incluindo sua funcÌ§aÌƒo nuÌcleo, saÌƒo as mesmas utilizadas no trabalho de Mota [23]: funcÌ§aÌƒo
nuÌcleo triangular e norma L2.
O descritor foi avaliado atraveÌs das bases KTH [31] e Hollywood2 [32], descritas na
proÌxima secÌ§aÌƒo. Ambas saÌƒo amplamente utilizadas na literatura.
A geracÌ§aÌƒo dos descritores e sua classificacÌ§aÌƒo foram feitos no sistema RETIN (RE-
cherche et Traque INteractive dâ€™images) do laboratoÌrio ETIS (Equipes Traitement de
lâ€™Information et SysteÌ€mes) da ENSEA (EÌcole Nationale SupeÌrieure de lâ€™EÌlectronique et
de ses Applications) [33].
4.1 Base de vÌÄ±deos
A base de vÌÄ±deos KTH eÌ composta por seis tipos de acÌ§oÌƒes humanas:
â€¢ Walking (Walk): movimento de pessoa caminhando;
â€¢ Jogging (Jog): movimento entre uma corrida e uma caminhada;
â€¢ Running (Run): movimento de pessoa correndo;
â€¢ Boxing (Box): movimento de pessoa desferindo socos no ar;
â€¢ Hand waving (HWav): movimento de pessoa agitando os bracÌ§os;
â€¢ Hand clapping (HClap): movimento de pessoa batendo palmas.
34
Estas acÌ§oÌƒes saÌƒo executadas diversas vezes por 25 pessoas e em quatro cenaÌrios dife-
rentes (Figura 3.2):
â€¢ ambiente externo (s1);
â€¢ ambiente externo com variacÌ§aÌƒo de escala (s2);
â€¢ ambiente externo com variacÌ§aÌƒo de velocidade (s3);
â€¢ ambiente interno (s4).
No total saÌƒo 2391 sequeÌ‚ncias realizadas com fundo homogeÌ‚neo e uma caÌ‚mera estaÌtica
de 25 quadros por segundo. As sequeÌ‚ncias tem resolucÌ§aÌƒo de 160x120 pixels e duram, em
meÌdia, quatro segundos.
Figura 4.1: Seis tipos de acÌ§oÌƒes em quatro diferentes cenaÌrios na base de vÌÄ±deos KTH [31].
A base Hollywood2 eÌ composta por 12 classes de acÌ§oÌƒes humanas que saÌƒo:
â€¢ AnswerPhone: pessoa atendendo o telefone;
â€¢ DriveCar : pessoa dirigindo;
â€¢ Eat : pessoa comendo;
â€¢ FightPerson: cena de luta;
35
â€¢ GetOutCar : pessoa saindo do carro;
â€¢ HandShake: aperto de maÌƒos entre pessoas;
â€¢ HugPerson: pessoas se abracÌ§ando;
â€¢ Kiss : pessoas se beijando;
â€¢ Run: pessoa correndo;
â€¢ SitDown: pessoa sentando;
â€¢ SitUp: pessoa se levantando;
â€¢ StandUp: pessoa ficando em peÌ.
E por 10 classes de cenas tanto externas quanto internas: EXT-House, EXT-Road,
INT-Bedroom, INT-Car, INT-Hotel, INT-Kitchen, INT-LivingRoom, INT-Office, INT-
Restaurant, INT-Shop.
Tudo isso distribuÌÄ±dos em 2669 vÌÄ±deos a partir de trechos de 69 filmes, totalizando
aproximadamente 20.1 horas de gravacÌ§aÌƒo. O objetivo da Hollywood2 eÌ fornecer uma
base de caÌlculo para o reconhecimento de acÌ§oÌƒes humanas em um ambiente realÌÄ±stico e
desafiador [32].
(a) dirigindo (b) lutando
(c) aperto de maÌƒo (d) sentando
Figura 4.2: Exemplos de acÌ§oÌƒes na base Hollywood2 [32].
36
4.2 Resultados na base KTH
Nesta secÌ§aÌƒo saÌƒo apresentados resultados classificando a base KTH com um classificador
SVM. Para esta base, foi rodado um classificador multiclasse usando uma estrateÌgia um
contra todos e um criteÌrio de Bayes para selecÌ§aÌƒo do modelo. A Figura 4.3 mostra a taxa
de reconhecimento encontrada para diversos nuÌmeros de particÌ§oÌƒes diferentes do quadro
e um HOG de 16 Ã— 8 intervalos de classe. AleÌm disso, o histograma de cada particÌ§aÌƒo eÌ
normalizado segundo a norma L2. Na Tabela 4.1 saÌƒo mostrados os valores exatos dessa
classificacÌ§aÌƒo. Nota-se que o particionamento dos quadros aumenta consideravelmente a
taxa de reconhecimento. Comparando-se o melhor resultado, obtido com o particiona-
mento 10Ã—10, com o resultado sem particionamento do quadro (1Ã—1), obteÌm-se um ganho
de 3, 59% na classificacÌ§aÌƒo. AleÌm disso, como fica faÌcil observar no graÌfico, o aumento do
nuÌmero de particÌ§oÌƒes naÌƒo garante um aumento na classificacÌ§aÌƒo.
Figura 4.3: Resultados da classificacÌ§aÌƒo da base KTH usando HOG 16Ã— 8 com norma L2.
37
ParticÌ§aÌƒo Taxa de reconhecimento
1x1 83,7882%
2x2 82,5086%
4x4 86,9132%
8x8 87,3786%
10x10 87,6101%
12x12 86,2212%
14x14 86,6825%
16x16 87,2612%
18x18 86,1022%
19x19 86,5668%
20x20 85,2920%
Tabela 4.1: Valores da classificacÌ§aÌƒo do graÌfico da Figura 4.3.
Na Tabela 4.2 saÌƒo mostrados alguns resultados para outras dimensoÌƒes do histograma
de gradientes.
DimensaÌƒo do HOG
Particionamento 4x2 6x3 8x4
4x4 78,231% 77,877% 79,732%
8x8 79,163% 78,696% 80,897%
16x16 79,045% 77,656% 81,937%
Tabela 4.2: Resultados utilizando outras dimensoÌƒes para o histograma de gradientes.
Todas as outras configuracÌ§oÌƒes saÌƒo as mesmas da tabela 4.1.
O melhor resultado para as configuracÌ§oÌƒes apresentadas ateÌ aqui foi com um histo-
grama de dimensaÌƒo 16Ã— 8, com 10Ã— 10 particÌ§oÌƒes, normalizado com a norma L2 em cada
histograma gerado. A matriz de confusaÌƒo para este resultado eÌ apresentada na Tabela
4.3. Ela mostra o percentual de acÌ§oÌƒes classificadas corretamente e tambeÌm a porcentagem
que foi classificada de forma errada.
38
Box HWav HClap Jog Run Walk
Box 95,10% 7,64% 12,50% 0,0% 0,0% 0,0%
HWav 0,0% 89,58% 2,08% 0,0% 0,0% 0,0%
HClap 3,50% 0,69% 86,86% 0,0% 0,0% 0,0%
Jog 0,0% 0,0% 0,0% 84,03% 19,44% 9,03%
Run 0,0% 0,0% 0,0% 9,72% 80,55% 0,0%
Walk 1,40% 2,08% 0,0% 6,25% 0,0% 90,97%
Tabela 4.3: Matriz de confusaÌƒo para o melhor resultado.
Observa-se que no caso do running e do jogging, existe uma maior taxa de erros.
Um vÌÄ±deo que deveria ter sido classificado como jogging eÌ classificado como running e
vice-versa. Isso ocorre porque saÌƒo movimentos muito similares, diferindo apenas por sua
velocidade.
4.2.1 ReflexaÌƒo do quadro para o caÌlculo do histograma
O uso de reflexaÌƒo do quadro aumentou a taxa de reconhecimento como mostra a Tabela
4.4. Com a reflexaÌƒo, eÌ somado ao tensor gerado em uma particÌ§aÌƒo o tensor gerado pela
mesma particÌ§aÌƒo, poreÌm refletida na horizontal. A reflexaÌƒo na vertical e a reflexaÌƒo na
vertical e horizontal tambeÌm foram testadas, poreÌm os resultados ficaram piores do que
sem o uso de nenhuma reflexaÌƒo. Essa piora nos resultados usando reflexaÌƒo na vertical
eÌ possivelmente devido aÌ€ falta de simetria vertical dos movimentos, como o movimento
de caminhar ou correr, por exemplo. Os valores de classificacÌ§aÌƒo do melhor resultado da
Tabela 4.1 comparado a um teste com a mesma configuracÌ§aÌƒo mas sem usar reflexaÌƒo mostra
um ganho de quase 2%. A Tabela 4.6 mostra a matriz de confusaÌƒo da classificacÌ§aÌƒo sem
reflexaÌƒo mostrada na Tabela 4.4. Percebe-se uma melhora na classificacÌ§aÌƒo dos movimentos
jogging, running e walking quando se usa reflexaÌƒo.
39
HOG 16x8
ParticÌ§aÌƒo Taxa de reconhecimento
8x8 sem reflexaÌƒo 87,609%
8x8 com reflexaÌƒo 89,578%
Tabela 4.4: Ganho obtido com o uso de reflexaÌƒo do quadro na geracÌ§aÌƒo do descritor.
Box HWav HClap Jog Run Walk
Box 94,40% 2,78% 12,50% 0,0% 0,0% 0,69%
HWav 0,0% 96,53% 0,0% 0,0% 0,0% 0,0%
HClap 3,49% 0,69% 87,50% 0,0% 0,0% 0,0%
Jog 0,0% 0,0% 0,0% 77,78 18,75% 9,03%
Run 0,0% 0,0% 0,0% 16,67% 79,17% 0,0%
Walk 2,098% 0,0% 0,0% 5,56% 2,08% 90.28%
Tabela 4.5: Matriz de confusaÌƒo para o resultado sem reflexaÌƒo da Tabela 4.4.
Box HWav HClap Jog Run Walk
Box 95,80% 2,08% 12,50% 0,0% 0,0% 1,39%
HWav 0,0% 96,53% 0,69% 0,0% 0,0% 0,0%
HClap 0,70% 1,39% 86,81% 0,0% 0,0% 0,0%
Jog 0,0% 0,0% 0,0% 79,17 12,50% 4,86%
Run 0,0% 0,0% 0,0% 15,97% 85,42% 0,0%
Walk 3,50% 0,0% 0,0% 4,86% 2,08% 93.75%
Tabela 4.6: Matriz de confusaÌƒo para o resultado com reflexaÌƒo da Tabela 4.4.
4.2.2 Usando limiarizacÌ§aÌƒo da norma
O uso de limiarizacÌ§aÌƒo da norma como mostrado na secÌ§aÌƒo 3.4 tambeÌm provou-se eficaz.
Alguns valores para o limiar foram testados, mas o valor 0.2, que eÌ o mesmo utilizado
por [27], foi o que obteve melhor resultado. A Tabela 4.7 mostra um comparativo do
resultado com e sem limiarizacÌ§aÌƒo do melhor resultado obtido na Tabela 4.4.
40
HOG 16x8
ParticÌ§aÌƒo Taxa de reconhecimento
8x8 sem limiarizacÌ§aÌƒo 89,578%
8x8 com limiarizacÌ§aÌƒo 92,123%
Tabela 4.7: Ganho obtido com o uso de limiarizacÌ§aÌƒo do tensor do quadro.
A matriz de confusaÌƒo para o resultado de 92, 123% da Tabela 4.7 eÌ mostrada na Tabela
4.9 e para o resultado de 89, 578% na Tabela 4.3. Comparando as duas tabelas, nota-se
que o uso de limiarizacÌ§aÌƒo melhorou significativamente os resultados para o movimento
jogging (de 79, 17% para 86, 11%) e para o movimento hand clapping (de 86, 86% para
94, 44%). O alto ganho do movimento hand clapping se deu por conta da queda na taxa
de classificacÌ§aÌƒo incorreta com o movimento boxing (de 12, 50% para 5, 56%).
4.2.3 Combinando limiarizacÌ§aÌƒo e reflexaÌƒo
A Figura 4.4 compara os resultados obtidos com as diversas combinacÌ§oÌƒes de geracÌ§aÌƒo do
descritor utilizando ou naÌƒo reflexaÌƒo e limiarizacÌ§aÌƒo. Os valores dos resultados saÌƒo mostrados
na Tabela 4.8. A combinacÌ§aÌƒo de reflexaÌƒo do quadro e limiarizacÌ§aÌƒo do tensor proporcionou
um aumento significativo na classificacÌ§aÌƒo.
41
Figura 4.4: Resultados obtidos com diversas configuracÌ§oÌƒes no uso ou naÌƒo de reflexaÌƒo e
limiarizacÌ§aÌƒo.
ConfiguracÌ§aÌƒo Taxa de reconhecimento
Sem reflexaÌƒo e sem limiarizacÌ§aÌƒo 87,61%
Sem reflexaÌƒo e com limiarizacÌ§aÌƒo 89,35%
Com reflexaÌƒo e sem limiarizacÌ§aÌƒo 89,58%
Com reflexaÌƒo e com limiarizacÌ§aÌƒo 92,12%
Tabela 4.8: Valores dos resultados do graÌfico da Figura 4.4.
AtraveÌs dos valores da tabela e da observacÌ§aÌƒo do graÌfico verifica-se que o ganho na taxa
de reconhecimento quando se utiliza apenas a reflexaÌƒo do quadro ou apenas a limiarizacÌ§aÌƒo
do tensor saÌƒo bem proÌximos, algo em torno de 1, 85%. PoreÌm, quando combinamos os
dois, o ganho aumenta para 4, 51%.
A Tabela 4.9 mostra a matriz de confusaÌƒo para o resultado de 92, 12% que utiliza
reflexaÌƒo e limiarizacÌ§aÌƒo. O grande problema continua sendo os movimentos jogging e
running. A porcentagem de movimentos running classificados como jogging sofreu um
aumento de 2, 78%, em contrapartida, a taxa de movimentos jogging classificados como
running caiu 6, 94%. As tabelas 4.10 aÌ€ 4.12 mostram as matrizes de confusaÌƒo para as
42
demais configuracÌ§oÌƒes da Tabela 4.8.
Box HWav HClap Jog Run Walk
Box 94,41% 0,0% 5,56% 0,69% 0,0% 0,0%
HWav 0.70% 98,61% 0,0% 0,0% 0,0% 0,0%
HClap 0.70% 1,39% 94,44% 0,0% 0,0% 0,0%
Jog 0,0% 0,0% 0,0% 86,11% 15,28% 5,56%
Run 0,0% 0,0% 0,0% 9,03% 84,72% 0,0%
Walk 4,20% 0,0% 0,0% 4,17% 0,0% 94,44%
Tabela 4.9: Matriz de confusaÌƒo para o melhor resultado na base KTH (com reflexaÌƒo e
com limiarizacÌ§aÌƒo).
Box HWav HClap Jog Run Walk
Box 94,41% 2,78% 12,50% 0,0% 0,0% 0,69%
HWav 0,0% 96,53% 0,0% 0,0% 0,0% 0,0%
HClap 3,50% 0,70% 87,50% 0,0% 0,0% 0,0%
Jog 0,0% 0,0% 0,0% 77,78% 18,75% 9,03%
Run 0,0% 0,0% 0,0% 16,67% 79,17% 0,0%
Walk 2,10% 0,0% 0,0% 5,56% 2,08% 90,28%
Tabela 4.10: Matriz de confusaÌƒo para o caso sem reflexaÌƒo e sem limiarizacÌ§aÌƒo.
Box HWav HClap Jog Run Walk
Box 95,10% 0,0% 12,50% 0,0% 0,0% 0,0%
HWav 0,0% 100,53% 0,0% 0,0% 0,0% 0,0%
HClap 2,80% 0,0% 87,50% 0,0% 0,0% 0,0%
Jog 0,0% 0,0% 0,0% 81,25% 20,14% 6,94%
Run 0,0% 0,0% 0,0% 11,11% 77,78% 0,0%
Walk 2,10% 0,0% 0,0% 7,64% 2,08% 93,06%
Tabela 4.11: Matriz de confusaÌƒo para o caso sem reflexaÌƒo e com limiarizacÌ§aÌƒo.
43
Box HWav HClap Jog Run Walk
Box 95,80% 2,083% 12,50% 0,0% 0,0% 1,39%
HWav 0,0% 96,53% 0,69% 0,0% 0,0% 0,0%
HClap 0,70% 1,39% 86,86% 0,0% 0,0% 0,0%
Jog 0,0% 0,0% 0,0% 79,17% 12,50% 4,86%
Run 0,0% 0,0% 0,0% 15,97% 85,42% 0,0%
Walk 3,50% 0,0% 0,0% 4,86% 2,08% 93,75%
Tabela 4.12: Matriz de confusaÌƒo para o caso com reflexaÌƒo e sem limiarizacÌ§aÌƒo.
4.2.4 Efeito do uso da funcÌ§aÌƒo gaussiana na ponderacÌ§aÌƒo dos
gradientes das particÌ§oÌƒes
Todos os testes efetuados a partir da secÌ§aÌƒo 4.2.1 utilizam a ponderacÌ§aÌƒo dos vetores gradi-
entes por uma gaussiana como explicado na secÌ§aÌƒo 3.3. O melhor valor para Ïƒx e Ïƒy, obtido
atraveÌs de testes, foi de 6.0 pixels. A Figura 4.5 mostra o resultado comparativo da clas-
sificacÌ§aÌƒo com e sem o uso dessa ponderacÌ§aÌƒo e seus valores saÌƒo mostrados na Tabela 4.13.
A matriz de confusaÌƒo para o caso sem ponderacÌ§aÌƒo eÌ visto na Tabela 4.14. Comparando-a
com a matriz de confusaÌƒo da Tabela 4.12, percebe-se que movimentos menos sutis, como
o running, hand clapping e hand waving tiveram um aumento bastante significativo da
taxa de reconhecimento quando usada a ponderacÌ§aÌƒo dos gradientes. No caso do movi-
mento hand waving o salto na classificacÌ§aÌƒo foi de quase 8%. Esses movimentos teÌ‚m uma
taxa de variacÌ§aÌƒo maior e, consequentemente, a mudancÌ§a de posicÌ§aÌƒo de um ponto entre
dois quadros consecutivos eÌ brusca. Com isso, o histograma de gradientes pode variar
muito entre dois quadros. Dando-se menos peso aÌ€ fronteira de uma particÌ§aÌƒo, como acon-
tece com o uso da ponderacÌ§aÌƒo, consegue-se uma transicÌ§aÌƒo mais suave entre tensores de
quadros consecutivos.
44
Figura 4.5: Resultados da melhor configuracÌ§aÌƒo com e sem ponderacÌ§aÌƒo dos vetores gradi-
entes de uma particÌ§aÌƒo.
PonderacÌ§aÌƒo Taxa de reconhecimento
Sem ponderacÌ§aÌƒo 89,229%
Com ponderacÌ§aÌƒo 92,123%
Tabela 4.13: Valores da classificacÌ§aÌƒo do graÌfico da Figura 4.5.
Box HWav HClap Jog Run Walk
Box 94,41% 6,25% 7,64% 0,69% 0,0% 0,0%
HWav 1,40% 90,97% 0,69% 0,0% 0,0% 0,0%
HClap 0,0% 1,39% 91,67% 0,0% 0,0% 0,0%
Jog 0,0% 0,0% 0,0% 84,03% 18,75% 6,25%
Run 0,0% 0,0% 0,0% 11,11% 80,56% 0,0%
Walk 4,20% 1,40% 0,0% 4,17% 0,69% 93,75%
Tabela 4.14: Matriz de confusaÌƒo para a configuracÌ§aÌƒo do melhor resultado sem ponderacÌ§aÌƒo
dos vetores gradientes de uma particÌ§aÌƒo.
45
4.3 Resultados na base Hollywood2
Nesta secÌ§aÌƒo saÌƒo apresentados resultados classificando a base Hollywood2 com um clas-
sificador SVM. Para esta base, foi rodado um classificador monoclasse, um criteÌrio de
precisaÌƒo meÌdia para selecÌ§aÌƒo do modelo e validacÌ§aÌƒo cruzada.
A Figura 4.6 mostra a taxa de reconhecimento para diversas configuracÌ§oÌƒes de particÌ§aÌƒo
e histograma sem o uso de reflexaÌƒo do quadro e com limiarizacÌ§aÌƒo. Os valores exatos saÌƒo
mostrados na Tabela 4.15. Observa-se que o histograma com dimensoÌƒes 16 Ã— 8 eÌ o que
gera os melhores resultados, assim como ocorreu com a base KTH. Nas tabelas 4.16 a
4.19 saÌƒo mostradas as precisoÌƒes meÌdias em cada classe de acÌ§aÌƒo. As acÌ§oÌƒes que tiveram os
melhores resultados saÌƒo, nessa ordem, DriveCar, Run, FightPerson e Kiss. Elas foram
as uÌnicas em que se obteve classificacÌ§aÌƒo maior que 50%. As acÌ§oÌƒes que tiveram os piores
resultados foram SitUp, HandShake e AnswerPhone, respectivamente.
Figura 4.6: Taxas de reconhecimento da base Hollywood2.
46
ConfiguracÌ§aÌƒo Taxa de reconhecimento
ParticÌ§aÌƒo: 4x4, HOG: 8x4 31.52%
ParticÌ§aÌƒo: 4x4, HOG: 16x8 33.98%
ParticÌ§aÌƒo: 16x16, HOG: 8x4 31.15%
ParticÌ§aÌƒo: 16x16, HOG: 16x8 34.28%
Tabela 4.15: Valores da classificacÌ§aÌƒo do graÌfico da Figura 4.6.
AcÌ§aÌƒo PrecisaÌƒo meÌdia AcÌ§aÌƒo PrecisaÌƒo meÌdia
AnswerPhone 13,80% DriveCar 67,30%
Eat 20,69% FightPerson 55,13%
GetOutCar 18,90% HandShake 12,87%
HugPerson 19,33% Kiss 40,37%
Run 59,09% SitDown 34,70%
SitUp 7,82% StandUp 39,42%
MeÌdia 31,52%
Tabela 4.16: PrecisaÌƒo meÌdia para cada classe da base Hollywood2 usando particÌ§aÌƒo 4Ã— 4
e HOG 8Ã— 4 sem reflexaÌƒo.
AcÌ§aÌƒo PrecisaÌƒo meÌdia AcÌ§aÌƒo PrecisaÌƒo meÌdia
AnswerPhone 13,73% DriveCar 69,76%
Eat 23,78% FightPerson 53,64%
GetOutCar 27,71% HandShake 9,27%
HugPerson 22,46% Kiss 49,80%
Run 56,68% SitDown 43,67%
SitUp 9,12% StandUp 39,05%
MeÌdia 33,98%
Tabela 4.17: PrecisaÌƒo meÌdia para cada classe da base Hollywood2 usando particÌ§aÌƒo 4Ã— 4
e HOG 16Ã— 8 sem reflexaÌƒo.
47
AcÌ§aÌƒo PrecisaÌƒo meÌdia AcÌ§aÌƒo PrecisaÌƒo meÌdia
AnswerPhone 12,95% DriveCar 62,76%
Eat 26,78% FightPerson 56,92%
GetOutCar 20,31% HandShake 10,57%
HugPerson 19,24% Kiss 40,76%
Run 61,16% SitDown 30,65%
SitUp 7,42% StandUp 35,11%
MeÌdia 31,15%
Tabela 4.18: PrecisaÌƒo meÌdia para cada classe da base Hollywood2 usando particÌ§aÌƒo 16Ã—16
e HOG 8Ã— 4 sem reflexaÌƒo.
AcÌ§aÌƒo PrecisaÌƒo meÌdia AcÌ§aÌƒo PrecisaÌƒo meÌdia
AnswerPhone 14,68% DriveCar 69,99%
Eat 27,69% FightPerson 56,19%
GetOutCar 29,30% HandShake 10,55%
HugPerson 18,66% Kiss 50,16%
Run 57,94% SitDown 42,32%
SitUp 11,30% StandUp 37,80%
MeÌdia 34,28%
Tabela 4.19: PrecisaÌƒo meÌdia para cada classe da base Hollywood2 usando particÌ§aÌƒo 16Ã—16
e HOG 16Ã— 8 sem reflexaÌƒo.
4.3.1 ReflexaÌƒo do quadro para o caÌlculo do histograma
A fim de melhorar o reconhecimento na base Hollywood2, inserimos a reflexaÌƒo do quadro
como feito para a base KTH. A Figura 4.7 mostra as taxas de reconhecimento usando as
mesmas configuracÌ§oÌƒes dos testes sem reflexaÌƒo (exceto pela proÌpria reflexaÌƒo). A Tabela
4.20 mostra os valores exatos da classificacÌ§aÌƒo. Comparando com a Tabela 4.15, houve um
aumento de 2, 24% entre os resultados com 4Ã— 4 particÌ§oÌƒes e HOG 16Ã— 8 e um aumento
de 1, 31% entre os resultados com 16Ã— 16 e HOG 16Ã— 8. Ou seja, a configuracÌ§aÌƒo com um
nuÌmero maior de particÌ§oÌƒes teve um aumento menor com a adicÌ§aÌƒo de reflexaÌƒo do quadro
no caÌlculo do histograma.
48
Como na base KTH, a Hollywood apresentou melhores resultados utilizando particÌ§oÌƒes
4Ã—4 e 8Ã—8. O melhor resultado obtido com a base Hollywood foi com particÌ§aÌƒo 8Ã—8, HOG
16Ã—8 e reflexaÌƒo do quadro, alcancÌ§ando 36, 34% de classificacÌ§aÌƒo. Apesar de esse resultado
estar bem abaixo do que foi alcancÌ§ado na KTH, deve-se levar em consideracÌ§aÌƒo o alto nÌÄ±vel
de complexidade da base Hollywood2. Todos os testes executados nessa subsecÌ§aÌƒo fizeram
uso de normalizacÌ§aÌƒo com limiarizacÌ§aÌƒo e ponderacÌ§aÌƒo gaussiana nos gradientes.
Figura 4.7: Taxas de reconhecimento da base Hollywood2.
ConfiguracÌ§aÌƒo Taxa de reconhecimento
ParticÌ§aÌƒo: 4x4, HOG: 8x4 32,29%
ParticÌ§aÌƒo: 4x4, HOG: 16x8 36,22%
ParticÌ§aÌƒo: 8x8, HOG: 16x8 36,34%
ParticÌ§aÌƒo: 16x16, HOG: 8x4 31,07%
ParticÌ§aÌƒo: 16x16, HOG: 16x8 35,59%
Tabela 4.20: Valores da classificacÌ§aÌƒo do graÌfico da Figura 4.7.
49
AcÌ§aÌƒo PrecisaÌƒo meÌdia AcÌ§aÌƒo PrecisaÌƒo meÌdia
AnswerPhone 12,87% DriveCar 69,68%
Eat 22,04% FightPerson 42,20%
GetOutCar 26,55% HandShake 19,32%
HugPerson 25,59% Kiss 42,15%
Run 59,63% SitDown 34,87%
SitUp 7,55% StandUp 40,88%
MeÌdia 32,29%
Tabela 4.21: PrecisaÌƒo meÌdia para cada classe da base Hollywood2 usando particÌ§aÌƒo 4Ã— 4
e HOG 8Ã— 4 com reflexaÌƒo.
AcÌ§aÌƒo PrecisaÌƒo meÌdia AcÌ§aÌƒo PrecisaÌƒo meÌdia
AnswerPhone 19,30% DriveCar 70,49%
Eat 22,23% FightPerson 50,80%
GetOutCar 31,58% HandShake 16,67%
HugPerson 27,53% Kiss 50,93%
Run 58,57% SitDown 48,51%
SitUp 10,61% StandUp 41,89%
MeÌdia 36,22%
Tabela 4.22: PrecisaÌƒo meÌdia para cada classe da base Hollywood2 usando particÌ§aÌƒo 4Ã— 4
e HOG 16Ã— 8 com reflexaÌƒo.
50
AcÌ§aÌƒo PrecisaÌƒo meÌdia AcÌ§aÌƒo PrecisaÌƒo meÌdia
AnswerPhone 18,59% DriveCar 70,51%
Eat 24,09% FightPerson 52,80%
GetOutCar 34,82% HandShake 14,72%
HugPerson 26,59% Kiss 49,63%
Run 57,94% SitDown 45,04%
SitUp 11,84% StandUp 41,38%
MeÌdia 36,34%
Tabela 4.23: PrecisaÌƒo meÌdia para cada classe da base Hollywood2 usando particÌ§aÌƒo 8Ã— 8
e HOG 16Ã— 8 com reflexaÌƒo.
AcÌ§aÌƒo PrecisaÌƒo meÌdia AcÌ§aÌƒo PrecisaÌƒo meÌdia
AnswerPhone 12,17% DriveCar 62,25%
Eat 17,87% FightPerson 47,02%
GetOutCar 25,90% HandShake 12,58%
HugPerson 22,96% Kiss 41,48%
Run 61,21% SitDown 32,67%
SitUp 10,55% StandUp 39,20%
MeÌdia 31,07%
Tabela 4.24: PrecisaÌƒo meÌdia para cada classe da base Hollywood2 usando particÌ§aÌƒo 16Ã—16
e HOG 8Ã— 4 com reflexaÌƒo.
51
AcÌ§aÌƒo PrecisaÌƒo meÌdia AcÌ§aÌƒo PrecisaÌƒo meÌdia
AnswerPhone 15,05% DriveCar 70,48%
Eat 23,50% FightPerson 51,22%
GetOutCar 36,48% HandShake 12,46%
HugPerson 24,26% Kiss 49,80%
Run 58,19% SitDown 44,59%
SitUp 10,92% StandUp 39,93%
MeÌdia 35,59%
Tabela 4.25: PrecisaÌƒo meÌdia para cada classe da base Hollywood2 usando particÌ§aÌƒo 16Ã—16
e HOG 16Ã— 8 com reflexaÌƒo.
4.3.2 Efeito do uso da funcÌ§aÌƒo gaussiana na ponderacÌ§aÌƒo dos
gradientes das particÌ§oÌƒes
O uso de ponderacÌ§aÌƒo gaussiana nos gradientes tambeÌm promoveu aumento na taxa de
reconhecimento para a base Hollywood2. O graÌfico da Figura 4.8 mostra esse ganho. Os
valores exatos saÌƒo mostrados na Tabela 4.26. Pela tabela verifica-se que usando pon-
deracÌ§aÌƒo gaussiana tem-se um ganho de 1, 18%, que eÌ um bom valor de aumento para
essa base complexa. A precisaÌƒo meÌdia para o caso sem ponderacÌ§aÌƒo eÌ mostrada na Tabela
4.27. Comparando-a com a Tabela 4.23 do caso com ponderacÌ§aÌƒo, observa-se que o uso de
ponderacÌ§aÌƒo acarreta em ganho para algumas classes de acÌ§oÌƒes e perda para outras.
52
Figura 4.8: ComparacÌ§aÌƒo entre a melhor configuracÌ§aÌƒo para Hollywood usando ou naÌƒo a
ponderacÌ§aÌƒo gaussiana.
ConfiguracÌ§aÌƒo Taxa de reconhecimento
Sem ponderacÌ§aÌƒo 35,16%
Com ponderacÌ§aÌƒo 36,34%
Tabela 4.26: Valores da classificacÌ§aÌƒo do graÌfico da Figura 4.8.
AcÌ§aÌƒo PrecisaÌƒo meÌdia AcÌ§aÌƒo PrecisaÌƒo meÌdia
AnswerPhone 15,43% DriveCar 70,03%
Eat 19,81% FightPerson 54,22%
GetOutCar 29,52% HandShake 13,00%
HugPerson 26,27% Kiss 51,42%
Run 55,94% SitDown 45,41%
SitUp 13,57% StandUp 40,35%
MeÌdia 35,16%
Tabela 4.27: PrecisaÌƒo meÌdia para cada classe da base Hollywood2 usando particÌ§aÌƒo 8Ã— 8
e HOG 16Ã— 8 com reflexaÌƒo e sem ponderacÌ§aÌƒo gaussiana.
53
4.4 ComparacÌ§aÌƒo com descritores da literatura
Nesta secÌ§aÌƒo saÌƒo comparados os melhores resultados obtidos com outros descritores da
literatura.
O desempenho do meÌtodo proposto para a base KTH eÌ mostrada na Tabela 4.28. A
taxa de reconhecimento eÌ comparada com os outros resultados na literatura que utilizam
histogramas de gradientes e tambeÌm com o trabalho de Mota [23] que utiliza tensores de
orientacÌ§aÌƒo a partir de polinoÌ‚mios de Legendre. O meÌtodo proposto consegue superar o
reconhecimento alcancÌ§ado por outros meÌtodos.
MeÌtodo Taxa de reconhecimento
PiraÌ‚mides HOG [25] 72%
PolinoÌ‚mios de Legendre + Tensor [23] 86,8%
Harris3D + HOG3D [15] 91.4%
Harris3D + HOG/HOF [14] 91.8%
HOG3D + Tensor (este trabalho) 92.12%
ISA [34] 93.9%
TCCA [16] 95.33%
Tabela 4.28: ComparacÌ§aÌƒo das taxas de reconhecimento na base KTH.
Na base Hollywood2, este meÌtodo naÌƒo consegue superar os melhores resultados. En-
tretanto, ele consegue uma acuraÌcia competitiva atraveÌs de uma abordagem muito simples
com poucos paraÌ‚metros. A Tabela 4.29 compara as taxas de reconhecimento do meÌtodo
proposto com descritores locais de outros trabalhos. Percebe-se que a informacÌ§aÌƒo local
desempenha um papel fundamental nessa base e que meÌtodos de aprendizado melhoram
o reconhecimento de maneira geral.
MeÌtodo Taxa de reconhecimento
HOG3D + Tensor (estre trabalho) 36.34%
Harris3D + HOG3D [15, 35] 43.7%
Harris3D + HOG/HOF [14, 35] 45.2%
ISA [34] 53.3%
Tabela 4.29: ComparacÌ§aÌƒo das taxas de reconhecimento na base Hollywood2.
A taxa de reconhecimento do meÌtodo proposto eÌ menor do que as abordagens locais
para a base Hollywood2, poreÌm bastante competitiva. A abordagem apresentada neste
texto eÌ raÌpida e novos vÌÄ±deos ou novas categorias de acÌ§oÌƒes podem ser inseridas sem
necessidade de recalcular os descritores jaÌ existentes. Quanto aÌ€ complexidade de tempo,
54
os descritores foram calculados com uma meÌdia de 23qps (quadros por segundo) para
todos os vÌÄ±deos da base Hollywood2 em uma maÌquina Intel I7 2930MHz com 8Gb de
memoÌria. A Tabela 4.30 mostra o tempo gasto em cada etapa do processo na geracÌ§aÌƒo
dos descritores na base KTH para a melhor configuracÌ§aÌƒo. Percebe-se que o caÌlculo das
derivadas e a normalizacÌ§aÌƒo com limiarizacÌ§aÌƒo de cada descritor de um quadro dominam a
complexidade de tempo. No caso da normalizacÌ§aÌƒo com limiarizacÌ§aÌƒo, isso ocorre porque
ela eÌ executada duas vezes em cada quadro. Para efeitos de comparacÌ§aÌƒo, somente a
etapa de extracÌ§aÌƒo de caracterÌÄ±sticas no trabalho de [16] eÌ executada aÌ€ 1, 6qps para a
base Hollywood2. Se comparado com [34], seu melhor resultado eÌ executado com 10qps,
tambeÌm para Hollywood2, usando uma GPU GTX2701.
Etapa Tempo total Tempo meÌdio por vÌÄ±deo
CaÌlculo de todo o processo 9m e 50s 246ms
NormalizacÌ§aÌƒo do tensor de um quadro 2m e 56s 73ms
CaÌlculo dos gradientes 2m e 35s 64ms
Histograma de Gradientes 2m e 29s 62ms
NormalizacÌ§aÌƒo do descritor final 0m e 6s 2ms
Tabela 4.30: Tempo gasto nas etapas de geracÌ§aÌƒo dos descritores na base KTH com a
melhor configuracÌ§aÌƒo. O tempo total refere-se ao tempo gasto para calcular os descritores
em toda a base.
1O artigo naÌƒo fornece detalhes sobre o que foi implementado em GPU.
55
5 CONCLUSAÌƒO
Neste trabalho foi apresentado um meÌtodo para descrever movimentos baseado na com-
binacÌ§aÌƒo de histogramas de gradientes com tensores de 2a ordem. Para validacÌ§aÌƒo da
qualidade do descritor proposto foram classificadas as bases KTH e Hollywood2 e seus
resultados comparados com outros trabalhos na literatura.
A abordagem adotada eÌ simples, mas efetiva para classificacÌ§aÌƒo de vÌÄ±deos. Ela eÌ simples
pois possui baixa complexidade espacial e temporal. Somente poucos paraÌ‚metros saÌƒo
necessaÌrios, resultando em um descritor compacto. A complexidade de tempo eÌ dominada
pelo caÌlculo das derivadas, histograma e normalizacÌ§aÌƒo dos tensores de um quadro (Tabela
4.30). Como esses caÌlculos dependem apenas dos quadros do vÌÄ±deo, o processo pode ser
escalaÌvel e capaz de receber melhorias atraveÌs de paralelismo como instrucÌ§oÌƒes SIMD,
processadores de muÌltiplos nuÌcleos e GPUs.
EÌ tambeÌm uma abordagem efetiva porque alcancÌ§a uma alta taxa de reconhecimento
na base KTH (92, 12%), comparada com as melhores abordagens locais [34, 16] cujas
complexidades saÌƒo muito maiores. Para a base Hollywood, entretanto, foi percebido que
a informacÌ§aÌƒo local possui papel importante e que meÌtodos de aprendizado melhoram o
reconhecimento de maneira geral. A taxa de reconhecimento alcancÌ§ada por este meÌtodo
eÌ menor que a de abordagens locais, mas ainda assim, bastante competitiva. Um alto
Ä±Ìndice de erros pode ser aceitaÌvel quando a base de dados eÌ frequentemente atualizada ou
o tempo de resposta eÌ crÌÄ±tico. Este meÌtodo naÌƒo requer que sejam feitas mudancÌ§as ou que
descritores sejam recalculados devido aÌ€ adicÌ§aÌƒo de novos vÌÄ±deos e/ou novas categorias de
acÌ§oÌƒes.
As melhorias propostas para o descritor se mostraram eficazes aumentando a taxa
de reconhecimento tanto na base KTH quanto na Hollywood2. O uso de ponderacÌ§aÌƒo
dos gradientes fez com que ocorresse um aumento significativo na classificacÌ§aÌƒo das bases
(Tabela 5.1 e 5.2). Na base KTH, por exemplo, isso eÌ mais visÌÄ±vel principalmente em
acÌ§oÌƒes com movimentos mais raÌpidos como o running, hand clapping e hand waving que
obteve um aumento de quase 8%.
56
PonderacÌ§aÌƒo Taxa de reconhecimento
Sem ponderacÌ§aÌƒo 89,229%
Com ponderacÌ§aÌƒo 92,123%
Tabela 5.1: ComparacÌ§aÌƒo da taxa de classificacÌ§aÌƒo com e sem o uso de ponderacÌ§aÌƒo na base
KTH.
ConfiguracÌ§aÌƒo Taxa de reconhecimento
Sem ponderacÌ§aÌƒo 35,16%
Com ponderacÌ§aÌƒo 36,34%
Tabela 5.2: ComparacÌ§aÌƒo da taxa de classificacÌ§aÌƒo com e sem o uso de ponderacÌ§aÌƒo na base
Hollywood2.
Outra melhoria proposta foi o caÌlculo do tensor do quadro refletido horizontalmente.
Isso permitiu reforcÌ§ar simetrias horizontais do gradiente aumentando a taxa de classi-
ficacÌ§aÌƒo. O uso de reflexaÌƒo na base KTH fez com que a classificacÌ§aÌƒo aumentasse de 89, 35%
para 92, 12% para uma mesma configuracÌ§aÌƒo do descritor. No caso da Hollywood2 o au-
mento foi de 33, 98% para 36, 22% em uma das configuracÌ§oÌƒes testadas.
Uma terceira melhoria no descritor foi o uso da normalizacÌ§aÌƒo usando um limiar. Essa
limiarizacÌ§aÌƒo, apresentada em [27] tem o objetivo de diminuir a influeÌ‚ncia que variacÌ§oÌƒes
naÌƒo lineares de iluminacÌ§aÌƒo. A Tabela 5.3 mostra o ganho obtido para a base KTH.
HOG 16x8
ParticÌ§aÌƒo Taxa de reconhecimento
8x8 sem limiarizacÌ§aÌƒo 89,578%
8x8 com limiarizacÌ§aÌƒo 92,123%
Tabela 5.3: Ganho obtido com o uso de limiarizacÌ§aÌƒo.
Um interessante estudo futuro seria a exploracÌ§aÌƒo de informacÌ§aÌƒo local para melhorar
o descritor e como agregaÌ-la de maneira a aumentar as taxas de reconhecimento, princi-
palmente na base Hollywood2 permitindo o uso do descritor em situacÌ§oÌƒes mais realistas.
57
AleÌm disso, em algumas situacÌ§oÌƒes o cenaÌrio possui diversos movimentos de diversos obje-
tos no fundo que naÌƒo saÌƒo de interesse. Isso acaba comprometendo a qualidade do descritor
ou mesmo tornando-o naÌƒo discriminante do movimento. EÌ o que ocorre com frequeÌ‚ncia na
base Hollywood2. Assim, a extracÌ§aÌƒo de objetos que naÌƒo saÌƒo de interesse tambeÌm necessita
de um estudo futuro. Mas ainda assim, ele pode ser de grande valia em um cenaÌrio onde
nenhum meÌtodo de classificacÌ§aÌƒo de acÌ§oÌƒes humanas resolve todas as demandas de aplicacÌ§aÌƒo
[35].
58
REFEREÌ‚NCIAS
[1] TURAGA, P., CHELLAPPA, R., SUBRAHMANIAN, V. S., UDREA, O., â€œMachine
Recognition of Human Activities: A Surveyâ€, Circuits and Systems for Video
Technology, IEEE Transactions on, v. 18, n. 11, pp. 1473â€“1488, Sept. 2008.
[2] JOHANSSON, G., â€œVisual perception of biological motion and a model for its analy-
sisâ€, Attention Perception Psychophysics , v. 14, n. 2, pp. 201â€“211, 1973.
[3] SARKAR, S., PHILLIPS, P. J., LIU, Z., VEGA, I. R., GROTHER, P., BOWYER,
K. W., â€œThe humanID gait challenge problem: Data sets, performance, and
analysisâ€, IEEE Transactions on Pattern Analysis and Machine Intelligence,
v. 27, pp. 162â€“177, 2005.
[4] RUI, Y., HUANG, T. S., â€œImage retrieval: Current techniques, promising directions
and open issuesâ€, Journal of Visual Communication and Image Representation,
v. 10, pp. 39â€“62, 1999.
[5] CHANG, S.-F., â€œThe holy grail of content-based media analysisâ€, IEEE Multimedia,
v. 9, pp. 6â€“10, 2002.
[6] ZHONG, H., SHI, J., VISONTAI, M., â€œDetecting Unusual Activity in Videoâ€, Com-
puter Vision and Pattern Recognition, IEEE Computer Society Conference on,
v. 2, pp. 819â€“826, 2004.
[7] VASWANI, N., CHOWDHURY, A. R., CHELLAPPA, R., â€œâ€Shape Activityâ€: A Con-
tinuous State HMM for Moving/Deforming Shapes with Application to Abnor-
mal Activity Detectionâ€, IEEE Trans. on Image Processing , v. 14, pp. 1603â€“
1616.
[8] PENTLAND, A., â€œSmart rooms, smart clothesâ€. v. 2, pp. 949â€“953 vol.2, 1998.
[9] FORSYTH, D. A., ARIKAN, O., RAMANAN, D., â€œComputational Studies of Human
Motion: Part 1, Tracking and Motion Synthesisâ€. In: Foundations and Trends
in Computer Graphics and Vision, p. 2006, Now Publishers Inc, 2006.
[10] GOMES, J., VELHO, L., Fundamentos da ComputacÌ§aÌƒo GraÌfica. 1st ed. Instituto
Nacional de MatemaÌtica Pura e Aplicada: Rio de Janeiro, RJ, 2008.
59
[11] BEAUCHEMIN, S., BARRON, J., â€œThe Computation of Optical Flowâ€, 1995.
[12] PEREZ, E. A., MOTA, V. F., MACIEL, L. M., SAD, D., VIEIRA, M. B., â€œCom-
bining gradient histograms using orientation tensors for human action recogni-
tionâ€. In: ICPR, 2012.
[13] LOWE, D. G., â€œObject Recognition from Local Scale-Invariant Featuresâ€. In: Proce-
edings of the International Conference on Computer Vision-Volume 2 - Volume
2 , ICCV â€™99 , pp. 1150â€“, IEEE Computer Society: Washington, DC, USA,
1999.
[14] LAPTEV, I., MARSZAL EK, M., SCHMID, C., ROZENFELD, B., â€œLearning Re-
alistic Human Actions from Moviesâ€. In: Conference on Computer Vision &
Pattern Recognition, jun 2008.
[15] KLAÌˆSER, A., MARSZAL EK, M., SCHMID, C., â€œA Spatio-Temporal Descriptor Ba-
sed on 3D-Gradientsâ€. In: British Machine Vision Conference, pp. 995â€“1004,
sep 2008.
[16] KYUN KIM, T., FAI WONG, S., CIPOLLA, R., â€œR.: Tensor Canonical Correlation
Analysis for Action Classificationâ€. In: CVPR, 2007.
[17] BACH, F. R., JORDAN, M. I., A probabilistic interpretation of canonical correlation
analysis , Tech. rep., 2005.
[18] HARDOON, D. R., SZEDMAK, S., SZEDMAK, O., SHAWE-TAYLOR, J., Cano-
nical correlation analysis; An overview with application to learning methods ,
Tech. rep., 2007.
[19] KRAUSZ, B., BAUCKHAGE, C., â€œAction Recognition in Videos Using Nonnegative
Tensor Factorizationâ€. In: ICPR, pp. 1763â€“1766, 2010.
[20] JIA, C., WANG, S., XU, X., ZHOU, C., ZHANG, L., â€œTensor analysis and multi-
scale features based multi-view human action recognitionâ€. In: International
Conference on Computer Engineering and Technology , 2010.
[21] KHADEM, B. S., RAJAN, D., â€œAppearance-based action recognition in the ten-
sor frameworkâ€. In: Proceedings of the 8th IEEE international conference on
60
Computational intelligence in robotics and automation, CIRAâ€™09 , pp. 398â€“403,
IEEE Press: Piscataway, NJ, USA, 2009.
[22] KIHL, O., TREMBLAIS, B., AUGEREAU, B., KHOUDEIR, M., â€œHuman activities
discrimination with motion approximation in polynomial bases.â€ In: ICIP , pp.
2469â€“2472, IEEE, 2010.
[23] MOTA, V. F., Tensor baseado em fluxo oÌptico para descricÌ§aÌƒo global de movimento em
vÌÄ±deos , Mestrado, Universidade Federal de Juiz de Fora, Juiz de Fora, Brasil,
2011.
[24] ZELNIK-MANOR, L., IRANI, M., â€œEvent-based analysis of videoâ€. In: In Proc.
CVPR, pp. 123â€“130, 2001.
[25] LAPTEV, I., CAPUTO, B., SCHUÌˆLDT, C., LINDEBERG, T., â€œLocal velocity-
adapted motion events for spatio-temporal recognitionâ€, Comput. Vis. Image
Underst., v. 108, n. 3, pp. 207â€“229, Dec. 2007.
[26] THEODORIDIS, S., KOUTROUMBAS, K., Pattern Recognition, Fourth Edition.
4th ed. Academic Press, 2008.
[27] LOWE, D. G., â€œDistinctive Image Features from Scale-Invariant Keypointsâ€, Int. J.
Comput. Vision, v. 60, n. 2, pp. 91â€“110, Nov. 2004.
[28] DALAL, N., TRIGGS, B., â€œHistograms of Oriented Gradients for Human Detectionâ€.
In: In CVPR, pp. 886â€“893, 2005.
[29] LINDEBERG, T., â€œScale-Space Theory in Computer Visionâ€, 1994.
[30] LUCAS, B. D., KANADE, T., â€œAn Iterative Image Registration Technique with an
Application to Stereo Visionâ€. pp. 674â€“679, 1981.
[31] SCHUÌˆLDT, C., LAPTEV, I., CAPUTO, B., â€œRecognizing human actions: A local
SVM approachâ€. In: In Proc. ICPR, pp. 32â€“36, 2004.
[32] MARSZALEK, M., LAPTEV, I., SCHMID, C., â€œActions in contextâ€, IEEE Conf.
Computer Vision and Pattern Recog , 2009.
61
[33] FOURNIER, J., CORD, M., PHILIPP-FOLIGUET, S., PONTOISE CEDEX, F. C.,
â€œRETIN: A content-based image indexing and retrieval systemâ€, 2001.
[34] LE, Q. V., ZOU, W. Y., YEUNG, S. Y., NG, A. Y., â€œLearning hierarchical invari-
ant spatio-temporal features for action recognition with independent subspace
analysisâ€. In: Proceedings of the 2011 IEEE Conference on Computer Vision
and Pattern Recognition, CVPR â€™11 , pp. 3361â€“3368, IEEE Computer Society:
Washington, DC, USA, 2011.
[35] WANG, H., ULLAH, M. M., KLAÌˆSER, A., LAPTEV, I., SCHMID, C., â€œEvaluation
of local spatio-temporal features for action recognitionâ€. In: University of
Central Florida, U.S.A, 2009.