Contextual Action Recognition in Multi-sensor Nighttime Video Sequences

Author

Haq, Anwaar-ul ; Gondal, Iqbal ; Murshed, Manzur

Author_Institution

GSIT, Monash Univ., Melbourne, VIC, Australia

fYear

2011

fDate

6-8 Dec. 2011

Firstpage

256

Lastpage

261

Abstract

Contextual information is important for interpreting human actions especially when actions exhibit interactive relationship with their context. Contextual clues become even more crucial when videos are captured in unfavorable conditions like extreme low light nighttime scenarios. These conditions encourage the use of multi-senor imagery and context enhancement. In this paper, we explore the importance of contextual knowledge for recognizing human actions in multi-sensor nighttime videos. Information fusion is utilized for encapsulating visual information about actions and their context. Space-time action information is contained using 3D fourier transform of fused action silhouette volume. In parallel, SIFT context images are extracted and fused using principal component analysis based feature fusion for each action class. Contextual dissimilarity is penalized by minimizing context SIFT flow energy. The action dataset comprises multi-sensor night vision video data from infra-red and visible spectrum. Experimental results show that fused contextual action information boost action recognition performance as compared to the baseline action recognition approach.

Keywords

Fourier transforms; data encapsulation; feature extraction; gesture recognition; image enhancement; image fusion; image sequences; infrared spectra; principal component analysis; video signal processing; visible spectra; 3D Fourier transform; SIFT context images; action dataset; context SIFT flow energy; context enhancement; contextual action recognition; contextual clues; contextual dissimilarity; contextual information; contextual knowledge; encapsulating visual information; extreme low light nighttime scenarios; feature fusion; fused action silhouette volume; human actions interpretation; information fusion; interactive relationship; multisensor imagery; multisensor nighttime video sequences; multisensor nighttime videos; principal component analysis; space-time action information; unfavorable conditions; Context; Humans; Image color analysis; Sensors; Streaming media; Video sequences; Visualization;

fLanguage

English

Publisher

ieee

Conference_Titel

Digital Image Computing Techniques and Applications (DICTA), 2011 International Conference on

Conference_Location

Noosa, QLD

Print_ISBN

978-1-4577-2006-2

Type

conf

DOI

10.1109/DICTA.2011.49

Filename

6128691