مرکز منطقه ای اطلاع رساني علوم و فناوري - Large-vocabulary audio-visual speech recognition: a summary of the Johns Hopkins Summer 2000 Workshop

DocumentCode :

1835429

Title :

Large-vocabulary audio-visual speech recognition: a summary of the Johns Hopkins Summer 2000 Workshop

Author :

Neti, Chalapathy ; Potamianos, Gerasimos ; Luettin, Juergen ; Matthews, Iain ; Glotin, Herdé ; Vergyri, Dimitra

Author_Institution :

IBM Thomas J. Watson Res. Center, Yorktown Heights, NY, USA

fYear :

2001

fDate :

2001

Firstpage :

619

Lastpage :

624

Abstract :

We report a summary of the Johns Hopkins Summer 2000 Workshop on audio-visual automatic speech recognition (ASR) in the large-vocabulary, continuous speech domain. Two problems of audio-visual ASR were mainly addressed: visual feature extraction and audio-visual information fusion. First, image transform and model-based visual features were considered, obtained by means of the discrete cosine transform (DCT) and active appearance models, respectively. The former were demonstrated to yield superior automatic speech reading. Subsequently, a number of feature fusion and decision fusion techniques for combining the DCT visual features with traditional acoustic ones were implemented and compared. Hierarchical discriminant feature fusion and asynchronous decision fusion by means of the multi-stream hidden Markov model consistently improved ASR for both clean and noisy speech. Compared to an equivalent audio-only recognizer, introducing the visual modality reduced ASR word error rate by 7% relative in clean speech, and by 27% relative at an 8.5 dB SNR audio condition

Keywords :

discrete cosine transforms; error statistics; feature extraction; hidden Markov models; sensor fusion; speech recognition; ASR; DCT; Johns Hopkins Summer 2000 Workshop; active appearance models; asynchronous decision fusion; audio-visual information fusion; audio-visual speech recognition; automatic speech recognition; discrete cosine transform; hierarchical discriminant feature fusion; image transform; large-vocabulary continuous speech; model-based visual features; multi-stream hidden Markov model; visual feature extraction; word error rate; Algorithm design and analysis; Automatic speech recognition; Discrete cosine transforms; Face detection; Facial features; Feature extraction; Mouth; Robotics and automation; Shape; Speech recognition;

fLanguage :

English

Publisher :

ieee

Conference_Titel :

Multimedia Signal Processing, 2001 IEEE Fourth Workshop on

Conference_Location :

Cannes

Print_ISBN :

0-7803-7025-2

Type :

conf

DOI :

10.1109/MMSP.2001.962801

Filename :

962801

Link To Document :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=49&DC=1835429