مرکز منطقه ای اطلاع رساني علوم و فناوري - Exploiting multimodal data fusion in robust speech recognition

DocumentCode :

2286743

Title :

Exploiting multimodal data fusion in robust speech recognition

Author :

Heracleous, Panikos ; Badin, Pierre ; Bailly, Gérard ; Hagita, Norihiro

Author_Institution :

ATR, Intell. Robot. & Commun. Labs., Japan

fYear :

2010

fDate :

19-23 July 2010

Firstpage :

568

Lastpage :

572

Abstract :

This article introduces automatic speech recognition based on Electro-Magnetic Articulography (EMA). Movements of the tongue, lips, and jaw are tracked by an EMA device, which are used as features to create Hidden Markov Models (HMM) and recognize speech only from articulation, that is, without any audio information. Also, automatic phoneme recognition experiments are conducted to examine the contribution of the EMA parameters to robust speech recognition. Using feature fusion, multistream HMM fusion, and late fusion methods, noisy audio speech has been integrated with EMA speech and recognition experiments have been conducted. The achieved results show that the integration of the EMA parameters significantly increases an audio speech recognizer´s accuracy, in noisy environments.

Keywords :

hidden Markov models; sensor fusion; speech recognition; articulation; audio information; automatic phoneme recognition; electro-magnetic articulography; feature fusion; hidden Markov model; late fusion methods; multimodal data fusion; multistream HMM fusion; noisy audio speech; robust speech recognition; Accuracy; Coils; Hidden Markov models; Noise measurement; Speech; Speech recognition; Tongue;

fLanguage :

English

Publisher :

ieee

Conference_Titel :

Multimedia and Expo (ICME), 2010 IEEE International Conference on

Conference_Location :

Suntec City

ISSN :

1945-7871

Print_ISBN :

978-1-4244-7491-2

Type :

conf

DOI :

10.1109/ICME.2010.5583086

Filename :

5583086

Link To Document :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=49&DC=2286743