مرکز منطقه ای اطلاع رساني علوم و فناوري - Medium-duration modulation cepstral feature for robust speech recognition

DocumentCode :

178068

Title :

Medium-duration modulation cepstral feature for robust speech recognition

Author :

Mitra, Ved ; Franco, Hugo ; Graciarena, Martin ; Vergyri, Dimitra

Author_Institution :

Speech Technol. & Res. Lab., SRI Int., Menlo Park, CA, USA

fYear :

2014

fDate :

4-9 May 2014

Firstpage :

1749

Lastpage :

1753

Abstract :

Studies have shown that the performance of state-of-the-art automatic speech recognition (ASR) systems significantly deteriorate with increased noise levels and channel degradations, when compared to human speech recognition capability. Traditionally, noise-robust acoustic features are deployed to improve speech recognition performance under varying background conditions to compensate for the performance degradations. In this paper, we present the Modulation of Medium Duration Speech Amplitude (MMeDuSA) feature, which is a composite feature capturing subband speech modulations and a summary modulation. We analyze MMeDuSA´s speech recognition performance using SRI International´s DECIPHER^® large vocabulary continuous speech recognition (LVCSR) system, on noise and channel degraded Levantine Arabic speech distributed through the Defense Advance Research Projects Agency (DARPA) Robust Automatic Speech Transcription (RATS) program. We also analyzed MMeDuSA´s performance against the Aurora-4 noise-and-channel degraded English corpus. Our results from all these experiments suggest that the proposed MMeDuSA feature improved recognition performance under both noisy and channel degraded conditions in almost all the recognition tasks.

Keywords :

amplitude modulation; cepstral analysis; speech processing; speech recognition; ASR system; DARPA; Decipher; LVCSR system; MMeDuSA feature; RATS program; SRI international; aurora-4 noise-and-channel degraded English corpus; automatic speech recognition system; cepstral feature; channel degradation; channel degraded Levantine Arabic speech; composite feature capturing subband speech modulation; defense advance research projects agency; human speech recognition capability; large vocabulary continuous speech recognition; medium-duration modulation; modulation of medium duration speech amplitude; noise level; noise-robust acoustic feature; robust automatic speech transcription; robust speech recognition; speech recognition performance; summary modulation; Acoustics; Hidden Markov models; Modulation; Noise; Robustness; Speech; Speech recognition; large vocabulary continuous speech recognition; modulation features; noise-robust speech recognition;

fLanguage :

English

Publisher :

ieee

Conference_Titel :

Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on

Conference_Location :

Florence

Type :

conf

DOI :

10.1109/ICASSP.2014.6853898

Filename :

6853898

Link To Document :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=49&DC=178068