مرکز منطقه ای اطلاع رساني علوم و فناوري - Experimental studies on continuous speech recognition using neural architectures with “adaptive” hidden activation functions

DocumentCode :

2791497

Title :

Experimental studies on continuous speech recognition using neural architectures with “adaptive” hidden activation functions

Author :

Siniscalchi, Sabato Marco ; Svendsen, Tørbjrn ; Sorbello, Filippo ; Lee, Chin-Hui

Author_Institution :

Dept. of Electron. & Telecommun., NTNU, Trondheim, Norway

fYear :

2010

fDate :

14-19 March 2010

Firstpage :

4882

Lastpage :

4885

Abstract :

The choice of hidden non-linearity in a feed-forward multi-layer perceptron (MLP) architecture is crucial to obtain good generalization capability and better performance. Nonetheless, little attention has been paid to this aspect in the ASR field. In this work, we present some initial, yet promising, studies toward improving ASR performance by adopting hidden activation functions that can be automatically learned from the data and change shape during training. This adaptive capability is achieved through the use of orthonormal Hermite polynomials. The “adaptive” MLP is used in two neural architectures that generate phone posterior estimates, namely, a standalone configuration and a hierarchical structure. The posteriors are input to a hybrid phone recognition system with good results on the TIMIT corpus. A scheme for optimizing the contributions of high-accuracy neural architectures is also investigated, resulting in a relative improvement of ~9.0% over a non-optimized combination. Finally, initial experiments on the WSJ Nov92 task show that the proposed technique scales well up to large vocabulary continuous speech recognition (LVCSR) tasks.

Keywords :

maximum likelihood estimation; multilayer perceptrons; polynomials; speech recognition; transfer functions; vocabulary; MLP; adaptive hidden activation functions; feedforward multilayer perceptron; hybrid phone recognition system; neural architectures; orthonormal Hermite polynomials; phone posterior estimation; vocabulary continuous speech recognition; Automatic speech recognition; Computer architecture; Feedforward systems; Hidden Markov models; Neural networks; Neurons; Polynomials; Shape; Speech recognition; Training data; Neural networks; Speech recognition;

fLanguage :

English

Publisher :

ieee

Conference_Titel :

Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International Conference on

Conference_Location :

Dallas, TX

ISSN :

1520-6149

Print_ISBN :

978-1-4244-4295-9

Electronic_ISBN :

1520-6149

Type :

conf

DOI :

10.1109/ICASSP.2010.5495120

Filename :

5495120

Link To Document :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=49&DC=2791497