Turkish Large Vocabulary Continuous Speech Recognition by using limited audio corpus

Author

Susman, Derya ; Köprü, Selçuk ; Yazici, Adnan

Author_Institution

Bilgisayar Muhendisligi, ODTU, Ankara, Turkey

fYear

2012

fDate

18-20 April 2012

Firstpage

1

Lastpage

4

Abstract

In this paper, the recognition performances of several methodologies proposed in the context of Turkish Large Vocabulary Continuous Speech Recognition are retrieved by using a limited audio corpus. Word based, stem based, stem-ending based, and morph based language models are utilized with different n-gram orders. Word based and stem-ending based language models are extended by using several approaches. Also, a hybrid language model which is based on word based and stem-ending based language models is proposed. Word based language model is observed to outperform sub-word language models when limited audio corpus is used.

Keywords

speech recognition; Turkish large vocabulary continuous speech recognition; hybrid language model; limited audio corpus; morph based language models; n-gram orders; stem-ending based language models; word based language models; Abstracts; Context; Context modeling; Hidden Markov models; Microphones; Speech recognition; Vocabulary; agglutinative; hidden markov model; large vocabulary continuous speech recognition; limited corpus; n-gram language model;

fLanguage

English

Publisher

ieee

Conference_Titel

Signal Processing and Communications Applications Conference (SIU), 2012 20th

Conference_Location

Mugla

Print_ISBN

978-1-4673-0055-1

Electronic_ISBN

978-1-4673-0054-4

Type

conf

DOI

10.1109/SIU.2012.6204601

Filename

6204601