مرکز منطقه ای اطلاع رساني علوم و فناوري - A first speech recognition system for Mandarin-English code-switch conversational speech

DocumentCode :

3166064

Title :

A first speech recognition system for Mandarin-English code-switch conversational speech

Author :

Vu, Ngoc Thang ; Lyu, Dau-Cheng ; Weiner, Jochen ; Telaar, Dominic ; Schlippe, Tim ; Blaicher, Fabian ; Chng, Eng-Siong ; Schultz, Tanja ; Li, Haizhou

Author_Institution :

Cognitive Syst. Lab., Karlsruhe Inst. of Technol. (KIT), Karlsruhe, Germany

fYear :

2012

fDate :

25-30 March 2012

Firstpage :

4889

Lastpage :

4892

Abstract :

This paper presents first steps toward a large vocabulary continuous speech recognition system (LVCSR) for conversational Mandarin-English code-switching (CS) speech. We applied state-of-the-art techniques such as speaker adaptive and discriminative training to build the first baseline system on the SEAME corpus [1] (South East Asia Mandarin-English). For acoustic modeling, we applied different phone merging approaches based on the International Phonetic Alphabet (IPA) and Bhattacharyya distance in combination with discriminative training to improve accuracy. On language model level, we investigated statistical machine translation (SMT) - based text generation approaches for building code-switching language models. Furthermore, we integrated the provided information from a language identification system (LID) into the decoding process by using a multi-stream approach. Our best 2-pass system achieves a Mixed Error Rate (MER) of 36.6% on the SEAME development set.

Keywords :

error statistics; language translation; speech recognition; 2-pass system; Bhattacharyya distance; CS speech; IPA; International Phonetic Alphabet; LID; LVCSR; MER; SEAME corpus; SMT based text generation approaches; South East Asia Mandarin-English; baseline system; code-switching language models; conversational Mandarin-English code-switching speech; decoding process; first speech recognition system; language identification system; language model level; large vocabulary continuous speech recognition system; mixed error rate; multistream approach; phone merging approaches; speaker adaptive training; speaker discriminative training; statistical machine translation; Acoustics; Hidden Markov models; Merging; Speech; Speech coding; Speech recognition; Training; code-switching; multilingual speech recognition;

fLanguage :

English

Publisher :

ieee

Conference_Titel :

Acoustics, Speech and Signal Processing (ICASSP), 2012 IEEE International Conference on

Conference_Location :

Kyoto

ISSN :

1520-6149

Print_ISBN :

978-1-4673-0045-2

Electronic_ISBN :

1520-6149

Type :

conf

DOI :

10.1109/ICASSP.2012.6289015

Filename :

6289015

Link To Document :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=49&DC=3166064