Speech-music segmentation system for speech recognition

Author

Cemil Demir;Mehmet Ugur Dogan

Author_Institution

T?B?TAK-UEKAE (T?rkiye Bilim ve Teknoloji Ara?t?rma Kurumu -Ulusal Elektronik ve Kriptoloji Ara?t?rma Enstit?s?) p.k. 74, 41470, Gebze/ Kocaeli, Turkey

fYear

2009

fDate

4/1/2009 12:00:00 AM

Firstpage

624

Lastpage

627

Abstract

Using posterior probability based features to segment an audio signal as speech and music has been commonly used method. In this study Hidden-Markov-Model (HMM) based acoustic models are used to calculate posterior probabilities. Acoustic Models includes states of context-independent phones as modeling unit. Entropy and dynamism are found using via the posterior probabilities and these values are used as feature for speech-music discrimination. An HMM based classifier that uses Viterbi decoding is implemented and using discriminative features, audio signals are segmented as speech and music. As a result of the tests, it was found that applied speech-music segmentation method decreases Word-Error-Rate and increases the speed of recognition.

Keywords

"Speech recognition","Hidden Markov models","Viterbi algorithm","Testing","Probability","Multiple signal classification","Context modeling","Performance evaluation","Music","Entropy"

Publisher

ieee

Conference_Titel

Signal Processing and Communications Applications Conference, 2009. SIU 2009. IEEE 17th

ISSN

2165-0608

Print_ISBN

978-1-4244-4435-9

Type

conf

DOI

10.1109/SIU.2009.5136473

Filename

5136473

Link To Document

https://search.isc.ac/dl/search/defaultta.aspx?DTC=49&DC=3632072