عنوان مقاله :
تطبيق گوينده در بازشناسي گفتار پيوسته براساس تخمين MAP مبتني بر تبديل MLLR
عنوان به زبان ديگر :
Speaker Adaptation in Continuous Speech Recognition Using MLLR-Based MAP Estimation
پديد آورندگان :
شريفيان، سعيد دانشگاه صنعتي اميركبير - دانشكده مهندسي برق , احدي، محمد دانشگاه صنعتي اميركبير - دانشكده مهندسي برق
كليدواژه :
تبديل MLLR , تخمين MAP , تطبيق گوينده , بازشناسي گفتار پيوسته فارسي , مدلهاي ماركوف پنهان (HMM)
چكيده فارسي :
روشهاي مختلفي براي تطبيق گوينده در سيستمهاي بازشناسي گفتار معرفي گرديدهاند. در برخي روشها نظير تخمين MAP تنها مدلهايي كه داده آموزشي متناظرشان موجود باشد تازه سازي ميشوند و براي بهبود قابل توجه دقت بازشناسي، داده آموزشي نسبتاً زيادي مورد نياز است. در برخي ديگر نظير MLLR كه تعدادي تبديلات عمومي بر روي خوشههاي مدلها اعمال ميشود، براي دادگان كم آموزشي نتايج مطلوبي حاصل ميشود، اما با افزايش دادگان، كارايي به حد اشباع ميرسد. در اين مقاله روش جديدي مطرح ميشود كه از مزاياي هر دو روش فوق براي دسترسي به كيفيت بالاتر بهره ميبرد. در اين روش مدلهايي كه داده آموزشي آنها موجود است به كمك تخمين MAP آموزش ميبينند و براي مدلهايي كه داده آموزشي (كافي) ندارند، با استفاده از روش MLLR مقادير پيشينه مناسب براي تخمين MAP تأمين ميشود. اين روش، در عمل، بر روي يك سيستم آموزش ديده براساس دادگان فارس دات به نتايج بهتري نسبت به هر يك از دو روش MAP و MLLR دست يافته است.
چكيده لاتين :
A variety of methods are used for speaker adaptation in speech recognition. In some techniques, such as MAP estimation, only the models with available training data are updated. Hence, large amounts of training data are required in order to have significant recognition improvements. In some others, such as MLLR, where several general transformations are applied to model clusters, the results are desirable for small training data, but with increasing training data, the performance improvement reaches the saturation lvel. In this paper, a new approach is introduced that makes use of the advantages of both mentioned techniques to improve the recognition rate. Here, the models with available training data are trained using MAP while for those with insufficient training data, appropriate prior parameters for MAP estimation are found using MLLR. This technique has yielded better performance in comparison to either MAP or MLLR, in a system based on FARSDAT speech corpus.
عنوان نشريه :
روشهاي عددي در مهندسي
عنوان نشريه :
روشهاي عددي در مهندسي