عنوان مقاله :
مدل ميكروسكوپي دوگوشي مبتني بر فيلتر بانك مدولاسيون براي پيش گويي قابليت فهم گفتار در افراد داراي شنوايي عادي
عنوان به زبان ديگر :
Binaural Microscopic Model Based on Modulation Filterbank for the Prediction of Speech Intelligibility in Normal-Hearing Listeners
پديد آورندگان :
فلاح، علي دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر , گراوانچي زاده، مسعود دانشگاه تبريز - دانشكده مهندسي برق و كامپيوتر
كليدواژه :
پيشگويي قابليت فهم گفتار , مدلهاي دوگوشي , فيلتر بانك مدولاسيون , مدلهاي ميكروسكوپي , مدلهاي ماكروسكوپي
چكيده فارسي :
در اين مطالعه، مدل پيشگويي قابليت فهم دوگوشي ميكروسكوپي بر مبناي فيلتربانك مدولاسيون ارائه ميشود. تاكنون در مدلهاي دوگوشي، از معيارهاي طيفي مانند STI و SII و يا ديگر روابط تحليلي براي تعيين ميزان قابليت فهم دوگوشي استفاده شده است. در مدل پيشنهادي، بر خلاف تمام مدلهاي پيشگويي قابليت فهم دوگوشي، از بازشناساگر خودكار گفتار در قسمت پاياني بهعنوان واحد تصميمگيري استفاده ميشود. يك مزيت استفاده از اين روش، امكان تحليل ميزان بازشناسي قسمتهاي كوچك گفتار مانند واج و سيلاب است. مزيت ديگر اين مدل استفاده از پيشپردازشهايي است كه وجود آنها در دستگاه شنوايي انسان به اثبات رسيده است. با استفاده از ماتريس ويژگي پيشنهادي در بازشناساگر گفتار، اين مدل داراي پيشگوييهاي خوبي در حضور يك منبع نوفه ايستان شبهگفتار است. مقايسه نتايج مدل با نتايج حاصل از آزمايشهاي شنوايي، مقادير همبستگي بالا و ميانگين قدر مطلق خطاي پايين را نشان ميدهد. همچنين، ماتريسهاي ابهام براي همخوانها همبستگي بالايي را بين پيشگوييها و اندازهگيريها نشان ميدهد. آستانه ادراك گفتار پيشگوييشده توسط مدل پيشنهادي داراي ميانگين قدر مطلق خطاي كمتري (0/6 دسيبل) در مقايسه با مدل مبناي BSIM است.
چكيده لاتين :
In this study, a binaural microscopic model for the prediction of speech intelligibility based on the modulation filter bank is introduced. So far, the spectral criteria such as the STI and SII or other analytical methods have been used in the binaural models to determine the binaural intelligibility. In the proposed model, unlike all models of binaural intelligibility prediction, an automatic speech recognizer (ASR) is used in the back-end as the decision unit. One advantage of using this approach is the possibility of analyzing the recognition rate of small parts of speech such as phonemes and syllables. Another advantage of this model lies in the use of pre-processing that their existence in the human auditory system has been verified. Using the proposed feature matrix in the speech recognizer, this model has good predictions in the presence of one source of stationary speech-shaped noise. Comparing the results of the proposed model with those of listening tests show high correlations and low mean absolute error values. Also, the confusion matrices of the consonants represent high correlation between predictions and measurements. The predicted speech reception threshold by the proposed model has a smaller mean absolute error (0.6 dB) than the baseline model of BSIM.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها