شماره ركورد :
674809
عنوان مقاله :
تشخيص حس وابسته به گوينده گفتار فارسي با استفاده از ويژگي‌هاي آكوستيكي
عنوان فرعي :
A Speaker-Dependent System for Recognizing the Embedded Emotion in Persian Speech Using Acoustic Features
پديد آورندگان :
كرمي، منصوره نويسنده كارشناس‏ارشد هوش مصنوعي دانشگاه صنعتي شريف , , جمشيدلو، پريا نويسنده فوق ليسانس زبان‌شناسي رايانشي دانشگاه صنعتي شريف , , صامتي، حسين نويسنده ,
اطلاعات موجودي :
فصلنامه سال 1392 شماره 4
رتبه نشريه :
علمي ترويجي
تعداد صفحه :
12
از صفحه :
3
تا صفحه :
14
كليدواژه :
تشخيص حس , گفتار فارسي , وابسته به گوينده , Persian Speech , ويژگي آكوستيكي , Emotion detection , Speaker-Dependent , Acoustic features
چكيده فارسي :
چكيده: بيان احساس در ارتباطات روزمره از جايگاه ويژه‌اي برخوردار است. از جمله بسترهاي نمود احساس، گفتار است. از اين‌رو، يكي از جنبه‌هاي مهم در طبيعي‌سازي ارتباط ميان انسان و ماشين، تشخيص حس گفتار و توليد بازخورد متناسب با احساس درك‌شده است. باوجود پيشرفت‌هاي گسترده در حوزه پردازش گفتار، استخراج و درك احساس پنهان در گفتار انسان، همچون خشم، شادي و جز اين‌ها، از يك‌سو و توليد گفتار احساسي مناسب از سوي ديگر، همچنان يكي از چالش‌هاي مهم براي ساخت ماشين‌هاي هوشمند محسوب مي‌شود. در اين مقاله، يك سيستم وابسته به گوينده براي تشخيص حس گفتار فارسي ارايه شده است. مراد از تشخيص حس وابسته به گوينده گفتار، شناسايي خودكار حالت احساسي يك يا چند گوينده خاص با استفاده از نمونه‌هاي گفتاري آنهاست. در طراحي سيستم معرفي‌شده، از روش‌هاي آماري استفاده شده است و معماري آن شامل دو بخش اصلي، استخراج ويژگي و آموزش مدل دسته‏بند مي‏باشد. در مرحله استخراج ويژگي، 28 ويژگي آكوستيكي شامل اطلاعات مربوط به فركانس گام، ساخت سه فرمنت‌ اول و دامنه از نمونه‎‌هاي گفتار احساسي دو گوينده (يك مرد و يك زن) به‌طور مجزا و به ازاي شش حس متفاوت خشم، تنفر، ترس، شادي، غم و خنثي استخراج شده است. پس از تشكيل بردار ويژگي، سه روش دسته‌بند، شامل ماشين بردار پشتيبان[i]، k نزديكترين همسايه[ii] و شبكه عصبي[iii]، آموزش داده شده‌اند. در نهايت، سه روش پياده‌سازي‌شده با استفاده از پار‌ه‌گفتارهاي احساسي داده آزمون ارزيابي شده و دقت و صحت و بازخواني آنها مشخص شده است. با مقايسه عملكرد سه روش دسته‌بند مشخص شد كه بيشترين دقت براي گوينده مرد و زن به‌ترتيب مربوط به ماشين بردار پشتيبان (97 درصد) و شبكه عصبي (93 درصد) بوده است. اين در حالي است كه در آزمون انساني صورت‌گرفته، ميانگين دقت انسان در تشخيص حس پاره‌گفتارهاي احساسي داده آزمون 78 درصد و كمتر از دقت روش‌هاي دسته‌بند گزارش‌شده در سيستم پياده‏سازي شده است.
چكيده لاتين :
Emotion plays an essential role in humanʹs daily communications. One way to convey emotion is speech. Thus, one of the important facets in naturalization of human-machine interaction is to detect the embedded emotion of speech and to give an appropriate feedback accordingly. Although there has been made vast progress in the field of speech processing, extracting the embedded emotion of human speech such as anger, happiness and so forth in the one hand and producing a proper emotional speech on the other hand are yet among the significant challenges for developing intelligent machines. In this paper, a speaker-dependent system is introduced to recognize the embedded emotion in Persian speech. By speaker-dependent, we mean that the system is able to automatically recognize the emotional state of one or more specific speakers using their speech sample. In this paper, statistical methods were applied to design the system. Its architecture includes two main sections: feature extraction and model training. In the first step, 28 acoustic features including information about fundamental frequency, the structure of first three formants and amplitude were separately extracted from the sample utterances of two speakers including one male and one female and for six different states of anger, disgust, fear, happiness, sadness and neutrality. Then, three diverse classifiers including support vector machine, k-nearest neighbor and neural networks were trained using feature vectors. Finally, the implemented classifiers were evaluated using test set and their recall, precision and accuracy were specified. Comparing the performance of the above mentioned classifiers showed that the highest accuracy in recognizing the embedded emotion for male and female speakers were achieved by support vector machine (97%) and neural network (93%) respectively. In subjective test, however, the average accuracy was 78% and lower than the accuracy reported for each classifier.
سال انتشار :
1392
عنوان نشريه :
صوت و ارتعاش
عنوان نشريه :
صوت و ارتعاش
اطلاعات موجودي :
فصلنامه با شماره پیاپی 4 سال 1392
كلمات كليدي :
#تست#آزمون###امتحان
لينک به اين مدرک :
بازگشت