شماره ركورد :
1328685
عنوان مقاله :
تأييد هويت گويندۀ مقاوم به شرايط تلفني با استفاده از شبكۀ عصبي تأخير زماني
پديد آورندگان :
عسگري ، محمد دانشگاه صدا و سيماي جمهوري اسلامي ايران - دانشكده فني و مهندسي رسانه , اكبري ، نرگس دانشگاه صدا و سيماي جمهوري اسلامي ايران - دانشكده فني و مهندسي رسانه , آقاگلزاده ، مهران دانشگاه صدا و سيماي جمهوري اسلامي ايران - دانشكده فني و مهندسي رسانه , محرابي كيا ، محمدصادق دانشگاه صدا و سيماي جمهوري اسلامي ايران - دانشكده فني و مهندسي رسانه
از صفحه :
11
تا صفحه :
20
كليدواژه :
تأييد هويت گوينده , شبكۀ عصبي تأخير زماني , بردار- x , ضرايب كپسترال بسامد مل , احتمال تحليل تفكيك خطي
چكيده فارسي :
در اين تحقيق الگوي شبكۀ عصبي تأخير زماني و بردار- x به منظور مقاوم سازي در برابر نوفه و صافي كردن (فيلترينگ) بسامدي ناشي از ارتباط تلفني ارايه گرديده است. از ضرايب كپسترال بسامد مل به عنوان ويژگي صوتي مرتبط با گوينده به عنوان ورودي اين الگو استفاده شده است. خروجي شبكۀ عصبي اين الگو به‌صورت يك بردار-  xدر نظر گرفته شده است تا بتواند در مرحلۀ تصميم‌ گيري از آن استفاده شود. در مرحلۀ تصميم‌ گيري از تحليل تفكيك خطي احتمالاتي به‌منظور امتيازدهي و مقايسه استفاده شده است. به‌منظور افزايش دقت و كاهش نرخ خطاي برابر، داده‌ هاي آموزشي تركيبي از دادگان نسبتاً تميز وُكس‌سِلِب‌1، 2 و دادگان تلفني كال‌هوم و هم‌چنين دادگان نوفه‌اي و تلفني به‌دست آمده از روش داده‌افزايي هستند. نتايج حاصل از به‌كارگيري اين شيوه براي نرخ خطاي برابر در حالت تميز 3/09 درصد است كه نسبت به الگو هاي پايه در بدترين حالت در حدود 0/15 درصد (3/24 درصد در كارهاي پيشين به‌ دست آمده است) و در بهترين حالت 6/93 درصد (10/2 درصد در كارهاي پيشين به ‌دست آمده است) بهبود يافته است. در زماني كه آموزش با دادگان وُكس‌سِلِب‌1، 2 و دادگان كال‌هوم به عنوان تطبيق استفاده شده است، نرخ خطاي برابر معادل 4/95 درصد به‌دست آمده است. در بدترين حالت زماني كه فقط دادگان وُكس‌سِلِب1 به تلفني تبديل شده، نرخ خطاي برابر معادل با 14/34 درصد شده است.
عنوان نشريه :
مجله انجمن مهندسي صوتيات ايران
عنوان نشريه :
مجله انجمن مهندسي صوتيات ايران
لينک به اين مدرک :
بازگشت