عنوان مقاله :
تأييد هويت گويندۀ مقاوم به شرايط تلفني با استفاده از شبكۀ عصبي تأخير زماني
پديد آورندگان :
عسگري ، محمد دانشگاه صدا و سيماي جمهوري اسلامي ايران - دانشكده فني و مهندسي رسانه , اكبري ، نرگس دانشگاه صدا و سيماي جمهوري اسلامي ايران - دانشكده فني و مهندسي رسانه , آقاگلزاده ، مهران دانشگاه صدا و سيماي جمهوري اسلامي ايران - دانشكده فني و مهندسي رسانه , محرابي كيا ، محمدصادق دانشگاه صدا و سيماي جمهوري اسلامي ايران - دانشكده فني و مهندسي رسانه
كليدواژه :
تأييد هويت گوينده , شبكۀ عصبي تأخير زماني , بردار- x , ضرايب كپسترال بسامد مل , احتمال تحليل تفكيك خطي
چكيده فارسي :
در اين تحقيق الگوي شبكۀ عصبي تأخير زماني و بردار- x به منظور مقاوم سازي در برابر نوفه و صافي كردن (فيلترينگ) بسامدي ناشي از ارتباط تلفني ارايه گرديده است. از ضرايب كپسترال بسامد مل به عنوان ويژگي صوتي مرتبط با گوينده به عنوان ورودي اين الگو استفاده شده است. خروجي شبكۀ عصبي اين الگو بهصورت يك بردار- xدر نظر گرفته شده است تا بتواند در مرحلۀ تصميم گيري از آن استفاده شود. در مرحلۀ تصميم گيري از تحليل تفكيك خطي احتمالاتي بهمنظور امتيازدهي و مقايسه استفاده شده است. بهمنظور افزايش دقت و كاهش نرخ خطاي برابر، داده هاي آموزشي تركيبي از دادگان نسبتاً تميز وُكسسِلِب1، 2 و دادگان تلفني كالهوم و همچنين دادگان نوفهاي و تلفني بهدست آمده از روش دادهافزايي هستند. نتايج حاصل از بهكارگيري اين شيوه براي نرخ خطاي برابر در حالت تميز 3/09 درصد است كه نسبت به الگو هاي پايه در بدترين حالت در حدود 0/15 درصد (3/24 درصد در كارهاي پيشين به دست آمده است) و در بهترين حالت 6/93 درصد (10/2 درصد در كارهاي پيشين به دست آمده است) بهبود يافته است. در زماني كه آموزش با دادگان وُكسسِلِب1، 2 و دادگان كالهوم به عنوان تطبيق استفاده شده است، نرخ خطاي برابر معادل 4/95 درصد بهدست آمده است. در بدترين حالت زماني كه فقط دادگان وُكسسِلِب1 به تلفني تبديل شده، نرخ خطاي برابر معادل با 14/34 درصد شده است.
عنوان نشريه :
مجله انجمن مهندسي صوتيات ايران
عنوان نشريه :
مجله انجمن مهندسي صوتيات ايران