شماره ركورد كنفرانس
5400
عنوان مقاله
يادگيري چند وظيفه اي با هدف بهبود تشخيص احساس از گفتار با نرخ نمونه برداري پايين
پديدآورندگان
هاشمي صابر saberhashemi753@gmail.com دانشگاه صدا و سيما , عسگري محمد m.asgari@iribu.ac.ir دانشگاه صدا و سيما
تعداد صفحه
7
كليدواژه
يادگيري چند وظيفه اي , تشخيص احساس از گفتار , ترنسفورمر , شبكه ي عصبي كانولوشن , مكانيسم توجه
سال انتشار
1402
عنوان كنفرانس
نهمين كنگره انجمن علوم صوتي ايران
زبان مدرك
فارسي
چكيده فارسي
در اين پژوهش به استخراج احساس از سيگنال هاي گفتار با نرخ نمونه برداري پايين پرداخته مي شود. كاهش كيفيت سيگنال هاي صوتي بدليل كاهش فركانس نمونه برداري و يا افزايش نويز نمونه برداري در انواع فشرده سازها و يا مبدل هاي صوتي اتفاق مي افتد. مدل پيشنهادي براي بازشناسي احساس از دو بخش موازي شامل ترنسفورمر مبتني بر فريم و شبكه ي عصبي كانولوشن تشكيل مي شود. تشخيص جنسيت به عنوان يك وظيفه ي جانبي با هدف بهبود سوگيري استقرايي به مدل افزوده مي شود. هر يك از اين بخش ها وظيفه ي دريافت ويژگي هاي معيني را دارند. از ترنسفورمر مبتني بر فريم با هدف بهره مندي از توانايي آن در يادگيري ويژگي هاي سراسري استفاده مي شود. شبكه ي كانولوشني وظيفه ي دريافت ويژگي هاي محلي و تمركز بر ساختار دو بعدي ضرايب كپسترال فركانس مل را دارد. ضرايب كپسترال فركانس مل به عنوان ورودي شبكه ي عصبي پيشنهادي استفاده مي شود. مدل پيشنهادي در ديتاست RAVDESS به دقت 78٫9 براي دادگان تميز با نرخ نمونه برداي پايين و دقت 75٫4 براي دادگان نويزي دست مي يابد. اين پژوهش نشان مي دهد كه بدون افزودن پيش پردازش هاي اضافي مي توان دقت مدل تشخيص احساس را در شرايط نرخ نمونه برداري پايين و نويزي بهبود بخشيد.
كشور
ايران
لينک به اين مدرک