يادگيري چند وظيفه اي با هدف بهبود تشخيص احساس از گفتار با نرخ نمونه برداري پايين

پديدآورندگان

هاشمي صابر saberhashemi753@gmail.com دانشگاه صدا و سيما , عسگري محمد m.asgari@iribu.ac.ir دانشگاه صدا و سيما

تعداد صفحه

كليدواژه

يادگيري چند وظيفه اي , تشخيص احساس از گفتار , ترنسفورمر , شبكه ي عصبي كانولوشن , مكانيسم توجه

سال انتشار

1402

عنوان كنفرانس

نهمين كنگره انجمن علوم صوتي ايران

زبان مدرك

فارسي

چكيده فارسي

در اين پژوهش به استخراج احساس از سيگنال هاي گفتار با نرخ نمونه برداري پايين پرداخته مي شود. كاهش كيفيت سيگنال هاي صوتي بدليل كاهش فركانس نمونه برداري و يا افزايش نويز نمونه برداري در انواع فشرده سازها و يا مبدل هاي صوتي اتفاق مي افتد. مدل پيشنهادي براي بازشناسي احساس از دو بخش موازي شامل ترنسفورمر مبتني بر فريم و شبكه ي عصبي كانولوشن تشكيل مي شود. تشخيص جنسيت به عنوان يك وظيفه ي جانبي با هدف بهبود سوگيري استقرايي به مدل افزوده مي شود. هر يك از اين بخش ها وظيفه ي دريافت ويژگي هاي معيني را دارند. از ترنسفورمر مبتني بر فريم با هدف بهره مندي از توانايي آن در يادگيري ويژگي هاي سراسري استفاده مي شود. شبكه ي كانولوشني وظيفه ي دريافت ويژگي هاي محلي و تمركز بر ساختار دو بعدي ضرايب كپسترال فركانس مل را دارد. ضرايب كپسترال فركانس مل به عنوان ورودي شبكه ي عصبي پيشنهادي استفاده مي شود. مدل پيشنهادي در ديتاست RAVDESS به دقت 78٫9 براي دادگان تميز با نرخ نمونه برداي پايين و دقت 75٫4 براي دادگان نويزي دست مي يابد. اين پژوهش نشان مي دهد كه بدون افزودن پيش پردازش هاي اضافي مي توان دقت مدل تشخيص احساس را در شرايط نرخ نمونه برداري پايين و نويزي بهبود بخشيد.

كشور

ايران

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=36&DC=356983