بازشناسي مقاوم گفتار فارسي با پس‌زمينۀ موسيقي با استفاده از شبكه‌هاي عصبي عميق

پديدآورندگان

محرابي كيا محمد صادق دانشگاه صدا و سيما , عسگري محمد سازمان صداوسيما , صامتي حسين دانشگاه صنعتي شريف

تعداد صفحه

كليدواژه

بازشناسي گفتار , مدل آكوستيكي , موسيقي , شبكه‌هاي عصبي عميق

سال انتشار

1398

عنوان كنفرانس

اجلاس فناوري رسانه

زبان مدرك

فارسي

چكيده فارسي

استفاده از شبكه‌هاي عصبي عميق به عنوان مدل آكوستيكي منجر به پيشرفت‌هاي چشمگيري در حوزۀ بازشناسي گفتار در سالهاي‌ اخير شده است. عملكرد سيستم‌هاي بازشناسي گفتار در شرايطي كه عدم تطابق بين داده‌هاي آموزش و آزمون وجود داشته باشد، كاهش مي‌يابد و به‌عنوان يكي از مهمترين چالش‌هاي اين حوزه به‌شمار مي‌رود. گفتار با پس‌زمينۀ موسيقي نيز يكي از چالش‌هاي حوزۀ رسانه است كه دقت سيستم‌هاي بازشناسي گفتار را به شدت كاهش مي‌دهد. در اين مقاله سعي شده است تا با استفاده از رويكردهاي تطبيق مدل و آموزش چند ‌وضعيتي ، عملكرد شبكه‌هاي عصبي عميق در مواجهه با اين مشكل مورد بررسي قرار گيرد و با استفاده از چند لايه شبكه‌هاي عصبي كانولوشني براي استخراج ويژگي‌هاي متمايز از گفتار، عملكرد سيستم‌هاي بازشناسي گفتار با پس‌زمينۀ موسيقي بهبود يابد. ميزان خطاي كلمه (WER) در مدل پيشنهادي، نسبت به حالت‌ پايه (شبكه عصبي تأخير زماني با دادگان آموزش تميز) به‌طور ميانگين حداقل 4.86 درصد و حداكثر 8.04 درصد كاهش يافته است.

كشور

ايران

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=36&DC=304171