شماره ركورد كنفرانس
4747
عنوان مقاله
بازشناسي مقاوم گفتار فارسي با پسزمينۀ موسيقي با استفاده از شبكههاي عصبي عميق
پديدآورندگان
محرابي كيا محمد صادق دانشگاه صدا و سيما , عسگري محمد سازمان صداوسيما , صامتي حسين دانشگاه صنعتي شريف
تعداد صفحه
9
كليدواژه
بازشناسي گفتار , مدل آكوستيكي , موسيقي , شبكههاي عصبي عميق
سال انتشار
1398
عنوان كنفرانس
اجلاس فناوري رسانه
زبان مدرك
فارسي
چكيده فارسي
استفاده از شبكههاي عصبي عميق به عنوان مدل آكوستيكي منجر به پيشرفتهاي چشمگيري در حوزۀ بازشناسي گفتار در سالهاي اخير شده است. عملكرد سيستمهاي بازشناسي گفتار در شرايطي كه عدم تطابق بين دادههاي آموزش و آزمون وجود داشته باشد، كاهش مييابد و بهعنوان يكي از مهمترين چالشهاي اين حوزه بهشمار ميرود. گفتار با پسزمينۀ موسيقي نيز يكي از چالشهاي حوزۀ رسانه است كه دقت سيستمهاي بازشناسي گفتار را به شدت كاهش ميدهد. در اين مقاله سعي شده است تا با استفاده از رويكردهاي تطبيق مدل و آموزش چند وضعيتي ، عملكرد شبكههاي عصبي عميق در مواجهه با اين مشكل مورد بررسي قرار گيرد و با استفاده از چند لايه شبكههاي عصبي كانولوشني براي استخراج ويژگيهاي متمايز از گفتار، عملكرد سيستمهاي بازشناسي گفتار با پسزمينۀ موسيقي بهبود يابد. ميزان خطاي كلمه (WER) در مدل پيشنهادي، نسبت به حالت پايه (شبكه عصبي تأخير زماني با دادگان آموزش تميز) بهطور ميانگين حداقل 4.86 درصد و حداكثر 8.04 درصد كاهش يافته است.
كشور
ايران
لينک به اين مدرک