شماره ركورد كنفرانس :
4747
عنوان مقاله :
بازشناسي مقاوم گفتار فارسي با پسزمينۀ موسيقي با استفاده از شبكههاي عصبي عميق
پديدآورندگان :
محرابي كيا محمد صادق دانشگاه صدا و سيما , عسگري محمد سازمان صداوسيما , صامتي حسين دانشگاه صنعتي شريف
كليدواژه :
بازشناسي گفتار , مدل آكوستيكي , موسيقي , شبكههاي عصبي عميق
عنوان كنفرانس :
اجلاس فناوري رسانه
چكيده فارسي :
استفاده از شبكههاي عصبي عميق به عنوان مدل آكوستيكي منجر به پيشرفتهاي چشمگيري در حوزۀ بازشناسي گفتار در سالهاي اخير شده است. عملكرد سيستمهاي بازشناسي گفتار در شرايطي كه عدم تطابق بين دادههاي آموزش و آزمون وجود داشته باشد، كاهش مييابد و بهعنوان يكي از مهمترين چالشهاي اين حوزه بهشمار ميرود. گفتار با پسزمينۀ موسيقي نيز يكي از چالشهاي حوزۀ رسانه است كه دقت سيستمهاي بازشناسي گفتار را به شدت كاهش ميدهد. در اين مقاله سعي شده است تا با استفاده از رويكردهاي تطبيق مدل و آموزش چند وضعيتي ، عملكرد شبكههاي عصبي عميق در مواجهه با اين مشكل مورد بررسي قرار گيرد و با استفاده از چند لايه شبكههاي عصبي كانولوشني براي استخراج ويژگيهاي متمايز از گفتار، عملكرد سيستمهاي بازشناسي گفتار با پسزمينۀ موسيقي بهبود يابد. ميزان خطاي كلمه (WER) در مدل پيشنهادي، نسبت به حالت پايه (شبكه عصبي تأخير زماني با دادگان آموزش تميز) بهطور ميانگين حداقل 4.86 درصد و حداكثر 8.04 درصد كاهش يافته است.