شماره ركورد :
1320808
عنوان مقاله :
بازشناسي آواي فارسي با استفاده از شاخص‌هاي صوتي و روش‌هاي جبران‌سازي تنوعاتِ مبتني بر شبكه‌هاي عصبي
پديد آورندگان :
رضا ، شقايق دانشگاه صنعتي اميركبير - دانشكده مهندسي پزشكي , سيد صالحي ، علي دانشگاه صنعتي اميركبير - دانشكده مهندسي پزشكي , سيد صالحي ، زهره دانشگاه آزاد اسلامي تهران - دانشكده بهداشت علوم پزشكي تهران - گروه مهندسي پزشكي
از صفحه :
173
تا صفحه :
196
كليدواژه :
بازشناسي آوا , شاخص‌هاي صوتي , يادگيري عميق , بازشناسي مقاوم , پالايش غير‌خطي
چكيده فارسي :
شواهد و آزمايشات گفتاري نشان مي‌دهد كه اطلاعات در سيگنال گفتار به صورت غير يكنواخت توزيع شده و انسان با تمركز به نواحي پُر اطلاعات آن قادر است به صورت مقاوم گفتار را بازشناسي كند. در اين راستا در اين تحقيق، يك سامانه‌‌ي بازشناسي آواي فارسي مبتني بر تمركز روي بازشناسي مقاوم نواحي پُراطلاعات و مجزاي صوتي ارائه شده است. اين نواحي شاخص‌هاي صوتي ناميده مي‌شوند. بدين منظور ابتدا براي سيگنال گفتارِ زبان فارسي يك مجموعه از شاخص‌هاي مناسب صوتي انتخاب شده و به يك شبكه‌ي عصبي عميق آموزش داده شده‌اند. سپس، به منظور حذف تنوعات شاخص‌هاي صوتي، تغييراتي در ساختار مدل و شيوه‌ي آموزش آن در چهار طرح مختلف انجام شده است. در طرح اول، از يك شبكه‌ي عصبي جداگانه و در طرح دوم از يك ساختار يادگيري چند تكليفي براي جبران سازي غيرخطي تنوعات شاخص هاي صوتي استفاده شده است. در طرح سوم نيز از يك اتصال بازگشتي در لايه ي پنهان شبكه براي بازسازي ورودي و در طرح چهارم از يك ساختار مبتني بر شبكه هاي جاذب دار عميق براي كاهش تنوعات ناخواسته استفاده شده است. در اين مقاله آزمايش‌ها روي مجموعه دادگانِ گفتاري فارسي فارس‌دات انجام شده است و نتايج بازشناسي به صورت خطاي بازشناسي آوا گزارش شده است. بهترين مدل آموزش يافته، يك شبكه‌‌ي عصبي جلوسو با پنج لايه‌‌ي پنهان است. خطاي بازشناسي آواي اين ساختار روي دادگان آزمون برابر 21.74 درصد به دست آمد. همچنين استفاده از چهارطرحِ پالايش تنوعات به ترتيب خطاي بازشناسي آوا را به طور مطلق 0.39، 0.58، 0.43 و 1.3 درصد كاهش داده است.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
لينک به اين مدرک :
بازگشت