عنوان مقاله :
بازشناسي آواي فارسي با استفاده از شاخصهاي صوتي و روشهاي جبرانسازي تنوعاتِ مبتني بر شبكههاي عصبي
پديد آورندگان :
رضا ، شقايق دانشگاه صنعتي اميركبير - دانشكده مهندسي پزشكي , سيد صالحي ، علي دانشگاه صنعتي اميركبير - دانشكده مهندسي پزشكي , سيد صالحي ، زهره دانشگاه آزاد اسلامي تهران - دانشكده بهداشت علوم پزشكي تهران - گروه مهندسي پزشكي
كليدواژه :
بازشناسي آوا , شاخصهاي صوتي , يادگيري عميق , بازشناسي مقاوم , پالايش غيرخطي
چكيده فارسي :
شواهد و آزمايشات گفتاري نشان ميدهد كه اطلاعات در سيگنال گفتار به صورت غير يكنواخت توزيع شده و انسان با تمركز به نواحي پُر اطلاعات آن قادر است به صورت مقاوم گفتار را بازشناسي كند. در اين راستا در اين تحقيق، يك سامانهي بازشناسي آواي فارسي مبتني بر تمركز روي بازشناسي مقاوم نواحي پُراطلاعات و مجزاي صوتي ارائه شده است. اين نواحي شاخصهاي صوتي ناميده ميشوند. بدين منظور ابتدا براي سيگنال گفتارِ زبان فارسي يك مجموعه از شاخصهاي مناسب صوتي انتخاب شده و به يك شبكهي عصبي عميق آموزش داده شدهاند. سپس، به منظور حذف تنوعات شاخصهاي صوتي، تغييراتي در ساختار مدل و شيوهي آموزش آن در چهار طرح مختلف انجام شده است. در طرح اول، از يك شبكهي عصبي جداگانه و در طرح دوم از يك ساختار يادگيري چند تكليفي براي جبران سازي غيرخطي تنوعات شاخص هاي صوتي استفاده شده است. در طرح سوم نيز از يك اتصال بازگشتي در لايه ي پنهان شبكه براي بازسازي ورودي و در طرح چهارم از يك ساختار مبتني بر شبكه هاي جاذب دار عميق براي كاهش تنوعات ناخواسته استفاده شده است. در اين مقاله آزمايشها روي مجموعه دادگانِ گفتاري فارسي فارسدات انجام شده است و نتايج بازشناسي به صورت خطاي بازشناسي آوا گزارش شده است. بهترين مدل آموزش يافته، يك شبكهي عصبي جلوسو با پنج لايهي پنهان است. خطاي بازشناسي آواي اين ساختار روي دادگان آزمون برابر 21.74 درصد به دست آمد. همچنين استفاده از چهارطرحِ پالايش تنوعات به ترتيب خطاي بازشناسي آوا را به طور مطلق 0.39، 0.58، 0.43 و 1.3 درصد كاهش داده است.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها