عنوان مقاله :
بازشناسي احساسات از روي گفتار بر پايه بهرهگيري از شبكههاي عصبي پيچشي و تكنيك افزايش دادگان
پديد آورندگان :
شفيعيان ، معصومه دانشگاه صدا و سيما - دانشكده فني و مهندسي رسانه , احمديان ، وحيد دانشگاه صدا و سيما - دانشكده فني و مهندسي رسانه , بهداد ، مجيد دانشگاه صدا و سيما - دانشكده فني و مهندسي رسانه
كليدواژه :
بازشناسي احساس از روي گفتار , شبكههاي عصبي پيچشي سه بعدي چندمقياسه , شبكه كپسول زماني , پايگاه داده راوديس
چكيده فارسي :
هدف از سيستم هاي بازشناسي احساس از روي گفتار ايجاد ارتباط عاطفي بين انسان و ماشين است. چراكه بازشناسي احساس و اهداف انسان از روي گفتار، به بهبود تعاملات بين انسان و ماشين كمك مي كند. بازشناسي احساس از روي گفتار براي محققان در دهه گذشته يك مسأله چالشبرانگيز بوده است. اما با پيشرفت در حوزه هوش مصنوعي اين چالش ها كمرنگ تر شدند. هدف از اين پژوهش، استفاده از روش هاي يادگيري عميق در جهت بهتر كردن كارايي اين سيستم ها است. كار انجام شده از چندين مرحله تشكيل شده است. در مرحله اول از شبكه هاي عصبي پيچشي سه بعدي براي يادگيري ويژگي هاي طيفي زماني گفتار استفاده شده است. در مرحله دوم براي قدرتمند كردن مدل پيشنهادي از ساختار هرمي جديد شبكه هاي عصبي پيچشي سه بعدي اتصال داده شده؛ كه يك معماري چند مقياسه از شبكه هاي عصبي پيچشي سه بعدي روي ابعاد ورودي است، بهره گرفته شد. در نهايت براي يادگيري ويژگي هاي طيفي زماني استخراج شده از ساختار جديد (ساختار جديد هرمي شبكه هاي عصبي پيچشي سه بعدي) با درنظر گرفتن رابطه مكاني و زماني اطلاعات بهصورت كامل، از شبكه كپسول زماني استفاده شد. در نهايت بر ساختار پيشنهادي كه يك ساختار قدرتمند براي ويژگي هاي طيفي زماني است نام MSID 3DCNN + Temporal Capsule نهاده شد. پژوهش انجام شده و مدل نهايي بر روي تركيب دو پايگاه داده گفتار معمولي و گفتار آوازي از پايگاه داده راوديس كه يك پايگاه داده چند حالته است انجام شد. نتايجي كه با استفاده از مدل پيشنهادي بهدست آمد؛ نسبت به مدل هاي مرسوم، قابل توجه است. در اين پژوهش براي شش كلاس احساسي به تفكيك جنسيت، دقت 81.77 درصد بهدست آمد.
عنوان نشريه :
صوت و ارتعاش
عنوان نشريه :
صوت و ارتعاش