شماره ركورد :
1323330
عنوان مقاله :
بازشناسي احساسات از روي گفتار بر پايه بهره‌گيري از شبكه‌هاي عصبي پيچشي و تكنيك افزايش دادگان
پديد آورندگان :
شفيعيان ، معصومه دانشگاه صدا و سيما - دانشكده فني و مهندسي رسانه , احمديان ، وحيد دانشگاه صدا و سيما - دانشكده فني و مهندسي رسانه , بهداد ، مجيد دانشگاه صدا و سيما - دانشكده فني و مهندسي رسانه
از صفحه :
85
تا صفحه :
98
كليدواژه :
بازشناسي احساس از روي گفتار , شبكه‌هاي عصبي پيچشي سه بعدي چندمقياسه , شبكه كپسول زماني , پايگاه داده راوديس
چكيده فارسي :
هدف از سيستم هاي بازشناسي احساس از روي گفتار ايجاد ارتباط عاطفي بين انسان و ماشين است. چراكه بازشناسي احساس و اهداف انسان از روي گفتار، به بهبود تعاملات بين انسان و ماشين كمك مي كند. بازشناسي احساس از روي گفتار براي محققان در دهه گذشته يك مسأله چالش‌برانگيز بوده است. اما با پيشرفت در حوزه هوش مصنوعي اين چالش ها كم‌رنگ تر شدند. هدف از اين پژوهش، استفاده از روش هاي يادگيري عميق در جهت بهتر كردن كارايي اين سيستم ها است. كار انجام شده از چندين مرحله تشكيل شده است. در مرحله اول از شبكه هاي عصبي پيچشي سه بعدي براي يادگيري ويژگي هاي طيفي زماني گفتار استفاده شده است. در مرحله دوم براي قدرتمند كردن مدل پيشنهادي از ساختار هرمي جديد شبكه هاي عصبي پيچشي سه بعدي اتصال داده شده؛ كه يك معماري چند مقياسه از شبكه هاي عصبي پيچشي سه بعدي روي ابعاد ورودي است، بهره گرفته شد. در نهايت براي يادگيري ويژگي هاي طيفي زماني استخراج شده از ساختار جديد (ساختار جديد هرمي شبكه هاي عصبي پيچشي سه بعدي) با درنظر گرفتن رابطه مكاني و زماني اطلاعات به‌صورت كامل، از شبكه كپسول زماني استفاده شد. در نهايت بر ساختار پيشنهادي كه يك ساختار قدرتمند براي ويژگي هاي طيفي زماني است نام  MSID 3DCNN + Temporal Capsule   نهاده شد. پژوهش انجام شده و مدل نهايي بر روي تركيب دو پايگاه داده گفتار معمولي و گفتار آوازي از پايگاه داده راوديس كه يك پايگاه داده چند حالته است انجام شد. نتايجي كه با استفاده از مدل پيشنهادي به‌دست آمد؛ نسبت به مدل هاي مرسوم، قابل توجه است. در اين پژوهش براي شش كلاس احساسي به تفكيك جنسيت، دقت 81.77 درصد به‌دست آمد.
عنوان نشريه :
صوت و ارتعاش
عنوان نشريه :
صوت و ارتعاش
لينک به اين مدرک :
بازگشت