مرکز منطقه ای اطلاع رساني علوم و فناوري - بازشناسي احساسات از روي گفتار بر پايه بهره‌گيري از شبكه‌هاي عصبي پيچشي و تكنيك افزايش دادگان

چكيده فارسي :

هدف از سيستم هاي بازشناسي احساس از روي گفتار ايجاد ارتباط عاطفي بين انسان و ماشين است. چراكه بازشناسي احساس و اهداف انسان از روي گفتار، به بهبود تعاملات بين انسان و ماشين كمك مي كند. بازشناسي احساس از روي گفتار براي محققان در دهه گذشته يك مسأله چالش‌برانگيز بوده است. اما با پيشرفت در حوزه هوش مصنوعي اين چالش ها كم‌رنگ تر شدند. هدف از اين پژوهش، استفاده از روش هاي يادگيري عميق در جهت بهتر كردن كارايي اين سيستم ها است. كار انجام شده از چندين مرحله تشكيل شده است. در مرحله اول از شبكه هاي عصبي پيچشي سه بعدي براي يادگيري ويژگي هاي طيفي زماني گفتار استفاده شده است. در مرحله دوم براي قدرتمند كردن مدل پيشنهادي از ساختار هرمي جديد شبكه هاي عصبي پيچشي سه بعدي اتصال داده شده؛ كه يك معماري چند مقياسه از شبكه هاي عصبي پيچشي سه بعدي روي ابعاد ورودي است، بهره گرفته شد. در نهايت براي يادگيري ويژگي هاي طيفي زماني استخراج شده از ساختار جديد (ساختار جديد هرمي شبكه هاي عصبي پيچشي سه بعدي) با درنظر گرفتن رابطه مكاني و زماني اطلاعات به‌صورت كامل، از شبكه كپسول زماني استفاده شد. در نهايت بر ساختار پيشنهادي كه يك ساختار قدرتمند براي ويژگي هاي طيفي زماني است نام MSID 3DCNN + Temporal Capsule نهاده شد. پژوهش انجام شده و مدل نهايي بر روي تركيب دو پايگاه داده گفتار معمولي و گفتار آوازي از پايگاه داده راوديس كه يك پايگاه داده چند حالته است انجام شد. نتايجي كه با استفاده از مدل پيشنهادي به‌دست آمد؛ نسبت به مدل هاي مرسوم، قابل توجه است. در اين پژوهش براي شش كلاس احساسي به تفكيك جنسيت، دقت 81.77 درصد به‌دست آمد.