شماره ركورد كنفرانس
5490
عنوان مقاله
پاسخ به پرسش ديداري در تصاوير هنري با استفاده از يادگيري عميق
پديدآورندگان
ذوالقدريها عرفان erfanzolghadriha@gmail.com گروه مهندسي كامپيوتر، دانشكده مهندسي، دانشكدگان فارابي، دانشگاه تهران , فولاديقلعه كاظم kfouladi@ut.ac.ir گروه مهندسي كامپيوتر، دانشكده مهندسي، دانشكدگان فارابي، دانشگاه تهران , اردهخاني پويا pouya.ardehkhani@ut.ac.ir آزمايشگاه پژوهشي يادگيري عميق، گروه مهندسي كامپيوتر، دانشكده مهندسي، دانشكدگان فارابي، دانشگاه تهران
تعداد صفحه
6
كليدواژه
بينايي كامپيوتري , پاسخ به پرسش ديداري , پردازش زبان طبيعي , تصاوير هنري
سال انتشار
1401
عنوان كنفرانس
ششمين كنفرانس بينالمللي بازشناسي الگو و تحليل تصوير
زبان مدرك
فارسي
چكيده فارسي
پاسخ به پرسش ديداري در حوزههاي خاص علاوه بر تازگي، از اين رو كه به كاربرديتر شدن اين سيستمها در مسائل روزمره و مسائل تخصصي كمك ميكند، اهميت دارد. در اين پژوهش با استفاده از يك مجموعهداده هنري كه داراي پرسشهاي ديداري و برمبناي دانش ميباشد، اقدام به پيادهسازي و بهبود عملكرد يك سيستم پاسخ به پرسش ديداري در تصاوير هنري ميكنيم. براي اين كار در ابتدا ماهيت پرسشهاي مجموعهداده را با استفاده از يك BERT پيش آموزش ديده مشخص كرده و سپس در شاخهي ديداري با استفاده از مدل iQAN با مكانيسم توجه MLB و مكانيسم همجوشي MUTAN به پرسشهاي ديداري و در شاخهي مبتني بر دانش با استفاده از يك مدل مبتني بر XLNet به پرسشهايي كه از روي تصاوير قادر به پاسخدهي به آنها نيستيم، پاسخ ميدهيم. در شاخهي ديداري به دقت 78.92% در پرسشهاي ديداري رسيديم. در شاخهي مبتني بر دانش نيز به دقت 47.71% دست پيدا كرديم. در مجموع دو شاخه با توجه به تقسيم آزمايشي مجموعهداده به دقت 55.88% رسيديم. همچنين در اين پژوهش تأثير پارامترهاي تعداد نگاه اجمالي و توابع فعالسازي را در عملكرد مدل بررسي شده است.
كشور
ايران
لينک به اين مدرک