شماره ركورد كنفرانس :
5103
عنوان مقاله :
توليد صحنه از روي توصيف متني با استفاده از يادگيري عميق
پديدآورندگان :
فولادي قلعه كاظم پرديس فارابي دانشگاه تهران -قم , چرخ‌كار پرتو پرديس فارابي دانشگاه تهران -قم
تعداد صفحه :
8
كليدواژه :
تصاوير انتزاعي , توصيف متني , توليد صحنه , ساخت تصوير.
سال انتشار :
1400
عنوان كنفرانس :
دوازدهمين كنفرانس ملي و دومين كنفرانس بين المللي بينايي ماشين و پردازش تصوير ايران
زبان مدرك :
فارسي
چكيده فارسي :
چكيده- مسئله‌ي تبديل توصيف متني به تصوير از جمله‌ِ‌ي مسائلي است كه امروزه بسيار مورد توجه قرار گرفته است؛ چرا كه داده‌هاي تصويري نسبت به داده‌هاي متني براي طيف گسترده‌تري از افراد از جمله كودكان قابل فهم است و همچنين سرعت انتقال و دريافت مفاهيم از داده‌هاي تصويري نسبت به داده‌هاي متني بالاتر است. مدلي كه بتواند تبديل متن به تصوير را با كيفيت قابل قبول انجام دهد مي‌تواند در كاربرد‌هاي مختلفي مورد استفاده قرار بگيرد. شبكه‌هاي عصبي عميق با قدرت بازنمايي بالاي داده‌ها مهم‌ترين ابزار براي انجام اين تبديل هستند. در مدل معرفي شده در اين مرجع از شبكه‌هاي عصبي مختلفي مانند شبكه‌ي عصبي كانوولوشنال، بازگشتي و بازگشتي كانوولوشنال استفاده شده است. مراحل تبديل توصيف متني به تصوير شامل 1) كدگذاري متن و صحنه و 2) كدگشايي اشيا و ويژگي‌هاي آن‌ها مي‌شود. در اين مدل از شبكه‌هاي كانوولوشنال ResNet-50و ResNeXt-50 براي كدگذاري صحنه‌ي توليدي استفاده شده است و نتايج حاصل از آن‌ها مقايسه شده است. آموزش و ارزيابي مدل بر روي مجموعه‌داده‌ي AbstractScenes انجام شده است. صحنه‌هاي توليد‌شده توسط مدل كيفيت مطلوبي دارند و ارزيابي كمي نتايج نيز عملكرد قابل قبولي را نشان مي‌دهد.
كشور :
ايران
لينک به اين مدرک :
بازگشت