شماره ركورد كنفرانس :
5103
عنوان مقاله :
توليد صحنه از روي توصيف متني با استفاده از يادگيري عميق
پديدآورندگان :
فولادي قلعه كاظم پرديس فارابي دانشگاه تهران -قم , چرخكار پرتو پرديس فارابي دانشگاه تهران -قم
كليدواژه :
تصاوير انتزاعي , توصيف متني , توليد صحنه , ساخت تصوير.
عنوان كنفرانس :
دوازدهمين كنفرانس ملي و دومين كنفرانس بين المللي بينايي ماشين و پردازش تصوير ايران
چكيده فارسي :
چكيده- مسئلهي تبديل توصيف متني به تصوير از جملهِي مسائلي است كه امروزه بسيار مورد توجه قرار گرفته است؛ چرا كه دادههاي تصويري نسبت به دادههاي متني براي طيف گستردهتري از افراد از جمله كودكان قابل فهم است و همچنين سرعت انتقال و دريافت مفاهيم از دادههاي تصويري نسبت به دادههاي متني بالاتر است. مدلي كه بتواند تبديل متن به تصوير را با كيفيت قابل قبول انجام دهد ميتواند در كاربردهاي مختلفي مورد استفاده قرار بگيرد. شبكههاي عصبي عميق با قدرت بازنمايي بالاي دادهها مهمترين ابزار براي انجام اين تبديل هستند. در مدل معرفي شده در اين مرجع از شبكههاي عصبي مختلفي مانند شبكهي عصبي كانوولوشنال، بازگشتي و بازگشتي كانوولوشنال استفاده شده است. مراحل تبديل توصيف متني به تصوير شامل 1) كدگذاري متن و صحنه و 2) كدگشايي اشيا و ويژگيهاي آنها ميشود. در اين مدل از شبكههاي كانوولوشنال ResNet-50و ResNeXt-50 براي كدگذاري صحنهي توليدي استفاده شده است و نتايج حاصل از آنها مقايسه شده است. آموزش و ارزيابي مدل بر روي مجموعهدادهي AbstractScenes انجام شده است. صحنههاي توليدشده توسط مدل كيفيت مطلوبي دارند و ارزيابي كمي نتايج نيز عملكرد قابل قبولي را نشان ميدهد.