شماره ركورد :
1274723
عنوان مقاله :
بهبود تقطيع معنايي ويدئو با استفاده از شبكه‌هاي عصبي عميق و جريان نوري
پديد آورندگان :
نجفي ، محمد مهدي دانشگاه صنعتي مالك اشتر - مجتمع مهندسي برق و كامپيوتر , فخردانش ، محمد دانشگاه صنعتي مالك اشتر - مجتمع مهندسي برق و كامپيوتر
از صفحه :
88
تا صفحه :
98
كليدواژه :
تقطيع معنايي ويدئو , شبكه عصبي عميق , جريان نوري
چكيده فارسي :
امروزه از تقطيع معنايي ويدئو در كاربردهاي بسياري از قبيل خودروهاي بدون سرنشين، سيستم‌هاي ناوبري، سيستم‌هاي واقعيت مجازي و ... استفاده مي‌شود. در سال‌هاي اخير پيشرفت چشم‌گيري در تقطيع معنايي تصاوير مشاهده شده است. اما از آن‌جا كه فريم‌هاي پشت سر هم يك ويدئو بايد با سرعت بالا و تاخير كم و به صورت بلادرنگ پردازش شوند استفاده از تقطيع معنايي تصوير روي تك تك فريم‌هاي ويدئو با مشكل مواجه مي‌شود؛ بنابراين تقطيع معنايي فريم‌هاي يك ويدئو به صورت بلادرنگ و با دقت مناسب موضوعي چالش برانگيز است. به منظور مقابله با چالش‌ ذكر شده، در اين مقاله يك چارچوب تقطيع معنايي ويدئو معرفي شده است كه با در نظر گرفتن تغييرات فريم‌هاي پشت سر هم (با استفاده از جريان نوري) و بهره گيري از شبكه عميق بازگشتي GRU، از اطلاعات تقطيع معنايي فريم‌هاي قبلي به منظور افزايش سرعت و دقت استفاده شده است. يك ورودي شبكه GRU تخميني از تقطيع معنايي فريم فعلي (حاصل از يك شبكه عميق كانولوشنال از پيش آموزش ديده)، و ورودي ديگر آن لغزش يافته تقطيع معنايي فريم قبلي در راستاي جريان نوري دو فريم قبلي و فعلي مي‌باشد. روش پيشنهادي داراي دقت و سرعت قابل رقابت با شناخته شده‌ترين و بهترين روش‌ها مي‌باشد. دقت تقطيع معنايي بر اساس معيار ارزيابي mIoU روي مجموعه داده‌هاي Cityscapes و Camvid به ترتيب برابر با 83.1 و 79.8 مي‌باشد. اين در حاليست كه در روش پيشنهادي سرعت تقطيع معنايي با استفاده از يك GPU تسلا مدل P4 روي مجموعه داده‌هاي Cityscapes و Camvid به ترتيب به 34 و 36.3 فريم بر ثانيه رسيده است.
عنوان نشريه :
رايانش نرم و فناوري اطلاعات
عنوان نشريه :
رايانش نرم و فناوري اطلاعات
لينک به اين مدرک :
بازگشت