عنوان مقاله :
بهبود تقطيع معنايي ويدئو با استفاده از شبكههاي عصبي عميق و جريان نوري
پديد آورندگان :
نجفي ، محمد مهدي دانشگاه صنعتي مالك اشتر - مجتمع مهندسي برق و كامپيوتر , فخردانش ، محمد دانشگاه صنعتي مالك اشتر - مجتمع مهندسي برق و كامپيوتر
كليدواژه :
تقطيع معنايي ويدئو , شبكه عصبي عميق , جريان نوري
چكيده فارسي :
امروزه از تقطيع معنايي ويدئو در كاربردهاي بسياري از قبيل خودروهاي بدون سرنشين، سيستمهاي ناوبري، سيستمهاي واقعيت مجازي و ... استفاده ميشود. در سالهاي اخير پيشرفت چشمگيري در تقطيع معنايي تصاوير مشاهده شده است. اما از آنجا كه فريمهاي پشت سر هم يك ويدئو بايد با سرعت بالا و تاخير كم و به صورت بلادرنگ پردازش شوند استفاده از تقطيع معنايي تصوير روي تك تك فريمهاي ويدئو با مشكل مواجه ميشود؛ بنابراين تقطيع معنايي فريمهاي يك ويدئو به صورت بلادرنگ و با دقت مناسب موضوعي چالش برانگيز است. به منظور مقابله با چالش ذكر شده، در اين مقاله يك چارچوب تقطيع معنايي ويدئو معرفي شده است كه با در نظر گرفتن تغييرات فريمهاي پشت سر هم (با استفاده از جريان نوري) و بهره گيري از شبكه عميق بازگشتي GRU، از اطلاعات تقطيع معنايي فريمهاي قبلي به منظور افزايش سرعت و دقت استفاده شده است. يك ورودي شبكه GRU تخميني از تقطيع معنايي فريم فعلي (حاصل از يك شبكه عميق كانولوشنال از پيش آموزش ديده)، و ورودي ديگر آن لغزش يافته تقطيع معنايي فريم قبلي در راستاي جريان نوري دو فريم قبلي و فعلي ميباشد. روش پيشنهادي داراي دقت و سرعت قابل رقابت با شناخته شدهترين و بهترين روشها ميباشد. دقت تقطيع معنايي بر اساس معيار ارزيابي mIoU روي مجموعه دادههاي Cityscapes و Camvid به ترتيب برابر با 83.1 و 79.8 ميباشد. اين در حاليست كه در روش پيشنهادي سرعت تقطيع معنايي با استفاده از يك GPU تسلا مدل P4 روي مجموعه دادههاي Cityscapes و Camvid به ترتيب به 34 و 36.3 فريم بر ثانيه رسيده است.
عنوان نشريه :
رايانش نرم و فناوري اطلاعات
عنوان نشريه :
رايانش نرم و فناوري اطلاعات