عنوان مقاله :
تشخيص وقايع بصري بهكمك اطلاعات مكاني-زماني سيگنال ويدئو
پديد آورندگان :
سلطانيان ، محمد دانشگاه صنعتي شريف - دانشكده مهندسي برق و پژوهشكده الكترونيك , قائممقامي ، شاهرخ دانشگاه خوارزمي - دانشكده علوم رياضي و كامپيوتر - گروه علوم كامپيوتر
كليدواژه :
شبكه عصبي كانولوشني , ادغام ميانگين , ادغام بيشينه , ماشين بردار پشتيبان , بردار توصيفگرهاي مجتمع محلي
چكيده فارسي :
در اين مقاله، تشخيص وقايع بصري در ويدئو، با بهره گيري از اطلاعات زماني سيگنال، بهصورت تحليلي موردتوجه قرار دارد. با استفاده از يادگيري انتقالي ، توصيفگرهاي آموزشديده روي تصاوير به ويدئو اعمال ميشوند تا تشخيص وقايع را با استفاده از منابع محاسباتي محدود ، ممكن سازند. در اين مقاله، يك شبكه عصبي كانولوشني بهعنوان استخراجكننده نمرات مفاهيم از قابهاي ويدئو بهكار ميرود . ابتدا پارامترهاي اين شبكه روي زيرمجموعهاي از دادههاي آموزش تنظيم دقيق ميشوند؛ سپس، توصيفگرهاي خروجي از لايههاي تماممتصل آن بهعنوان توصيفگر سطح قاب مورداستفاده قرار ميگيرند. توصيفگرهاي بهدستآمده، كدگذاري و درنهايت نرماليزهسازي و طبقهبندي ميشوند. نوآوري عمده اين مقاله ، تركيب اطلاعات زماني ويدئو در كدگذاري توصيفگرهاي آن است. گنجاندن ساختاري اطلاعات بصري در فرايند كدگذاري توصيفگرهاي ويدئويي، ، اغلب ناديده گرفته ميشود. اين موضوع به كاهش دقت منجر مي شود. براي حل اين مسأله، يك روش كدگذاري نوين ارائه ميشود كه مصالحه بين پيچيدگي محاسبات و دقت در شناسايي وقايع ويديويي را بهبود مي دهد. در اين كدگذاري ، بعد زماني سيگنال ويدئويي براي ساخت يك بردار مكانيزماني از توصيفگرهاي مجتمع محلي ( VLAD ) استفاده، سپس نشان داده ميشود كه كدگذاري پيشنهادي ماهيتاً يك مسأله بهينهسازي است كه با الگوريتمهاي موجود بهراحتي قابلحل است. در مقايسه با بهترين روشهاي موجود در حوزه تشخيص وقايع بصري مبتني بر توصيفگرهاي سطح قاب ، روش پيشنهادي مدل بهتري را از ويدئو ارائه ميكند. روش ارائهشده بر حسب سه معيار ميانگين دقت متوسط، ميانگين فراخواني متوسط و معيار F به عملكرد بالاتري بر روي هر دو مجموعهداده آزمون مورد بررسي دست مييابد. نتايج بهدستآمده توانمندي روش پيشنهادي را در بهبود عملكرد سامانههاي تشخيص وقايع بصري تأييد ميكنند.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها