مرکز منطقه ای اطلاع رساني علوم و فناوري - تشخيص وقايع بصري به‌كمك اطلاعات مكاني-زماني سيگنال ويدئو

چكيده فارسي :

در اين مقاله، تشخيص وقايع بصري در ويدئو، با بهره ‌گيري از اطلاعات زماني سيگنال، به‌صورت تحليلي موردتوجه قرار دارد. با استفاده از يادگيري انتقالي ، توصيف‌گرهاي آموزش‌ديده روي تصاوير به ويدئو اعمال مي‌شوند تا تشخيص وقايع را با استفاده از منابع محاسباتي محدود ، ممكن سازند. در اين مقاله، يك شبكه عصبي كانولوشني به‌عنوان استخراج‌كننده نمرات مفاهيم از قاب‌‌هاي ويدئو به‌كار مي‌رود . ابتدا پارامترهاي اين شبكه روي زيرمجموعه‌اي از داده‌هاي آموزش تنظيم دقيق مي‌شوند؛ سپس، توصيف‌گرهاي خروجي از لايه‌هاي تمام‌متصل آن به‌عنوان توصيف‌گر سطح قاب مورداستفاده قرار مي‌گيرند. توصيف‌گرهاي به‌دست‌آمده، كدگذاري و در‌نهايت نرماليزه‌سازي و طبقه‌بندي مي‌شوند. نوآوري عمده اين مقاله ، تركيب اطلاعات زماني ويدئو در كدگذاري توصيف‌گرهاي آن است. گنجاندن ساختاري اطلاعات بصري در فرايند كدگذاري توصيف‌گرهاي ويدئويي، ، اغلب ناديده گرفته مي‌شود. اين موضوع به كاهش دقت منجر مي ‌شود. براي حل اين مسأله، يك روش كدگذاري نوين ارائه مي‌شود كه مصالحه بين پيچيدگي محاسبات و دقت در شناسايي وقايع ويديويي را بهبود مي ‌دهد. در اين كدگذاري ، بعد زماني سيگنال ويدئويي براي ساخت يك بردار مكانيزماني از توصيف‌گرهاي مجتمع محلي ( VLAD ) استفاده، سپس نشان داده مي‌شود كه كدگذاري پيشنهادي ماهيتاً يك مسأله بهينه‌سازي است كه با الگوريتم‌هاي موجود به‌راحتي قابل‌حل است. در مقايسه با بهترين روش‌هاي موجود در حوزه تشخيص وقايع بصري مبتني بر توصيف‌گرهاي سطح قاب ، روش پيشنهادي مدل بهتري را از ويدئو ارائه مي‌كند. روش ارائه‌شده بر حسب سه معيار ميانگين دقت متوسط، ميانگين فراخواني متوسط و معيار F به عملكرد بالاتري بر روي هر دو مجموعه‌‌‌داده آزمون مورد بررسي دست مي‌يابد. نتايج به‌دست‌آمده توانمندي روش پيشنهادي را در بهبود عملكرد سامانه‌هاي تشخيص وقايع بصري تأييد مي‌كنند.