عنوان مقاله :
آشكارسازي و بازشناسي يكپارچه متن از تصاوير طبيعي با بهكارگيري فرهنگ لغت
عنوان به زبان ديگر :
End to End Text Detection and Recognition of Natural Images using Dictionary
پديد آورندگان :
نعيمي، فاطمه دانشگاه آزاد اسلامي واحد سمنان، سمنان، ايران , قدس، وحيد دانشگاه آزاد اسلامي واحد سمنان - گروه مهندسي برق، سمنان، ايران , خالصي، حسن دانشگاه آزاد اسلامي واحد گرمسار - گروه مهندسي برق، گرمسار، ايران
كليدواژه :
مكان يابي متن در صحنه , آشكارسازي تصوير متن , چندجهته , شبكه عصبي پيچشي , بازشناسي متن , بازشناسي يكپارچه متن , فرهنگ لغت
چكيده فارسي :
در سالهاي اخيرآشكارسازي و بازشناسي متن در تصاوير طبيعي بهطور گسترده مورد مطالعه قرار گرفته است. در اين پژوهش، يك سيستم مكانيابي متن در صحنه چندجهته مقاوم براي به دست آوردن بازدهي بالا در آشكارسازي متن بر اساس شبكه عصبي پيچشي(CNN) ارائه شده است. روش پيشنهادي شامل سه لايه استخراج ويژگي، ادغام ويژگي و خروجي ميباشد. در لايه استخراج ويژگي، يك لايه ReLU بهبود يافته(i.ReLU) معرفي شده است. همچنين بهمنظورآشكارسازي متون با ابعاد متنوع، يك لايه inception بهبود يافته (i.inception) ارائه شده است. سپس، براي بهبود استخراج ويژگي از يك لايه اضافي استفاده شده است كه ساختار پيشنهادي را قادر ميسازد متون چندجهته حتي منحني و عمودي را آشكارسازي نمايد. همچنين، يك چارچوب خط لوله براي بازشناسي كاراكتر پيشنهاد نمودهايم. چارچوب خط لوله پيشنهادي شامل دو خط لوله موازي است كه بهطور همزمان پردازش ميشوند. خط لوله اول، متشكل از كلمات برش يافته و خط لوله دوم شامل زواياي متن ميباشد. سپس، يك فرهنگ لغت جهت اصلاح خطاي احتمالي كلمات بازشناسي شده استفاده نموديم. آزمايشها بر روي مجموعه دادههاي ICDAR 2013، ICDAR 2015 وICDAR 2019، نشان از برتري بارز سيستم پيشنهادي نسبت به كارهاي پيشين دارد.
چكيده لاتين :
In recent years, text detection and recognition in natural images have been extensively studied.In this study, a robust multioriented
scene text localization system was proposed to obtain high efficiency in text detection based on a convolutional neural network
(CNN). The proposed method includes three layers of feature extraction, feature-merging, and output. An improved ReLU layer
(i.ReLU) is introduced in the feature extraction layer. An improved inception layer (i.inception) is also provided to detect texts with
valuable information.An extra layer has been used to improve the feature extraction, which enables the proposed structureto detect
multi-oriented even curved and vertical texts. We have proposed a pipeline framework for character recognition.The proposed pipeline
framework consists of two parallel pipelines that are processed at the same time, and can recognize 62 characters. The first pipeline
consists of cropped words and the second pipeline consists of text angles. Then, we formed a dictionary and used it to correct the
possible error of the recognized words. Experiments on the ICDAR 2013, ICDAR 2015 and ICDAR 2019 datasets demonstrated the
architectural superiority of the proposed structure over the previous works.
عنوان نشريه :
پردازش سيگنال پيشرفته