عنوان مقاله :
بازشناسي برخط حروف مجزاي دست نويس فارسي با استفاده از مدل مخفي ماركوف گسسته و ويژگي هاي مبتني بر زبان فارسي
عنوان به زبان ديگر :
Online Handwritten Persian Isolated Letter Recognition by Using Discrete Markov Models and Language-Based Features
پديد آورندگان :
عاشورپور، محمد دانشگاه گلستان - دانشكده فني و مهندسي گرگان , زيارت بان، مجيد دانشگاه گلستان - دانشكده فني و مهندسي گرگان
كليدواژه :
بازشناسي برخط , حروف مجزاي فارسي , مدل مخفي ماركوف , كتاب كد , پيش پردازش , پس پردازش
چكيده فارسي :
در اين مقاله، بازشناسي برخط حروف مجزاي دستنويس فارسي با استفاده از مدل مخفي ماركوف گسسته و ويژگيهاي مبتني بر زبان فارسي ارائه ميشود. در روش پيشنهادي، از استخراج نقطههاي حرف، حذف قلابها، يكسان سازي ابعاد بدنه اصلي و هموارسازي آن بهعنوان بخشي از فرايند پيش پردازش استفاده ميشود. جهت حركت قلم براي بدنه اصلي و همچنين محل و تعداد ريزحركتها و نقطههاي حروف بهعنوان ويژگيهاي قابل مشاهده به منظور استفاده در فرايند آموزش و آزمايش مدل بهكار ميروند. در روش پيشنهادي از هيچگونه گروهبندي حروف، استفاده نشده است. بهمنظور توليد دنباله مشاهدهاي گسسته براي مدل مخفي ماركوف، از كتاب كد پيشنهادي كه مبتني بر خصوصيات نوشتاري زبان فارسي است استفاده ميشود. براي افزايش دقت بازشناسي، فرايند پسپردازش پيشنهادي، حرف بازشناسي شده را از نظر تعداد و محل ريز حركتها و نقطهها بررسي كرده و خروجي نهايي را بر ميگرداند. نرخ بازشناسي با استفاده از روش پيشنهادي بيش از 98 درصد براي مجموعه دادههاي آزمايشي است كه نسبت به ساير روشهاي اعمال شده بر روي اين مجموعه داده، دقت بهتري را ارائه ميدهد.
چكيده لاتين :
In this paper, an online Persian isolated letter recognition by using discrete Markov models and language-based features is presented. In the proposed method, the preprocessing includes the extraction of dots, the removal of ending-bends, the normalization of the main body dimension, and the main body smoothing. The direction of the pen for the main body, and also the location and the number of secondary movements and dots of letters are used as the observable features in order to train and test models. No alphabet grouping has been used in the proposed method. In order to produce appropriate discrete observation sequences for the hidden Markov models, the proposed codebook is based on the characteristics of the Persian language. To improve the recognition accuracy, the proposed post-processing checks the recognized character in terms of the number and location of the secondary movements and dots. The final recognition rate is obtained more than 98% for the test dataset and outperforms other methods applied to this dataset.
عنوان نشريه :
رايانش نرم و فناوري اطلاعات
عنوان نشريه :
رايانش نرم و فناوري اطلاعات