مرکز منطقه ای اطلاع رساني علوم و فناوري - بازشناسي كلمات دست نوشته با ويژگي هاي نوين و كاهش فرهنگ لغت

شماره ركورد :

1011720

عنوان مقاله :

بازشناسي كلمات دست نوشته با ويژگي هاي نوين و كاهش فرهنگ لغت

عنوان به زبان ديگر :

Handwritten word recognition by new feature and lexicon reduction

پديد آورندگان :

برومند، سميه دانشگاه آزاد اسلامي واحد مباركه - گرايش علوم تصميم و مهندسي دانش , ايرانپور مباركه، مجيد دانشگاه پيام نور - دانشكده مهندسي كامپيوتر و فناوري اطلاعات

تعداد صفحه :

از صفحه :

تا صفحه :

كليدواژه :

كلاس بند ماشين بردار پشتيبان دوكلاسه , الگوريتم خوشه بندي ISOCLUSE , كاهش فرهنگ لغت , سيفت متراكم , آناليز تفكيك‌كننده خطي , تشخيص كلمه دست نوشته

چكيده فارسي :

بازشناسي كلمات دست‌نوشته و تبديل آن به متن تايپي معادل مي‌ تواند در تفسير دست‌نوشته و جستجو در اسناد بسيار حائز اهميت باشد. در اين مقاله سيستمي به منظور تشخيص برون‌ خط دست‌ نوشته فارسي در يك فرهنگ لغت محدود معرفي شده است. به منظور استخراج ويژگي، بعد از بلوك ‌بندي تصوير ورودي و استخراج مركز هر بلوك توسط مركز ثقل، ميانگين مركز اجزاي متصل از الگوريتم سيفت متراكم استفاده شده است. از روش آناليز تفكيك‌ كننده خطي براي كاهش تعداد ويژگي‌ ها استفاده شده است. در اين مقاله، در مرحله نخست كلمات موجود در فرهنگ لغت بر اساس شباهت با استفاده از الگوريتم ISOCLUSE به همراه الگوريتم سلسله ‌مراتبي خوشه ‌بندي شده است. ميانگين هر خوشه در فضاي ويژگي به عنوان نماينده آن خوشه و مدخل مشترك اعضاي آن خوشه در فرهنگ لغت تصويري، در نظر گرفته شده است. در مرحله دوم به منظور بازشناسي كلمه ‌ي جديد از كلمات كانديد، از روش ماشين ‌بردار ‌پشتيبان به صورت چندكلاسه و دو‌كلاسه استفاده شده است. نتايج بدست آمده نشان دهنده عملكرد بهتر روش ماشين‌ بردار ‌پشتيبان دو‌كلاسه از لحاظ سرعت و دقت بر روي مجموعه داده ايران‌شهر مي‌ باشد. در مرحله بازشناسي با انتخاب 5 خوشه نزديك به كلمه دست‌نوشته مورد آزمون با دقت 93.37% حدود 76.65% از كلمات مورد بررسي كاهش خواهد يافت.

چكيده لاتين :

Handwritten word recognition (HWR) is very important in document analysis and retrieval. In this paper, an off-line handwritten recognition system for Persian manuscript is introduced. For feature extraction, SIFT descriptors extracted densely from the block of word image and enriched by appending the normalized x and y coordinates and the scale they were extracted at. Linear discriminate analysis (LDA) is used for feature reduction. All words in the dictionary were hierarchically clustered by ISOCLUSE algorithm. In order to recognize the word images, multiple-class and two-class SVM classifiers methods were used. The experimental results showed a better performance in terms of speed and precision of two-class SVM method on the Iranshahr data set. The accuracy of proposed system by select 5 top cluster is shown 93.37% by 76.65% reduction of lexicon.

سال انتشار :

1396

عنوان نشريه :

ماشين بينايي و پردازش تصوير

فايل PDF :

7455838

عنوان نشريه :

ماشين بينايي و پردازش تصوير

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=8&DC=1011720