شماره ركورد كنفرانس :
4379
عنوان مقاله :
استخراج خطوط در اسناد دستنويس فارسي مبتني بر خوشه-بندي سلسله مراتبي
پديدآورندگان :
ايرانپور مباركه مجيد majid.iranpor@shahroodut.ac.ir دانشكده مهندسي كامپيوتر و فناوري اطلاعات، دانشگاه صنعتي شاهرود , احمدي فرد عليرضا ahmadyfard@shahroodut.ac.ir دانشكده مهندسي برق و رباتيك، دانشگاه صنعتي شاهرود
كليدواژه :
آناليز اسناد تصويري , استخراج خط , اسناد دستنويس فارسي , خوشه بندي سلسله مراتبي.
عنوان كنفرانس :
هشتمين كنفرانس فناوري اطلاعات و دانش
چكيده فارسي :
استخراج خط از اسناد دستنويس يكي از مهم ترين مراحل پيش پردازش درآناليز اسناد مانند درك اسناد تصويري، شناسايي متون دستنويس يا چاپي و جستجوي كلمه در اسناد تصويري (Word Spotting) است . تنوع در فاصله بين خطوط، فاصله بين كلمات يك خط و شيب خط و همچنين اتصال و همپوشاني بين خطوط باعث شده كه اين مسئله يك چالش بزرگ باقي بماند. اين مشكل در زبانهايي با رسم الخط بهم چسبيده، مانند فارسي و عربي، بخاطر وجود فاصله بين زيركلمات و همچنين تنوع در تعداد و محل نقاط و وجود سركش بسيار پيچيده تر مي باشد. در اين مقاله يك رهيافت جديد براي استخراج و قطعه بندي خطوط در متن دستنويس فارسي ارائه شده است. يك روش خوشه بندي سلسله مراتبي (Hierarchical Clustering) براساس نزديكترين فاصله(Single-Linkage) با يك معيار فاصله جديد كه ساختار نگارش فارسي را در نظر مي گيرد براي خوشه بندي اجزاء متصل (Connected Component (CC)) مورد استفاده قرار گرفته است. سپس يك سري قواعد براساس شيب خط و ساختار زبان فارسي جهت اتصال و جداسازي خوشه هاي بدست آمده اعمال شده است. پارامترهاي مورد استفاده براساس سند بصورت وفقي تعيين مي گردند. تست اين روش روي دو مجموعه داده استاندارد نتايج قابل قبولي را نشان مي دهد.