شماره ركورد كنفرانس :
2139
عنوان مقاله :
ايجاد خودكار نمايه (Index) براي تصاوير متني به زبان فارسي
پديدآورندگان :
نوحي عليرضا نويسنده , يغمايي فرزين نويسنده
كليدواژه :
OCR , نمايه , تصاوير متني فارسي
عنوان كنفرانس :
نخستين كنفرانس بين المللي پردازش خط و زبان فارسي
چكيده فارسي :
در سال های اخیر، تشخیص نوری متون فارسی و عربی به طور گسترده ای مورد توجه قرار گرفته است. در این مقاله سعی داریم روشی برای ساخت خودكار نمایه، از تصاویر متنی به زبان فارسی ارائه كنیم. از این رو، ابتدا به تفكیك لغات و خطوط به كمك هیستوگرام های عمودی و افقی پرداخته و برای بهبود كیفیت لغات جدا شده از عملگرهای مورفولوژی استفاده می كنیم، تا ریزفاصله های موجود بین كلمات را حذف كنیم. سپس هر كلمه بدست آمده را به عنوان تصویر نمونه در نظر می گیریم و از طریق محاسبه ضریب همبستگی آن با سایر كلمات موجود در متن مقایسه می كنیم. در صورت مشابه بودن كلمه ای از متن با تصویر نمونه، آن را به همراه شماره صفحاتی این كلمه ای از متن با تصویر نمونه، آن را به همراه شماره صفحاتی كه این كلمه در آنها آورده شده است به عنوان یك ورودی در جدول نمایه درج می كنیم. نتایج حاصل از الگوریتم، نشان دهنده دقت حدود 90 درصد الگوریتم در ایجاد نمایه بر روی متون فارسی است.
شماره مدرك كنفرانس :
4474716