نشانه گذاري آماري متون فارسي براي استفاده در موتورهاي جستجو

پديدآورندگان

ميردامادي محمد مهدي نويسنده , زارع بيدكي علي محمد نويسنده , رضائيان مهدي نويسنده

تعداد صفحه

كليدواژه

پردازش زبان هاي طبيعي , موتور جستجو , پيكره , نشانه گذاري

سال انتشار

1391

عنوان كنفرانس

نخستين كنفرانس بين المللي پردازش خط و زبان فارسي

زبان مدرك

فارسی

چكيده فارسي

نشانه گذاری متن، یكی از فعالیت های اصلی در حوزه پردازش زبان های طبیعی است. اكثر برنامه های پردازش زبان های طبیعی به یك پیش پردازش برای استخراج كلمات متن و تشخیص نشانه ها احتیاج دارند. هدف اصلی و نهایی نشانه گذاری، بدست آوردن كلمات معنی دار همراه با پیشوندها و پسوندهایشان است. این فعالیت متناسب با زبان های طبیعی مختلف، می تواند سخت یا آسان باشد. در زبان فارسی با توجه به وجود فاصله و نیم فاصله، عدم توجه كاربران به فاصله گذاری ها و نبود قواعد دقیقی در نوشتن كلمات چند قسمتی، تشخیص و نشانه گذاری كلمات چند قسمتی و مركب، با مشكلات و پیچیدگی های خاص خود رو به رو است. در این مقاله برآنیم یك روش آماری برای نشانه گذاری متون فارسی جهت استفاده در موتورهای جستجو، ارائه كنیم. برای این منظور از احتمال رخداد دو كلمه های موجود در پیكره استفاده شده است. الگوریتم پیشنهادی شامل 4 فاز است و با دقت 81.4% به نشانه گذاری كلمات متون فارسی می پردازد. نتایج آزمایشات نشان دادند این روش می تواند با نشانه گذاری بهتر كلمات، دقت اطلاعات بازیابی شده در موتور جستجو را بهبود بخشد.

شماره مدرك كنفرانس

4474716

سال انتشار

1391

از صفحه

تا صفحه

سال انتشار

1391

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=36&DC=117835