شماره ركورد كنفرانس :
2139
عنوان مقاله :
نشانه گذاري آماري متون فارسي براي استفاده در موتورهاي جستجو
پديدآورندگان :
ميردامادي محمد مهدي نويسنده , زارع بيدكي علي محمد نويسنده , رضائيان مهدي نويسنده
كليدواژه :
پردازش زبان هاي طبيعي , موتور جستجو , پيكره , نشانه گذاري
عنوان كنفرانس :
نخستين كنفرانس بين المللي پردازش خط و زبان فارسي
چكيده فارسي :
نشانه گذاری متن، یكی از فعالیت های اصلی در حوزه پردازش زبان های طبیعی است. اكثر برنامه های پردازش زبان های طبیعی به یك پیش پردازش برای استخراج كلمات متن و تشخیص نشانه ها احتیاج دارند. هدف اصلی و نهایی نشانه گذاری، بدست آوردن كلمات معنی دار همراه با پیشوندها و پسوندهایشان است. این فعالیت متناسب با زبان های طبیعی مختلف، می تواند سخت یا آسان باشد. در زبان فارسی با توجه به وجود فاصله و نیم فاصله، عدم توجه كاربران به فاصله گذاری ها و نبود قواعد دقیقی در نوشتن كلمات چند قسمتی، تشخیص و نشانه گذاری كلمات چند قسمتی و مركب، با مشكلات و پیچیدگی های خاص خود رو به رو است. در این مقاله برآنیم یك روش آماری برای نشانه گذاری متون فارسی جهت استفاده در موتورهای جستجو، ارائه كنیم. برای این منظور از احتمال رخداد دو كلمه های موجود در پیكره استفاده شده است. الگوریتم پیشنهادی شامل 4 فاز است و با دقت 81.4% به نشانه گذاری كلمات متون فارسی می پردازد. نتایج آزمایشات نشان دادند این روش می تواند با نشانه گذاری بهتر كلمات، دقت اطلاعات بازیابی شده در موتور جستجو را بهبود بخشد.
شماره مدرك كنفرانس :
4474716