شماره ركورد كنفرانس :
4418
عنوان مقاله :
ريشه يابي كلمات با استفاده از شبكه ي بيزين ساده و كاربرد آن به همراه استفاده از يك الگوريتم جديد درتعيين ميزان مشابهت متون
پديدآورندگان :
كاظمي ونهري فاطمه دانشگاه آزاد اسلامي , احمدي علي دانشگاه صنعتي خواجه نصيرالدين طوسي , محسن زاده مهران دانشگاه آزاد اسلامي
كليدواژه :
دسته بندي كلمات , ريشه يابي , شينگل , فضاي برداري , ميزان مشابهت
عنوان كنفرانس :
يازدهمين كنفرانس سراسري سيستم هاي هوشمند
چكيده فارسي :
امروزه از ريشه ياب ها استفاده هاي بسياري در مسائل مربوط به حوزه زبان طبيعي، داده كاوي و بازيابي اطلاعات ميشود. از جمله مسائل مورد بحث در حوزه ي زبان طبيعي، مسئلهي تشخيص ميزان مشابهت متون است. قبل از تشخيص ميزان مشابهت متون، عملياتي تحت عنوان پيش پردازش بر روي متون انجام مي گيرد. پيش پردازش ها شامل انجام فعاليت هايي بر روي متن است كه باعث مي شوند نتايج الگوريتم پيدا كردن تشابه، بهتر گردد. پيش پردازشها به طور كلي شامل مراحل حذف علائم نقطه گذاري، جداسازي كلمات، حذف اعداد، حذف كلمات پرتكرار و ريشه يابي است. در اين مقاله پس از انجام چهار مرحله ي ابتدايي پيش پردازش، با ارائه ي يك الگوريتم جديد مبتني بر شبكه ي بيزين ساده، به انجام يك مرحله ي اضافي ديگر تحت عنوان دسته بندي كلمات مي پردازيم و از نتايج دسته بندي در مرحله ي ريشه يابي استفاده مي كنيم. سپس به بررسي كاربرد آن الگوريتم به همراه استفاده از يك الگوريتم جديد بر مبناي تئوري احتمال كل، و فاصله يابي در فضاي برداري، به تشخيص ميزان مشابهت متون مي پردازيم. بررسي هاي ما نشان مي دهد كه الگوريتم هاي ارائه شده توانسته اند نتايج بسيار خوبي را در زمينهي ريشه يابي و تعيين ميزان مشابهت متون بدست آورند