عنوان مقاله :
استخراج كليدواژگان پاياننامۀ فارسي با استفاده از ويژگي آماري و دستهبند بيز
پديد آورندگان :
حجازي ، بهزاد دانشگاه آزاد اسلامي واحد تهران شمال , نصيري ، جلال الدين دانشگاه فردوسي مشهد - دانشكدۀ علوم رياضي
كليدواژه :
استخراج كليدواژگان , دستهبند بيز , ويژگيهاي آماري , پيشپردازش , پسپردازش
چكيده فارسي :
هدف اصلي استخراج كلمات كليدي انتخاب مجموعهاي از لغات در متن است كه ميتواند موضوع اصلي متن را بازگو كند. استخراج كليدواژگان در بازيابي اطلاعات، سيستمهاي پيشنهاددهندۀ متني و دستهبندي متون، نقش مهم را ايفا ميكند. در زبان فارسي باتوجه به پيچيدگي ذاتي زبان فارسي استخراج كليدواژگان بهمراتب دشوارتر شده است. در اين پژوهش سعي شده است با رويكرد نوين تركيبي آماري و يادگيري ماشين به استخراج كليدواژگان پرداخته شود. ابتدا باتوجه به ساختار زبان فارسي پيش پردازهاي لازم براي حذف كلمات و علائم نگارشي صورت ميگيرد. سپس با استفاده از سه نوع ويژگي آماري و دسته بند بيز سيستم بهصورت خودكار الگوي كلمات كليدي با كلمات عادي را آموزش ميبيند. همچنين پس پردازش كارا براي كم كردن كلمات مثبت كاذب در چارچوب پيشنهادي طراحي شده است. گفتني است كه مدل ساختهشده قادر به شناسايي تعداد حداكثر 20 كليدواژه در هر پاياننامه است و اين كلمات با كليدواژگان نوشتهشده در هر متن مقايسه و ارزيابي ميشوند. نتايج ارزيابيهاي متنوع نشان مي دهد روش پيشنهادي با دقت مناسبي توانسته است كلمات كليدي نوشتارهاي فارسي علمي (پايان نامه و رساله) را استخراج كند.
عنوان نشريه :
جستارهاي زباني
عنوان نشريه :
جستارهاي زباني