مرکز منطقه ای اطلاع رساني علوم و فناوري - بهبود بازيابي اطلاعات بر اساس تشابه معنايي كلمات كليدي با استفاده از رتبه دهي مبتني بر گراف

چكيده فارسي :

كلمات كليدي در اسناد متني ، كلماتي از متن اسناد هستند كه بيشترين بار مفهومي متن را به همراه داشته و نيز يك نسخه فشرده متن محسوب مي شود در نتيجه نياز به روش هاي استخراج خودكار كلمات كليدي را به شدت افزايش داده اخيرًا روش هاي رتبه بندي مبتني بر گراف كاربرد موفقي در حوزه وب داشته يك مشكل عمده اكثر اين روش ها تأكيد بيش از حد بر پارامترهم جواري كلمات در ايجاد و وزندهي يال هاي گراف متني و صرف نظر از شاخص هاي آماري TF شده است . در اين پژوهش برانيم شباهت معنايي كلمات كليدي را به صورت فرمت پيچيده تري از متغير - (روش IDF كه بيانگر ترتيب كاهنده از احتمال Wijوزندهي كلاسيك) به عنوان شاخص آماري بيان كنيم. با تعريف متغير است ، در BM25ارتباطشان با كوئري كاربر است و يك روش مشخص به عنوان رتبه بندي احتمال ؛ الگوريتم معروف اين پژوهش اطلاعات آماري روش رتبه بندي احتمال ارتباط كلمات كليدي، از جمله تعداد اسناد مشابه و اسناد كل سند با سند مورد نظرmمجموعه در وزندهي گراف استفاده شده است.هدف در اين مقاله اين است كه شباهت معنايي بررسي كنيم با رتبه بندي كلمات كليدي مشترك ميان اسناد ، اسنادي كه داراي كلمات كليدي با بالاترين اولويت d0 % در اسناد استخراج شده 93 اند. مقايسه نتايج روش جديد با روش هاي قبلي افزايش دقت d0اند شبيه ترين اسناد به . را نشان مي دهد d0مشابه