عنوان :
ارائه روشي هوشمند براي استخراج كليدواژه از مستندات علمي زبان فارسي بر اساس سيستمهاي پيشنهاددهنده
شرح پديد آور/مجري (مجريان) طرح :
آزاده محبي
چكيده فارسي :
استخراج كليدواژه يكي از مهمترين قدمهاي نمايهسازي مستندات محسوب ميشود. كليدواژههاي يك سند، توصيفگرهاي مفهومي هستند كه ميتوانند در جستوجو و بازيابي اطلاعات و نيز اشاعه آنها بكارگرفته شوند. در پايگاههاي دربردارنده اسناد علمي مانند پايگاه علمي گنج پژوهشگاه علوم و فناوري اطلاعات ايران، كليدواژهها نقش مهمتري دارند، و تخصيص كليدواژههاي تخصصي نيز چالشبرانگيزتر خواهد بود، زيرا در اين پايگاهها اسناد تخصصي با حوزههاي علمي مختلفي وجود دارند. با توجه به افزايش حجم توليد و ثبت مستندات علمي، نياز است كه فرايند نمايهساز و تخصيص كليدواژه با سرعت بيشتري صورت گيرد و از روشهاي ماشيني هوشمند براي پيشنهاد و تخصيص كليدواژه استفاده گردد. در بسياري از پايگاههاي اطلاعات علمي دنيا از روشهاي ماشيني و خودكار در كليه فعاليتهاي فرايند نمايهسازي يا بخشي از آنها استفاده ميشود. تعدادي از اين روشها بر مبناي تحليل آماري متون و استفاده از روشهاي يادگيري ماشين هستند، تعدادي بر مبناي تحليل معنايي متون به واسطه اصطلاحنامههاي تخصصي و هستانشناسي، و در تعدادي ديگر از اين روشها از تلفيق هر دو استفاده ميشود. بر همين اساس، در اين طرح پژوهشي روشي براي پيشنهاد كليدواژه به مستندات علمي فارسي ارائه شده كه بر مبناي روشهاي هوشمند پردازش متن و يادگيري ماشين عمل ميكند. روش پيشنهادي بر مبناي سيستمهاي پيشنهاددهنده و استدلال نمونهمحور طراحي شده كه براساس آن، مجموعهاي از كليدواژههاي مرتبط با يك سند به نمايهساز پيشنهاد شود تا نمايهساز سريعتر بتواند از بين آنها، كليدواژههاي مناسب را انتخاب كند. روش پيشنهادي براساس استدلال نمونه محور عمل ميكند كه در آن فرض بر اين است كه اسناد مشابه ميتوانند كليدواژههاي مشابه داشته باشند. بر همين اساس، ابتدا اسناد مشابه با يك سند جديد براساس روشهاي TFIDFو روشهاي بازنمايي كلمه-به-بردار، بازيابي ميشوند. سپس كليدواژههاي كانديد از بين اسناد مشابه درنظر گرفته ميشوند و در نهايت بر اساس يك تابع رتبهبندي، كليدواژههاي مناسب از بين آنها انتخاب ميشوند. روش پيشنهادي بر روي مجموعهاي از اسناد پايگاه گنج در سه حوزه فني و مهندسي، هنر و ادبيات، و علوم انساني، پيادهسازي شده و نتايج آن با معيارهايي نظير دقت، فراخواني و نظرات متخصصين ارزيابي شده است.
كليدواژه :
سيستمهاي پيشنهاددهنده , استخراج كليدواژه , استدلال نمونه محور , بازيابي اطلاعات , يادگيري ماشين , روش بازنمايي كلمه=به=بردار
اطلاعات نشر :
تهران پژوهشگاه علوم و فناوري اطلاعات ايران(ايرانداك)
مشخصات ظاهري :
111ص.، جدول، نمودار.
همكار (همكاران) طرح :
جلاليمنش، عمار