شماره ركورد
1352376
عنوان مقاله
دستهبندي پيكرهبنياد همنگارههاي فارسي
پديد آورندگان
علايي ابوذر ، الهام پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك)
از صفحه
825
تا صفحه
900
كليدواژه
ابهام , همنگاره , برچسب اجزاي واژگاني كلام , ويژگيهاي ساختواژي همنگارهها
چكيده فارسي
ابهام، يكي از چالشهاي بزرگ در پردازش زبان طبيعي است. در پردازش رايانهاي متون، همنگارهها و چگونگي رفع ابهام از آنها از اهميت بالايي برخوردار است. در زبانهايـي ماننـد زبـان فارسـي كه سـاختواژه پيچيـدهاي دارنـد، همنگارههـاي بســياري ســاخته ميشــوند. در اين راستا شناخت همنگارهها و دستهبندي انواع آنها بسيار مهم است. در پژوهش حاضر بهمنظور بررسي پيكره-بنياد همنگارههاي فارسي، واژههايي كه بيش از يك برچسب اجزاي واژگاني كلام داشتند، از پيكره متني فارسي استخراج شدند كه شامل 10978 واژه است. سپس، فراواني برچسبهاي هر همنگاره مورد بررسي قرار گرفت و فهرست ديگري استخراج شد كه شامل همنگارههايي است كه افزون بر فراواني بالاي برچسب اول آنها (بيش از 20)، فراواني برچسب دوم آنها نيز در پيكره متني فارسي بيش از 10 بوده است. اين فهرست شامل 1675 همنگاره است. ماهيت ساختواژي، آوايي يا معنايي همنگارههاي استخراجشده در اين مرحله مورد بررسي قرار گرفت و بر اساس آن، همنگارههاي استخراجشده در يازده دسته طبقهبندي شد كه از ميان آنها، تنها همنگارههاي موجود در يك دسته بر اساس معيار معنايي طبقهبندي شدهاند و بقيه بر اساس ويژگيهاي ساختواژي و تفاوتهاي آوايي آنها در دستههاي گوناگون قرار گرفتهاند. نتايج اين پژوهش شامل فهرست گستردهاي از همنگارههاي فارسي استخراجشده از پيكره متني فارسي است كه هر كدام بر اساس معيارهاي ساختواژي و آوايي در يك يا بيش از يك دسته از مجموع يازده دسته قرار گرفتهاند. اين فهرست و دستهبندي مربوط به همنگارهها ميتواند در سيستمهاي رفع ابهام معنايي از واژگان مورد استفاده قرار گيرد
عنوان نشريه
پژوهش نامه پردازش و مديريت اطلاعات
عنوان نشريه
پژوهش نامه پردازش و مديريت اطلاعات
لينک به اين مدرک