• شماره ركورد
    1352376
  • عنوان مقاله

    دسته‌بندي پيكره‌بنياد هم‌نگاره‌هاي فارسي

  • پديد آورندگان

    علايي ابوذر ، الهام پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك)

  • از صفحه
    825
  • تا صفحه
    900
  • كليدواژه
    ابهام , هم‌نگاره‌ , برچسب اجزاي واژگاني كلام , ويژگي‌هاي ساخت‌واژي هم‌نگاره‌ها
  • چكيده فارسي
    ابهام، يكي از چالش‌هاي بزرگ در پردازش زبان طبيعي است. در پردازش رايانه‌اي متون، هم‌نگاره‌ها و چگونگي رفع ابهام از آن‌ها از اهميت بالايي برخوردار است. در زبان‌هايـي ماننـد زبـان فارسـي كه سـاخت‌واژه‌ پيچيـده‌اي دارنـد، هم‌نگاره‌هـاي بســياري ســاخته مي‌شــوند. در اين راستا شناخت هم‌نگاره‌ها و دسته‌بندي انواع آن‌ها بسيار مهم است. در پژوهش حاضر به‌منظور بررسي پيكره-بنياد هم‌نگاره‌هاي فارسي، واژه‌هايي كه بيش از يك برچسب اجزاي واژگاني كلام داشتند، از پيكره‌ متني فارسي استخراج شدند كه شامل 10978 واژه است. سپس، فراواني برچسب‌هاي هر هم‌نگاره مورد بررسي قرار گرفت و فهرست ديگري استخراج شد كه شامل هم‌نگاره‌هايي است كه افزون ‌بر فراواني بالاي برچسب اول آن‌ها (بيش از 20)، فراواني برچسب‌ دوم آن‌ها نيز در پيكره‌ متني فارسي بيش از 10 بوده است. اين فهرست شامل 1675 هم‌نگاره است. ماهيت ساخت‌واژي، آوايي يا معنايي هم‌نگاره‌هاي استخراج‌شده در اين مرحله مورد بررسي قرار گرفت و بر اساس آن، هم‌نگاره‌هاي استخراج‌شده در يازده دسته طبقه‌بندي شد كه از ميان آن‌ها، تنها هم‌نگاره‌هاي موجود در يك دسته بر اساس معيار معنايي طبقه‌بندي شده‌اند و بقيه بر اساس ويژگي‌هاي ساخت‌واژي و تفاوت‌هاي آوايي آن‌ها در دسته‌هاي گوناگون قرار گرفته‌اند. نتايج اين پژوهش شامل فهرست گسترده‌اي از هم‌نگاره‌هاي فارسي استخراج‌شده از پيكره‌ متني فارسي است كه هر كدام بر اساس معيارهاي ساخت‌واژي و آوايي در يك يا بيش از يك دسته از مجموع يازده دسته قرار گرفته‌اند. اين فهرست و دسته‌بندي مربوط به هم‌نگاره‌ها مي‌تواند در سيستم‌هاي رفع ابهام معنايي از واژگان مورد استفاده قرار گيرد
  • عنوان نشريه
    پژوهش نامه پردازش و مديريت اطلاعات
  • عنوان نشريه
    پژوهش نامه پردازش و مديريت اطلاعات