شماره ركورد كنفرانس :
3220
عنوان مقاله :
«بهبود برچسب گذاري اجزاي كلام با استفاده از نرم افزار رفع ابهام كننده از برچسب هم نگاره هاي اسمي و صفتي مختوم به «-ي
پديدآورندگان :
علايي ابوذر الهام پژوهشگاه علوم و فناوري اطلاعات ايران
كليدواژه :
برچسب نحوي , هم نگاره هاي اسمي و صفتي مختوم به «-ي» , الگوهاي حساس به بافت نحوي , صحت برچسب زني
عنوان كنفرانس :
نخستين كنفرانس ملي پژوهش هاي كاربردي در زيان شناسي رايانشي (با محوريت خط و زبان فارسي)
چكيده فارسي :
در پژوهش حاضر به اين مسئله پرداخته شد كه آيا با رفع ابهام از برچسب نحوي هم نگاره هاي اسمي و صفتي مختوم به «-ي»، كه فراواني بالايي در پيكره هاي متني فارسي دارند، كارايي يك سيستم برچسب زني خودكار اجزاي كلام، افزايش مي يابد؟ سيستم برچسب زني مورد مطالعه در پژوهش حاضر، ابزار «هضم» است. در پژوهش حاضر ابتدا فهرست مبسوطي از هم نگاره هاي اسمي و صفتي مختوم به «-ي» با تعريف تعداد 10 پنجره، به عبارتي ديگر، 10 كلمه قبل و بعد از هر هم¬نگارة مختوم به «ي»، در پيكرة بي جن خان (كه پيكره اي است با برچسب اجزاي كلام) تهيه شد؛ پس از بررسي هم نگاره هاي اسمي و صفتي مختوم به «-ي» در بافت نحوي، الگوهاي حساس به بافت نحوي جهت رفع ابهام از برچسب نحوي هم نگاره هاي مذكور، استخراج شد؛ سپس، نرم افزاري جهت رفع ابهام از برچسب نحوي اين هم نگاره ها، تهيه شد. ارزيابي كلي نرم افزار تهيه شده جهت رفع ابهام از برچسب نحوي هم نگاره هاي اسمي و صفتي مختوم به «-ي» در فارسي، نشان مي دهد اگر تنها الگوهاي حساس به بافت نحوي كه تأثير مثبت در برچسبزني داشتهاند را به برچسبزن «هضم» اضافه كنيم، صحت (Accuracy) كلي برچسبزن 95.961 درصد ميشود كه 1.34 درصد نسبت به حالتي كه از تمام الگوهاي حساس به بافت نحوي استفاده شود، بالاتر است.