شماره ركورد كنفرانس :
4163
عنوان مقاله :
ارائه يك مدل بينظمي بيشينه براي اصلاح خطاي دستوري تطابق فعل و فاعل در زبان فارسي
عنوان به زبان ديگر :
Proposing a maximum entropy model for the grammatical error correction of subject-verb agreement in Persian
پديدآورندگان :
مفتاح سيدهزينب z.meftah@ut.ac.ir دانشگاه تهران , فيلي هشام hfaili@ut.ac.ir دانشگاه تهران
كليدواژه :
تشخيص و اصلاح خطاهاي دستوري در زبان فارسي , تشخيص و اصلاح خطاهاي فعل , تصحيح خطاي تطابق فعل و فاعل , مدل بينظمي بيشينه.
عنوان كنفرانس :
چهارمين همايش ملي زبان شناسي رايانشي
چكيده فارسي :
منظور از خطايابي دستوري، تشخيص و اصلاح خطاهاي متن است كه از اشتباه در دستور زبان ناشي ميشوند. سامانههاي خطاياب دستوري ميتوانند در يادگيري قواعد زبان به افرادي كه در حال يادگيري يك زبان جديد هستند، كمك كنند. براي بررسي و شناسايي خطاهايي كه در ميان فارسيآموزان رايج است، برگههاي نگارش زبانآموزان مؤسسة لغتنامة دهخدا و مركز آموزش زبان فارسي دانشگاه بينالمللي امام خميني قزوين جمعآوري و خطاهاي آن بهصورت دستي برچسب زده شد. با استفاده از مجموعة حاصل، «پيكرة خطاهاي فارسيآموزان » كه شامل بيش از ۴۷۰۰ خطا از انواع مختلف است، ساخته شد. مشاهده شد كه مطابقت فعل و فاعل جزء خطاهاي پرتكرار در ميان فارسيآموزان است. در اين پژوهش يك روش دادهمحور براي اصلاح خطاي تطابق فعل و فاعل در زبان فارسي ارائه ميشود. در زبان فارسي بين فعل و فاعل از دو جهت تطابق وجود دارد: شخص و تعداد. براي تشخيص خطا، مسئله را بهصورت طبقهبندي چندكلاسه مدل كرده و دو طبقهبند، يكي براي اصلاح شخص فعل و ديگري براي اصلاح تعداد فعل روي حدود دوميليون جملة صحيح فارسي آموزش ميدهيم تا در زمان آزمون، شخص فعل را از ميان {اول شخص، دوم شخص، سوم شخص} و تعداد آن را از ميان {جمع و مفرد} تعيين كند. بردار ويژگي براي آموزش طبقهبند، از وابستههاي فعل و بن فعل، استخراج ميشود. درنهايت، عملكرد روش خود را روي مجموعة آزمون كه شامل خطاهاي واقعي است، ارزيابي كردهايم. سيستم ما به دقت ۰.۸۵ و بازخواني ۰.۶۶ دست پيدا كردهاست كه نسبت به هر دو روش پاية «برچسب اكثريت » و «ترجمة ماشيني» نتيجه بهتري است.
چكيده لاتين :
In this paper, we propose an approach to detect and correct the grammatical errors of subject-verb agreement in Persian. The grammar of Persian language requires the verbs to agree with their subjects based on grammatical person and number. We treat grammatical error detection and correction as a classification task and we train two maximum entropy classifiers to choose the right verb form; one to choose the correct grammatical person and another one to choose the correct grammatical number of the verb. We also collected a total of about seven hundred essays written by learners of Persian language which were used to create a fully annotated corpus of Persian grammatical errors. This corpus could be served as a data resource for development and evaluation of Persian grammatical error correction systems. Our approach achieves F0.5-score of 80% on the presented dataset and outperforms both most frequent label and machine translation baseline approaches in about 56%.