مرکز منطقه ای اطلاع رساني علوم و فناوري - ارائه يك مدل بي‌نظمي بيشينه براي اصلاح خطاي دستوري تطابق فعل و فاعل در زبان فارسي

شماره ركورد كنفرانس :

4163

عنوان مقاله :

ارائه يك مدل بي‌نظمي بيشينه براي اصلاح خطاي دستوري تطابق فعل و فاعل در زبان فارسي

عنوان به زبان ديگر :

Proposing a maximum entropy model for the grammatical error correction of subject-verb agreement in Persian

پديدآورندگان :

مفتاح سيده‌زينب z.meftah@ut.ac.ir دانشگاه تهران , فيلي هشام hfaili@ut.ac.ir دانشگاه تهران

تعداد صفحه :

كليدواژه :

تشخيص و اصلاح خطاهاي دستوري در زبان فارسي , تشخيص و اصلاح خطاهاي فعل , تصحيح خطاي تطابق فعل و فاعل , مدل بي‌نظمي بيشينه.

سال انتشار :

1396

عنوان كنفرانس :

چهارمين همايش ملي زبان شناسي رايانشي

زبان مدرك :

فارسي

چكيده فارسي :

منظور از خطايابي دستوري، تشخيص و اصلاح خطاهاي متن است كه از اشتباه در دستور زبان ناشي مي‌شوند. سامانه‌هاي خطاياب دستوري مي‌توانند در يادگيري قواعد زبان به افرادي كه در حال يادگيري يك زبان جديد هستند، كمك كنند. براي بررسي و شناسايي خطاهايي كه در ميان فارسي‌آموزان رايج است، برگه‌هاي نگارش زبان‌آموزان مؤسسة لغت‌نامة دهخدا و مركز آموزش زبان فارسي دانشگاه بين‌المللي امام خميني قزوين جمع‌آوري و خطاهاي آن به‌صورت دستي برچسب زده‌ شد. با استفاده از مجموعة حاصل، «پيكرة خطاهاي فارسي‌آموزان » كه شامل بيش از ۴۷۰۰ خطا از انواع مختلف است، ساخته شد. مشاهده‌ شد كه مطابقت فعل و فاعل جزء خطاهاي پرتكرار در ميان فارسي‌آموزان است. در اين پژوهش يك روش داده‌محور براي اصلاح خطاي تطابق فعل و فاعل در زبان فارسي ارائه مي‌شود. در زبان فارسي بين فعل و فاعل از دو جهت تطابق وجود دارد: شخص و تعداد. براي تشخيص خطا، مسئله را به‌صورت طبقه‌بندي چندكلاسه مدل كرده و دو طبقه‌بند، يكي براي اصلاح شخص فعل و ديگري براي اصلاح تعداد فعل روي حدود دوميليون جملة صحيح فارسي آموزش مي‌دهيم تا در زمان آزمون، شخص فعل را از ميان {اول ‌شخص، دوم ‌شخص، سوم ‌شخص} و تعداد آن را از ميان {جمع و مفرد} تعيين كند. بردار ويژگي براي آموزش طبقه‌بند، از وابسته‌هاي فعل و بن فعل، استخراج مي‌شود. درنهايت، عملكرد روش خود را روي مجموعة آزمون كه شامل خطاهاي واقعي است، ارزيابي كرده‌ايم. سيستم ما به دقت ۰.۸۵ و بازخواني ۰.۶۶ دست پيدا كرده‌است كه نسبت به هر دو روش پاية «برچسب اكثريت » و «ترجمة ماشيني» نتيجه بهتري است.

چكيده لاتين :

In this paper, we propose an approach to detect and correct the grammatical errors of subject-verb agreement in Persian. The grammar of Persian language requires the verbs to agree with their subjects based on grammatical person and number. We treat grammatical error detection and correction as a classification task and we train two maximum entropy classifiers to choose the right verb form; one to choose the correct grammatical person and another one to choose the correct grammatical number of the verb. We also collected a total of about seven hundred essays written by learners of Persian language which were used to create a fully annotated corpus of Persian grammatical errors. This corpus could be served as a data resource for development and evaluation of Persian grammatical error correction systems. Our approach achieves F0.5-score of 80% on the presented dataset and outperforms both most frequent label and machine translation baseline approaches in about 56%.

كشور :

ايران

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=36&DC=232735