شماره ركورد كنفرانس :
3848
عنوان مقاله :
گامي به سوي پيكرههاي در سطح گفتمان زبان فارسي
عنوان به زبان ديگر :
A Path toward Persian Discourse Corpora
پديدآورندگان :
ميرزائي آزاده azadeh.mirzaei@atu.ac.ir استاديار گروه زبانشناسي دانشگاه علامه طباطبائي
كليدواژه :
پيكرۀ گفتمان زبان فارسي , پيكرۀ مرجع ضمير زبان فارسي , روابط منطقي , انسجام
عنوان كنفرانس :
دومين همايش ملي زبان شناسي پيكره اي
چكيده فارسي :
تحليل گفتمان در پي دستيابي به روابط ميان جملات و ارتباطات پنهان و پيداي درون متن است. تعيين روابط منطقي ميان جملات از يك سو و عوامل انسجامي متن (مرجع ضمير) از سوي ديگر دو سطح متفاوت در تهيۀ پيكرۀ گفتماني است. پيكرههاي در سطح گفتمان زبان فارسي هر دوي اين سطوح را مورد توجه قرار داده است. بر اين اساس ابتدا روابط منطقي ميان جملات در پيكرۀ سي هزار جملهاي دادگان زبان فارسي كه پيشتر اطلاعات صرفي، نحوي، محمول-موضوع و موجوديتهاي نامدار آن مشخص شده است، تماماً به صورت دستي، تعيين و برچسبگذاري شدند. اين روابط به طور كلي در چهار دستۀ كلان احتمال، زمان، مقايسه و گسترش قرار ميگيرند. در مرحلۀ بعد پيكرۀ متني گردآوري شد تا روابط مورد نظر در طول جملات و در متنهاي بزرگتر هم بررسي و برچسبگذاري شوند. پيكرۀ متني مورد نظر پس از قطعهبندي، ريشهيابي، برچسبگذاري اجزاي كلام و برچسبگذاري نحو، در سطح تعيين روابط منطقي ميان جملات برچسبگذاري شد. سپس دادۀ مورد نظر براي برچسبگذاري انسجام متني (مرجع ضمير) به عنوان پايه قرار گرفت و در حال حاضر برچسبگذاري مرجع ضمير بر روي آن در حال انجام است. حجم پيكرۀ متني مورد اشاره اكنون به دويست هزار كلمه رسيده است. لازم به ذكر است كه حجم پيكرۀ متني پايه همچنان رو به افزايش و همزمان علاوه بر برچسبگذاري صرفي و نحوي، برچسبگذاري گفتماني و مرجع ضمير نيز روي آن صورت ميپذيرد
چكيده لاتين :
Discourse analysis attempts to find the apparent or hidden discourse relationships between sentences. Determining these logical relations on one hand and the cohesive features (co-reference) through the text on the other hand are two different levels of discourse corpus projects. Persian discourse corpora consider these two dimensions of discourse analysis. To this end, primarily, the logical relations between sentences of 30000-sentence corpus which are pre-annotated with POS, syntactic, semantic role label and NER tags, are defined and labeled. Logical relations between sentences contain 4 general parts Contingency, temporal, comparison and expansion. Subsequently, a general corpus was collected, tokenized, lemmatized, POS tagged and tagged syntactically. Then this corpus was annotated with discourse tags and at present we are annotating the data with coreference tags. Currently, the size of the new corpus is over two hundred thousand words. It should be noted that the size of the base corpus is still growing and in addition to POS and syntax tagging, it has been annotated with discourse and coreference tag.