گامي به سوي پيكره‌هاي در سطح گفتمان زبان فارسي

عنوان به زبان ديگر

A Path toward Persian Discourse Corpora

پديدآورندگان

ميرزائي آزاده azadeh.mirzaei@atu.ac.ir استاديار گروه زبان‌شناسي دانشگاه علامه طباطبائي

تعداد صفحه

كليدواژه

پيكرۀ گفتمان زبان فارسي , پيكرۀ مرجع ضمير زبان فارسي , روابط منطقي , انسجام

سال انتشار

1395

عنوان كنفرانس

دومين همايش ملي زبان شناسي پيكره اي

زبان مدرك

فارسي

چكيده فارسي

تحليل گفتمان در پي دستيابي به روابط ميان جملات و ارتباطات پنهان و پيداي درون متن است. تعيين روابط منطقي ميان جملات از يك سو و عوامل انسجامي متن (مرجع ضمير) از سوي ديگر دو سطح متفاوت در تهيۀ پيكرۀ گفتماني است. پيكره‌هاي در سطح گفتمان زبان فارسي هر دوي اين سطوح را مورد توجه قرار داده است. بر اين اساس ابتدا روابط منطقي ميان جملات در پيكرۀ سي هزار جمله‌اي دادگان زبان فارسي كه پيشتر اطلاعات صرفي، نحوي، محمول-موضوع و موجوديت‌هاي نامدار آن مشخص شده است، تماماً به صورت دستي، تعيين و برچسب‌گذاري شدند. اين روابط به طور كلي در چهار دستۀ كلان احتمال، زمان، مقايسه و گسترش قرار مي‌گيرند. در مرحلۀ بعد پيكرۀ متني گردآوري شد تا روابط مورد نظر در طول جملات و در متن‌هاي بزرگتر هم بررسي و برچسب‌گذاري شوند. پيكرۀ متني مورد نظر پس از قطعه‌بندي، ريشه‌يابي، برچسب‌گذاري اجزاي كلام و برچسب‌گذاري نحو، در سطح تعيين روابط منطقي ميان جملات برچسب‌گذاري شد. سپس دادۀ مورد نظر براي برچسب‌گذاري انسجام متني (مرجع ضمير) به عنوان پايه قرار گرفت و در حال حاضر برچسب‌گذاري مرجع ضمير بر روي آن در حال انجام است. حجم پيكرۀ متني مورد اشاره اكنون به دويست هزار كلمه رسيده است. لازم به ذكر است كه حجم پيكرۀ متني پايه همچنان رو به افزايش و همزمان علاوه بر برچسب‌گذاري صرفي و نحوي، برچسب‌گذاري گفتماني و مرجع ضمير نيز روي آن صورت مي‌پذيرد

چكيده لاتين

Discourse analysis attempts to find the apparent or hidden discourse relationships between sentences. Determining these logical relations on one hand and the cohesive features (co-reference) through the text on the other hand are two different levels of discourse corpus projects. Persian discourse corpora consider these two dimensions of discourse analysis. To this end, primarily, the logical relations between sentences of 30000-sentence corpus which are pre-annotated with POS, syntactic, semantic role label and NER tags, are defined and labeled. Logical relations between sentences contain 4 general parts Contingency, temporal, comparison and expansion. Subsequently, a general corpus was collected, tokenized, lemmatized, POS tagged and tagged syntactically. Then this corpus was annotated with discourse tags and at present we are annotating the data with coreference tags. Currently, the size of the new corpus is over two hundred thousand words. It should be noted that the size of the base corpus is still growing and in addition to POS and syntax tagging, it has been annotated with discourse and coreference tag.

كشور

ايران

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=36&DC=200216