شماره ركورد كنفرانس :
4163
عنوان مقاله :
پيكرة سازه: درخت‌بانك بزرگ زبان فارسي در دستور سازه‌اي
عنوان به زبان ديگر :
SAZEH Corpus: The Wide Coverage Persian Constituency Treebank
پديدآورندگان :
طباطبايي‌سيفي شهره Tabatabaee-sh@RCDAT.ir پژوهشگاه فناوري‌هاي پيشرفته خواجه نصيرالدين طوسي , صراف رضايي ايمان Sarraf@RCDAT.ir پژوهشگاه فناوري‌هاي پيشرفته خواجه نصيرالدين طوسي
تعداد صفحه :
21
كليدواژه :
درخت‌بانك فارسي , پيكرة درختي , دستور سازه‌اي , تجزيه‌گر آماري.
سال انتشار :
1396
عنوان كنفرانس :
چهارمين همايش ملي زبان شناسي رايانشي
زبان مدرك :
فارسي
چكيده فارسي :
پيكره‌هاي درختي يكي از پركاربردترين انواع پيكره‌هاي متني در حوزة زبان‌شناسي رايانشي هستند. اين پيكره‌ها در ساخت تجزيه‌گر آماري به كار گرفته مي‌شوند. همچنين مي‌توان به كمك آنها ميزان رخداد پديده‌هاي مختلف دستوري را در حوزه‌هاي خاص مانند متون روزنامه‌ها يا خبرگزاري‌ها بررسي نمود. پيكره‌هاي درختي عموماً در دو دستور رايج وابستگي و سازه‌اي توليد مي‌شوند. پيكرة سازه يك پيكره با پوشش بالا در دستور سازه‌اي (ساخت عباراتي ) است كه بيش از 500 هزار كلمه، معادل 15733 جمله دارد. جملات اين پيكره از بخش روزنامه‌اي پيكرة متني زبان فارسي انتخاب شده‌اند و متوسط طول جملات آن 31.8 كلمه است. برچسب‌گذاري يك‌سوم اين پيكره به شكل كاملاً دستي و مابقي آن به‌صورت نيمه‌خودكار صورت پذيرفته است. تجزيه‌گر آماري بركلي بر روي اين پيكره تعليم داده شده‌است و در حالت استفاده از برچسب‌هاي مقوله دستوري طلايي به كارآيي 80.66% در معيار F دست پيدا كرده‌است.
چكيده لاتين :
Treebank Corpora are among the most useful text corpora in the field of Corpus Linguistics. These kinds of databases are employed in Statistical Parser development. Moreover they can be used to investigate the special grammatical phenomena in specific domain like newspaper or newswire texts. Treebank corpora are generally built in two common formalisms, dependency and constituency grammars. SAZEH corpus is a wide coverage treebank in constituency (phrase structure) grammar containing more than 500000 words equivalent to 15733 sentences. The sentences of this corpus are chosen from the newspaper part of Persian Text Corpus and have 31.8 words per sentence in average. Annotation of one third of this corpus has been done manually and the rest of corpus has been annotated semi-automatic. The Berkeley statistical parser is trained on this corpus and using the gold POS tags, it achieves the performance of 80.66% in F measure evaluation metric.
كشور :
ايران
لينک به اين مدرک :
بازگشت