شماره ركورد كنفرانس :
4163
عنوان مقاله :
پيكرة سازه: درختبانك بزرگ زبان فارسي در دستور سازهاي
عنوان به زبان ديگر :
SAZEH Corpus: The Wide Coverage Persian Constituency Treebank
پديدآورندگان :
طباطباييسيفي شهره Tabatabaee-sh@RCDAT.ir پژوهشگاه فناوريهاي پيشرفته خواجه نصيرالدين طوسي , صراف رضايي ايمان Sarraf@RCDAT.ir پژوهشگاه فناوريهاي پيشرفته خواجه نصيرالدين طوسي
كليدواژه :
درختبانك فارسي , پيكرة درختي , دستور سازهاي , تجزيهگر آماري.
عنوان كنفرانس :
چهارمين همايش ملي زبان شناسي رايانشي
چكيده فارسي :
پيكرههاي درختي يكي از پركاربردترين انواع پيكرههاي متني در حوزة زبانشناسي رايانشي هستند. اين پيكرهها در ساخت تجزيهگر آماري به كار گرفته ميشوند. همچنين ميتوان به كمك آنها ميزان رخداد پديدههاي مختلف دستوري را در حوزههاي خاص مانند متون روزنامهها يا خبرگزاريها بررسي نمود. پيكرههاي درختي عموماً در دو دستور رايج وابستگي و سازهاي توليد ميشوند. پيكرة سازه يك پيكره با پوشش بالا در دستور سازهاي (ساخت عباراتي ) است كه بيش از 500 هزار كلمه، معادل 15733 جمله دارد. جملات اين پيكره از بخش روزنامهاي پيكرة متني زبان فارسي انتخاب شدهاند و متوسط طول جملات آن 31.8 كلمه است. برچسبگذاري يكسوم اين پيكره به شكل كاملاً دستي و مابقي آن بهصورت نيمهخودكار صورت پذيرفته است. تجزيهگر آماري بركلي بر روي اين پيكره تعليم داده شدهاست و در حالت استفاده از برچسبهاي مقوله دستوري طلايي به كارآيي 80.66% در معيار F دست پيدا كردهاست.
چكيده لاتين :
Treebank Corpora are among the most useful text corpora in the field of Corpus Linguistics. These kinds of databases are employed in Statistical Parser development. Moreover they can be used to investigate the special grammatical phenomena in specific domain like newspaper or newswire texts. Treebank corpora are generally built in two common formalisms, dependency and constituency grammars. SAZEH corpus is a wide coverage treebank in constituency (phrase structure) grammar containing more than 500000 words equivalent to 15733 sentences. The sentences of this corpus are chosen from the newspaper part of Persian Text Corpus and have 31.8 words per sentence in average. Annotation of one third of this corpus has been done manually and the rest of corpus has been annotated semi-automatic. The Berkeley statistical parser is trained on this corpus and using the gold POS tags, it achieves the performance of 80.66% in F measure evaluation metric.