شماره ركورد كنفرانس
3848
عنوان مقاله
بررسي اصطلاحات مركب در پيكرۀ وابستگي فارسي
عنوان به زبان ديگر
Multiword Expressions in Persian Dependency Treebank
پديدآورندگان
فعال همدانچي مريم falmary@ro.ru دكتري زبانشناسي مقابلهاي دانشگاه دوستي ملل روسيه , قدردوست نخچي سعيده sghadrdoust@ut.ac.ir دانشجوي دكتري زبانشناسي همگاني دانشگاه تهران
تعداد صفحه
22
كليدواژه
اصطلاح مركب , همپايگي , تركيبات , مقولۀ دستوري , وابستگي جهاني
سال انتشار
1395
عنوان كنفرانس
دومين همايش ملي زبان شناسي پيكره اي
زبان مدرك
فارسي
چكيده فارسي
اصطلاحات مركب چالشي عمده در پردازش زبانهاي طبيعي هستند، زيرا ويژگيها و خصوصيات نحوي و صرفي اين تركيبات از روي اجزا و ساختارشان قابلتشخيص نيست. رويكرد پيكرۀ وابستگي زبان فارسي در تجزيه و تحليل اين تركيبات صرفاً رايانهمحور است و براي مطالعات بينزباني، كاربردهاي نظري و آموزشي كارآمد نيست. در اين پيكره براي بررسي افعال مركب راهكارها و برچسبهاي متعددي پيشبيني شده است، اما با ساير انواع اصطلاحات مركب تقريباً شبيه به گروههاي نحوي معمولي برخورد ميشود. از سوي ديگر، بازيابي اصطلاحات از پيكره براي اهداف پژوهشي تقريباً غيرممكن است. بهعلاوه، مواردي نيز از ناسازگاري مقولۀ دستوري نيز در پيكره به چشم ميخورد. در اين پژوهش، بيش از هزار جمله از پيكره استخراج و بررسي شده، سپس با استفاده از راهكاري تلفيقي، برگرفته از پيكرۀ وابستگي جهاني مجدداً برچسبزني ميگردد. نتايج به دست آمده، قابليت اين روش را براي بهينهسازي پيكرۀ وابستگي زبان فارسي تأييد ميكند.
چكيده لاتين
Multiword Expressions (MWE) are a key problem in Natural Language Processing (NLP). Their properties are not predictable from their lexemes and their mode of combination. The Persian Dependency Treebank employs a totally computational approach in analyzing these compounds, which makes it potentially inadequate for cross-linguistic studies, theoretical, and educational applications. While several strategies and labels are employed to analyze Persian complex predicates, other types of compounds are treated almost like normal syntactic groups. Retrieving of MWE from the corpus is almost impossible. Furthermore, there are instances of syntactic category mismatches. In this study, about one thousand sentences of the corpus are extracted, analysed, and converted to a modified format of the Universal Dependencies. The results prove the method being reliable and adequate enough to present for further modification of the Persian Dependency Treebank.
كشور
ايران
لينک به اين مدرک