بررسي پيكره-بنياد هم نگاره هاي اسمي و صفتي فارسي جهت كمك به برچسب گذاري صحيح اجزاي كلام

عنوان به زبان ديگر

A Corpus-based Study of Persian Noun and Adjective Homographs to help Correct POS Tagging

پديد آورندگان

علايي ابوذر، الهام پژوهشگاه علوم و فناوري اطلاعات ايران

تعداد صفحه

از صفحه

897

تا صفحه

921

كليدواژه

برچســب گذاري اجــزاي كالم , ســاخت واژة اســم ها و صفت هــا , نظــام نوشــتاري , هم نگاره هــا

چكيده فارسي

در تهيه سامانه هاي برچسب گذاري اجزاي كلام در زبان فارسي، بررسي ساخت واژي اسم ها و صفت ها از دو نظر حائز اهميت است: 1- اگر كلمه اي قبلاً در پيكره آموزشي ظاهر نشده باشد، نمي توان از پيكره آموزشي اطلاعات دقيقي راجع به آن كلمه به دست آورد . بنابراين، اگر در يك پيكره متني فارسي، كلمه اي در واژگان حضور نداشته باشد (كلمه خارج از واژگان)، نمي توان برچسب هاي مربوط به كلمه را بازيابي كرد. در اين صورت، برچسب كلمه را تنها مي توان با توجه به شكل كلمه (انواع پيشوندها و پسوندهايي كه به كلمات متصل مي شوند) يا بافتي كه كلمه در آن ظاهر مي شود، يا هر دو، حدس زد. 2- زبان فارسي ظرفيت بالايي براي ساخت هم نگاره هاي جديد كه از ساخت واژه فارسي نشأت مي گيرند، را نيز دارد بنابراين، بررسي ساخت واژي اسم ها و صفت ها، به منظور تفكيك آن ها از هم ضروري به نظر مي رسد، زيرا اكثر صفت ها در بافت هاي گوناگون، با صورت نوشتاري يكسان، مي توانند برچسب «اسم» بگيرند. در تحقيق حاضرساخت واژه اسم ها و صفت ها در فارسي بررسي شده است. نظام نوشتاري زبان فارسي نيز مورد بررسي قرار گرفته است تا از اين رهگذر بتوان به شناسايي انواع هم نگاره ها در زبان فارسي پرداخت. سپس، انواع هم نگاره ها در زبان فارسي مورد مطالعه قرار گرفته است و در نهايت از طريق جستجو به دو روش ماشيني و دستي، فهرست مبسوطي از هم نگاره ها از پيكره هاي "پيكره متني زبان فارسي"، "پايگاه دادگان زبان فارسي" و "پيكره وابستگي نحوي زبان فارسي" تهيه شده است. بررسي كلي هم نگاره ها در پيكره هاي مورد مطالعه نشان مي دهد كه بيشتر هم نگاره ها، فراواني بالايي در پيكره هاي متني فارسي دارند و اكثر آن ها در اثر يكسان بودن نمود نوشتاري تكواژ ياء نكره، ياء اسم ساز، شناسه دوم شخص مفرد، ياء صفت ساز و ياء متصل به گروه اسمي، ايجاد شده اند.

چكيده لاتين

Present research studies morphological structure of nouns and adjectives. There are two main reasons for studying them in the process of making any POS tagger system for tagging nouns: 1. If the system faces an out of vocabulary word (OOV word), one way to identify its tag would be considering its morphological structure; 2. In Persian, lots of homographs are made due to Persian complex morphology. Studying morphological structure of nouns in order to distinguish them from adjectives seems to be necessary, since many adjectives, having the same orthographic forms of nouns, would be wrongly tagged as “noun” or vic e versa. After studying morphological structure of nouns and adjectives in present study, Persian writing system is studied. Then definition of homographs and the related classifications are presented. Finally, the study uses different famous Persian corpora (including Bijankhan, and syntactical dependency corpus (vabastegi ye nahvi) for searching for homographs (using search tools) and Data Center for Persian Language (Paygah e Dadegan) whose non-tagged file was available (the homographs are searched and tagged manually)) to make a list of homographs. The result of studying the mentioned list showed that the frequency of homographs, especially those which are made due to identical orthographic form of indefinite morpheme, adjective-maker morpheme and second person inflectional morpheme is high in Persian corpora which makes POS tagging difficult.

سال انتشار

1397

عنوان نشريه

پژوهش نامه پردازش و مديريت اطلاعات

فايل PDF

7583491

عنوان نشريه

پژوهش نامه پردازش و مديريت اطلاعات

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1054643