شماره ركورد :
1298926
عنوان مقاله :
مروري بر برچسب‌گذاري واژگاني زبان‌هايي با صورت نوشتاري لاتين و غيرلاتين: نگاهي مبسوط بر زبان فارسي
عنوان به زبان ديگر :
A Survey of Part of Speech Tagging of Latin and non-Latin Script Languages: A more vivid view on Persian
پديد آورندگان :
مقدم،‌ميثم دانشگاه فسا - دانشكده علوم، فسا، ايران , حعفرپور، نيلوفر فاقد وابستگي
تعداد صفحه :
16
از صفحه :
75
از صفحه (ادامه) :
0
تا صفحه :
90
تا صفحه(ادامه) :
0
كليدواژه :
برچسب‌گذاري واژگاني , زبان‌هاي نوشتاري لاتين , زبان‌هاي نوشتاري غير لاتين , زبان فارسي , سيستم RTL
چكيده فارسي :
مقاله حاضر، به بررسي جامع موضوع برچسب‌گذاري واژگاني صورت نوشتاري زبان‌هاي لاتين و غيرلاتين به ويژه زبان فارسي مي‌‌پردازد. در اين نوشتار ميزان پيشرفت برچسب‌گذاري واژگاني در بيست و سه زبان گفتاري دنيا، كه داراي بيشترين متكلم مي‌باشند، مورد بررسي قرار مي‌گيرد. برخي از اين زبان‌ها مثل زبان‌هاي عربي، اردو و فارسي از سيستم نوشتاري از راست به چپ پيروي مي‌كنند، و در نوع خود با مشكلات و چالش‌هايي در زمينه برچسب‌گذاري واژگاني روبرو هستند. اين چالش‌ها مي‌تواند منحصر به يك زبان خاص باشد و يا در بين زبان‌هاي گوناگون مشترك باشند، كه به برخي از آن‌ها اشاره خواهيم كرد. در اين مقاله، با مروري نقادانه بر مطالعات اخير در حيطه برچسب‌گذاري واژگاني، چالش‌هاي پيش روي زبان فارسي مد نظر قرار گرفته شده است. با مرور تحقيقات پيشين و مطالعه ويژگي‌ها، مسائل، چالش‌ها و ابزارهاي برچسب‌گذاري واژگاني، اين نتيجه حاصل مي‌شود كه، چالش‌هاي برچسب‌گذاري واژگاني در زبان فارسي بيشتر در سطح توكن‌سازي و مربوط به شرايط رسم الخط عربي است.
چكيده لاتين :
This research is a general overview of the Latin script languages part of speech (POS) tagging with a specific focus on the non-Latin script languages, especially Persian. The study reviews the progress in POS tagging among the 23 highest native spoken languages in the world. Some of these languages follow the right-to-left (RTL) writing system such as Arabic, Urdu and Persian which have their own specific issues in POS tagging. This paper also goes through the issues and challenges which occurs during the tokenization and part of speech tagging of these languages. The challenges can be common between the languages or be specified to one. The Persian Language is chosen as the main interest of this paper and an attempt is made to critically overview the recent studies on Persian part of speech tagging and enumerate the specific challenges occurring in these studies. Reviewing the bulk of literature and examining the features, challenges, issues, and POS tagging tools in Persian, it was concluded that significant challenges of the researches on Persian were generally in the tokenization level and mostly as a result of using the Arabic script and its characteristics.
سال انتشار :
1400
عنوان نشريه :
هنر زبان
فايل PDF :
8720122
لينک به اين مدرک :
بازگشت