شماره ركورد :
1017933
عنوان مقاله :
برچسب‌گذاري ادات سخن زبان فارسي با استفاده از مدل شبكۀ فازي
عنوان به زبان ديگر :
Part Of Speech Tagging of Persian Language using Fuzzy Network Model
پديد آورندگان :
بادپيما ،محمد دانشگاه مالك‌اشتر , حورعلي ،فاطمه دانشگاه مالك‌اشتر , حورعلي، مريم دانشگاه مالك‌اشتر
تعداد صفحه :
8
از صفحه :
123
تا صفحه :
130
كليدواژه :
شبكۀ عصبي , پردازش زبان‌هاي طبيعي , برچسب‌زني اجزاي سخن , زبان فارسي
چكيده فارسي :
برچسب‌گذاري ادات سخن يكي از مسائل مطرح در حوزۀ پردازش زبان‌هاي طبيعي است. هدف در اين مسئله تعيين نقش واژگان در جمله است. برحسب اين برچسب‌گذاري ويژگي‌هاي دستوري و نحوي واژگان نيز مشخص مي‌شود. در اين مقاله يك روش مبتني بر آماري براي ادات سخن فارسي پيشنهاد شده است. در اين روش محدوديت‌هاي روش‌هاي آماري با استفاده از معرّفي يك مدل شبكه فازي كاهش پيدا كرده است؛ به­طوري­كه در­صورت وجود تعداد كمي دادۀ آموزشي، مدل فازي پارامترهاي قابل اطمينان‌تري را تخمين مي‌زند. در اين روش ابتدا هنجار‌سازي به‌عنوان پيش‌پردازش صورت گرفته و سپس فراواني هر واژه با توجه به برچسب مربوطه به‌صورت يك تابع فازي تخمين زده و سپس مدل شبكه فازي تشكيل ­شده و درجۀ هر يال در اين شبكه با استفاده از يك شبكۀ عصبي و تابع عضويت مشخص مي‌شود. درنهايت بعد از اين­كه مدل شبكۀ فازي براي يك جمله ساخته شد، از الگوريتم ويتربي براي تعيين محتمل‌ترين مسير در اين شبكه استفاده شده است. نتايج آزمايش روي پيكرۀ بي‌جن‌خان كارايي اين روش را تأييد كرده و نشان مي‌دهد كه روش پيشنهادي در شرايطي كه داده‌هاي آموزشي كم­تري در اختيار باشد، از روش‌هاي مشابه، مثل مدل مخفي ماركوف عملكرد بهتري دارد.
چكيده لاتين :
Part of speech tagging (POS tagging) is an ongoing research in natural language processing (NLP) applications. The process of classifying words into their parts of speech and labeling them accordingly is known as part-of-speech tagging, POS-tagging, or simply tagging. Parts of speech are also known as word classes or lexical categories. The purpose of POS tagging is determining the grammatical category of the words in a sentence. Grammatical and syntactical features of words are determined based on these tags. The function of existing tagging methods depends on the corpus. As if the educational and test data are extracted from a corpus, the methods are well-functioning, or if the number of educational data is low, especially in probabilistic methods, the accuracy level also decreases. The words used in sentences are often vague. For example, the word 'Mahrami' can be a noun or an adjective. Existing ambiguity can be eliminated by using neighbor words and an appropriate tagging method. Methods in this domain are divided into several categories such as:based on memory [2], rule based methods [5], statistical [6], and neural network [7]. The precision of more of these methods is an average of 95% [1]. In the paper [13], using the TnT probabilistic tagging and smoothing and variations on the estimation of the three-words likelihood function, a tagging model has been created that has reached 96.7% in total on the Penn Treebank and NEGRA entities. [14] Using the representation of the dependency network and extensive use of lexical features, such as the conditional continuity of the sequence of words, as well as the effective use of the foreground in the linear models of linear logarithms and fine-grained modeling of the unknown words, on the Penn Treebank WSJ model, 97.24% accuracy is achieved.
سال انتشار :
1397
عنوان نشريه :
پردازش علائم و داده ها
فايل PDF :
7500395
عنوان نشريه :
پردازش علائم و داده ها
لينک به اين مدرک :
بازگشت