كليدواژه :
شبكۀ عصبي , پردازش زبانهاي طبيعي , برچسبزني اجزاي سخن , زبان فارسي
چكيده فارسي :
برچسبگذاري ادات سخن يكي از مسائل مطرح در حوزۀ پردازش زبانهاي طبيعي است. هدف در اين مسئله تعيين نقش واژگان در جمله است. برحسب اين برچسبگذاري ويژگيهاي دستوري و نحوي واژگان نيز مشخص ميشود. در اين مقاله يك روش مبتني بر آماري براي ادات سخن فارسي پيشنهاد شده است. در اين روش محدوديتهاي روشهاي آماري با استفاده از معرّفي يك مدل شبكه فازي كاهش پيدا كرده است؛ بهطوريكه درصورت وجود تعداد كمي دادۀ آموزشي، مدل فازي پارامترهاي قابل اطمينانتري را تخمين ميزند. در اين روش ابتدا هنجارسازي بهعنوان پيشپردازش صورت گرفته و سپس فراواني هر واژه با توجه به برچسب مربوطه بهصورت يك تابع فازي تخمين زده و سپس مدل شبكه فازي تشكيل شده و درجۀ هر يال در اين شبكه با استفاده از يك شبكۀ عصبي و تابع عضويت مشخص ميشود. درنهايت بعد از اينكه مدل شبكۀ فازي براي يك جمله ساخته شد، از الگوريتم ويتربي براي تعيين محتملترين مسير در اين شبكه استفاده شده است. نتايج آزمايش روي پيكرۀ بيجنخان كارايي اين روش را تأييد كرده و نشان ميدهد كه روش پيشنهادي در شرايطي كه دادههاي آموزشي كمتري در اختيار باشد، از روشهاي مشابه، مثل مدل مخفي ماركوف عملكرد بهتري دارد.
چكيده لاتين :
Part of speech tagging (POS tagging) is an ongoing research in natural language processing (NLP) applications. The process of classifying words into their parts of speech and labeling them accordingly is known as part-of-speech tagging, POS-tagging, or simply tagging. Parts of speech are also known as word classes or lexical categories. The purpose of POS tagging is determining the grammatical category of the words in a sentence. Grammatical and syntactical features of words are determined based on these tags.
The function of existing tagging methods depends on the corpus. As if the educational and test data are extracted from a corpus, the methods are well-functioning, or if the number of educational data is low, especially in probabilistic methods, the accuracy level also decreases. The words used in sentences are often vague. For example, the word 'Mahrami' can be a noun or an adjective. Existing ambiguity can be eliminated by using neighbor words and an appropriate tagging method.
Methods in this domain are divided into several categories such as:based on memory [2], rule based methods [5], statistical [6], and neural network [7]. The precision of more of these methods is an average of 95% [1]. In the paper [13], using the TnT probabilistic tagging and smoothing and variations on the estimation of the three-words likelihood function, a tagging model has been created that has reached 96.7% in total on the Penn Treebank and NEGRA entities. [14] Using the representation of the dependency network and extensive use of lexical features, such as the conditional continuity of the sequence of words, as well as the effective use of the foreground in the linear models of linear logarithms and fine-grained modeling of the unknown words, on the Penn Treebank WSJ model, 97.24% accuracy is achieved.