شماره ركورد كنفرانس :
3704
عنوان مقاله :
ارائهي يك جداساز كلمات با استفاده از عبارات باقاعده
عنوان به زبان ديگر :
Proposing a new tokenizer by using regular expressions
پديدآورندگان :
ريحانيان علي areihanian@ustmb.ac.ir دانشگاه تبريز; , فيضي درخشي محمدرضا mfeizi@tabrizu.ac.ir دانشگاه تبريز; , فيضي درخشي علي رضا derakhshi96@ms.tabrizu.ac.ir دانشگاه تبريز; , غيبي مير عرفان mirerfan.gheybi@yahoo.com دانشگاه تبريز;
كليدواژه :
جداساز , پيكره , عبارات باقاعده , جايگزيني , پردازش زبان طبيعي
عنوان كنفرانس :
پنجمين كنفرانس بين المللي در مهندسي برق و كامپيوتر با تاكيد بر دانش بومي
چكيده فارسي :
اين مقاله، به ارائه و تجزيه و تحليل يك جداساز كلمات ميپردازد. اين جداساز با استفاده از عبارات باقاعده به جداسازي كلمات موجود در مجموعهاي از نوشتهجات ميپردازد. در واقع، بنيان اين جداساز بر استفاده از قابليت جايگزيني در عبارات باقاعده بنا نهاده شده است. جداساز پيشنهادي اين مقاله، ميتواند كلمات فارسي، انگليسي، علائم و ... را تشخيص داده و به خوبي از عهدهي جداسازي آنها برآيد. در فرايند پردازش يك متن، برخورد با عباراتي كه متفاوت از حالت معمول باشند، امري اجتنابناپذير است. در فرايند پيادهسازي اين جداساز، سعي شد كه حتي الامكان، كلمات به خوبي جداسازي شده و تعداد تكرار آنها مشخص شوند. خروجي كه اين جداساز به يك كاربر خواهد داد، شامل متن مورد پردازش، كلمات موجود در متن به صورت جدا شده و با تكرار (Words)، تعداد كلمات موجود در متن، كلمات موجود درمتن بدون تكرار Vocabulary))، تعداد كلمات بدون تكرار و در نهايت ليستي شامل هر لغت به همراه تعداد تكرار آن در متن مورد نظر خواهد بود. اين ليست، يكبار بر روي لغات و بار ديگر بر روي تعداد تكرار مرتب خواهد بود.
چكيده لاتين :
This paper proposes a new word tokenizer, which can effectively separate word tokens in a corpus by the means of regular expressions. As a matter of fact, the proposed tokenizer performs based on replacement in regular expressions. The introduced tokenizer can effectively recognise and separate word tokens, such as English words, Persian words and punctuations, in a corpus. In text processing, it is inevitable to face uncommon phrases. The proposed tokenizer tries to effectively separate word tokens in a corpus and count their repetitions. Hence, the output of the proposed tokenizer includes the corpus in question, the recognised word tokens in the corpus, the number of the word tokens in the corpus, the unique word tokens (vocabulary) in the corpus, the number of the unique word tokens in the corpus and a list containing the unique word tokens and their related repetition counts in the corpus. The list is sorted by the unique words and also, by the repetition counts.