مرکز منطقه ای اطلاع رساني علوم و فناوري - ارائه‌ي يك جداساز كلمات با استفاده از عبارات باقاعده

شماره ركورد كنفرانس :

3704

عنوان مقاله :

ارائه‌ي يك جداساز كلمات با استفاده از عبارات باقاعده

عنوان به زبان ديگر :

Proposing a new tokenizer by using regular expressions

پديدآورندگان :

ريحانيان علي areihanian@ustmb.ac.ir دانشگاه تبريز; , فيضي درخشي محمدرضا mfeizi@tabrizu.ac.ir دانشگاه تبريز; , فيضي درخشي علي رضا derakhshi96@ms.tabrizu.ac.ir دانشگاه تبريز; , غيبي مير عرفان mirerfan.gheybi@yahoo.com دانشگاه تبريز;

تعداد صفحه :

كليدواژه :

جداساز , پيكره , عبارات باقاعده , جايگزيني , پردازش زبان طبيعي

سال انتشار :

1396

عنوان كنفرانس :

پنجمين كنفرانس بين المللي در مهندسي برق و كامپيوتر با تاكيد بر دانش بومي

زبان مدرك :

فارسي

چكيده فارسي :

اين مقاله، به ارائه و تجزيه و تحليل يك جداساز كلمات مي‌پردازد. اين جداساز با استفاده از عبارات باقاعده به جداسازي كلمات موجود در مجموعه‌اي از نوشته‌جات مي‌پردازد. در واقع، بنيان اين جداساز بر استفاده از قابليت جايگزيني در عبارات باقاعده بنا نهاده شده است. جداساز پيشنهادي اين مقاله، مي‌تواند كلمات فارسي، انگليسي، علائم و ... را تشخيص داده و به خوبي از عهده‌ي جداسازي آن‌ها برآيد. در فرايند پردازش يك متن، برخورد با عباراتي كه متفاوت از حالت معمول باشند، امري اجتناب‌ناپذير است. در فرايند پياده‌سازي اين جداساز، سعي شد كه حتي الامكان، كلمات به خوبي جداسازي شده و تعداد تكرار آن‌ها مشخص شوند. خروجي كه اين جداساز به يك كاربر خواهد داد، شامل متن مورد پردازش، كلمات موجود در متن به صورت جدا شده و با تكرار (Words)، تعداد كلمات موجود در متن، كلمات موجود درمتن بدون تكرار Vocabulary))، تعداد كلمات بدون تكرار و در نهايت ليستي شامل هر لغت به همراه تعداد تكرار آن در متن مورد نظر خواهد بود. اين ليست، يكبار بر روي لغات و بار ديگر بر روي تعداد تكرار مرتب خواهد بود.

چكيده لاتين :

This paper proposes a new word tokenizer, which can effectively separate word tokens in a corpus by the means of regular expressions. As a matter of fact, the proposed tokenizer performs based on replacement in regular expressions. The introduced tokenizer can effectively recognise and separate word tokens, such as English words, Persian words and punctuations, in a corpus. In text processing, it is inevitable to face uncommon phrases. The proposed tokenizer tries to effectively separate word tokens in a corpus and count their repetitions. Hence, the output of the proposed tokenizer includes the corpus in question, the recognised word tokens in the corpus, the number of the word tokens in the corpus, the unique word tokens (vocabulary) in the corpus, the number of the unique word tokens in the corpus and a list containing the unique word tokens and their related repetition counts in the corpus. The list is sorted by the unique words and also, by the repetition counts.

كشور :

ايران

لينک به اين مدرک :

https://search.ricest.ac.ir/dl/search/defaultta.aspx?DTC=36&DC=291471