عنوان مقاله :
نمايه سازي ماشيني مدارك حوزه بازيابي اطلاعات با استفاده از متن كاوي در نرمافزار رپيدماينر
عنوان به زبان ديگر :
Machine Indexing of Documents in the Field of Information Retrieval Using Text Mining in the RapidMiner Software
پديد آورندگان :
جعفري پاورسي، حميده دانشگاه آزاد اسلامي واحد علوم و تحقيقات، تهران , حريري، نجلا دانشگاه آزاد اسلامي واحد علوم و تحقيقات، تهران , عليپور حافظي، مهدي دانشگاه علامه طباطبائى تهران , باب الحوائجي، فهيمه دانشگاه آزاد اسلامي واحد علوم و تحقيقات، تهران , خادمي، مريم دانشگاه آزاد اسلامي واحد تهران جنوب، تهران - دانشكده فني و مهندسي - گروه رياضي كاربردي
كليدواژه :
نمايه سازي ماشيني , دسته بندي , رپيدماينر , متن كاوي , بازيابي اطلاعات
چكيده فارسي :
سازگاري كدهاي رده بندي و اصطلاحات نمايه سازي از يك اصطلاح نامه مدون با عبارات و كلماتي كه به طور خودكار استخراج شده، با استفاده از نمايه سازي ماشيني ايجاد مي شود. در طراحي نظام نمايه سازي خودكار، كامپيوتر به طور كامل جايگزين انسان مي شود. اين پژوهش با هدف اسـتخراج كلمـات كليـدي و شناسايي گرايش هاي موضوعي مقالات نمونه آماري در حوزه بازيابي اطلاعات و تخصص موضوعي نويسنده هر مقاله با روش متن كاوي و دسته بندي آنها با استفاده از هم رخدادي واژگان صورت گرفته است. روش اين پژوهش از نوع كاربردي است و بر اساس مدل «كريسپ» از مدلهاي فرايند داده كاوي و الگوريتم هاي متن كاوي انجام گرفته است. جامعه پژوهش، 313 مقاله حوزه بازيابي اطلاعات نمايه شده در «پايگاه نورمگز» است. پس از نرمال سازي متن مقالات با نرم افزار ويراست يار، طي متن كاوي مقالات با نسخه 7/1 نرم افزار «رپيدماينر»، واژگان كليدي از طريق محاسبه وزن آنها استخراج و دادهها با استفاده از دو الگوريتم كلاسيك دسته بندي يعني «كيانان» و «نايو بيز» تجزيه و تحليل شدند. در پژوهش حاضر، كامپيوتر با كمك ابزارهاي متن كاوي نرم افزار «رپيدماينر»، متن ماشين خوان را با استفاده از بسامد واژه ها به طور خودكار نمايه سازي كرده است. بدين منظور، با كمك عملگرهاي «ان-گرام» و محاسبه وزن كلمات بر اساس روش «تياف-آيدياف»، اصطلاحات و مفاهيم كليدي و تخصص موضوعي نويسنده هر مقاله در قالب 16 دسته بندي استخراج شده است. سرانجام، برتري مدل «كيانان» در دسته بندي موضوعات هسته مقالات اين پژوهش با دقت 85 درصدي نسبت به مدل «نايو بيز» تأييد شد. مشاهده نتايج محاسبه دقت هاي مأخوذه از مدل ها، گواه كارايي قابل قبول نرم افزار «رپيدماينر» در نمايه سازي ماشيني متون است. نمايه سازي متون با استفاده از اين روش مي تواند به بهبود نتايج بازيابي اطلاعات و جلوگيري از ريزش كاذب اطلاعات در پايگاه هاي اطلاعاتي كمك كند.
چكيده لاتين :
Machine indexing Provides compatibility between classification codes and indexing terms, extracted expressions and
words automatically from a Compiled thesaurus.. In designing an autoindexing
system, computer completely replaces humans. The purpose
of this research was to identifying and extracting keywords and the
subject trends of articles in the field of information retrieval and the
subject’s specificity of the author of each article by using the text mining
and categorizing (classifying) with the help of concurrence vocabularies.
The method of this research is applied and based on the CRISP model
of data mining and text mining algorithms are used. The research
population consists of 313 articles in the field of information retrieval
indexed in the Normmags database. After normalizing the text of the articles by the Virastyar software, and after text mining of the articles by version 7.1 of the
RapidMiner software, the keywords were extracted by calculating their weight and were
analyzed using two classical classification algorithms consisting of KNN and Naïve Bayse.
In this study, the computer automatically indexed the readable machine text by using the
frequency of the words with the help of the text mining tools of RapidMiner software. For
this purpose, we use N-gram operators and calculate the weight of the words according to
TF-IDF method. Terms and key concepts and subject and specialization of author of each
article are extracted in the form of 16 categories. Finally, the superiority of the KNN model in
categorization of the core subjects of the papers, this study is proving to be 85% more accurate
than the Naïve bayse model. Finding the results of calculating the accuracy of the models
indicate the acceptable performance of the RapidMiner software in machine indexing of texts.
Indexing texts by using this method can help improve the results of information retrieval and
prevent false dropping of information in databases.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات