شماره ركورد :
1137690
عنوان مقاله :
ارائه روش رده‌بندي تك‌ رده‌اي براي شناسايي متون پژوهشي حوزه محيط زيست ايران با استفاده از ماشين بردار پشتيبان
عنوان به زبان ديگر :
(Using One-Class SVM for Scientific Documents Classification (Case study: Iranian Environmental Thesis
پديد آورندگان :
ربيعي، محمد دانشگاه علم و صنعت ايران , حسيني مطلق، مهدي دانشگاه علم و صنعت ايران , مينايي بيدگلي، بهروز دانشگاه علم و صنعت ايران
تعداد صفحه :
23
از صفحه :
1211
تا صفحه :
1233
كليدواژه :
محيط زيست , رده بندي تك رده اي , ماشين بردار پشتيبان , متن كاوي , وزن دهي NG-TF
چكيده فارسي :
رده‌بندي متون پژوهشي به ‌منظور شناسايي و تحليل عرضه و تقاضاي پژوهشي در حوزه‌هاي مختلف علوم اهميت ويژه‌اي دارد. در اين ميان رده‌بندي پژوهش‌هاي حوزه محيط‌زيست به‌دليل اهميت فراوان آن در كشور و نيز ميان‌رشته‌اي بودن آن ضروري است. اين پژوهش روش رده‌بندي تك‌رده‌اي متون پژوهشي اين حوزه را با استفاده از ماشين بردار پشتيبان ارائه مي‌دهد و به ارزيابي پارامترهاي مهم تأثيرگذار در كيفيت اين رده‌بندي مي‌پردازد. نتايج نشان مي‌دهد كه استفاده از مجموعه داده هسته توصيفي در يادگيري مدل،‌كارايي بهتري نسبت به هسته محتوايي دارد. همچنين، استفاده از هسته چندجمله‌اي و وزن‌دهي دودويي واژه‌ها در ماتريس بردار ويژگي‌ها نتايج بهتري نسبت به حالت‌هاي معمول ديگر ارائه مي‌كند. در اين مطالعه، روش جديد وزن‌دهي با نام NG-TF معرفي و ارائه شده است كه نتايج ارزيابي آن نسبت به روش‌هاي ديگر، به‌ويژه در معيار دقت، برتري قابل‌توجهي دارد. از اين ‌رو، مي‌توان از اين ‌روش وزن‌دهي براي تعيين واژگان نماينده يك حوزه پژوهشي استفاده كرد.
چكيده لاتين :
The classification of research studies is important in order to identify and analyze the research supply and demand in various fields of science. In particular, the classification of environmental research is essential because of its importance in Iran and its interdisciplinary nature. This research proposes One-Class Classification (OCC) method to classify the research studies in this domain using Support Vector Machine (SVM) and consequently evaluates important parameters affecting the quality of this classification. The results show that the use of descriptive metadata has better performance than the content metadata in order to make a core data set to learn the model. Moreover, the use of the polynomial kernel and the binary weighing of words in the features vector matrix leads to better results than other states. In this paper a new weighing method has been proposed which is superior to the other methods especially in precision criterion. We call this weighing method as NG-TF, which can be used in term-document matrix to determine the indicator terms of scientific domains.
سال انتشار :
1398
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
فايل PDF :
8045498
لينک به اين مدرک :
بازگشت