Title of article :
IRDDS: Instance reduction based on Distance-based decision surface
Author/Authors :
Hamidzadeh، Javad نويسنده Faculty of Computer Engineering & Information Technology, Sadjad University of Technology, Mashhad, Iran. ,
Issue Information :
دوفصلنامه با شماره پیاپی 0 سال 2015
Abstract :
در يادگيري مبتني برنمونه، از يك مجموعه داده براي آموزش طبقهبند استفاده ميشود. در واقع، تمام نمونههاي موجود در اين مجموعه، براي آموزش طبقهبند ضروري نيست. بنابراين لازم است كه نمونههاي غيرضروري از مجموعه آموزشي حذف گردند. به اين رويه حذف، رويه كاهش نمونه گويند. رويه كاهش نمونه، يك مرحله حياتي براي طبقهبندها به شمار ميآيد زيرا در نتيجه آن، زمان آموزش و آزمايش طبقهبند كاهش مييابد. يك چالش مهم در اين رويه، حفظ و نگهداري نمونههاي مفيد است زيرا نگهداري نمونههاي زياد باعث افزايش مصرف حافظه و زمان اجراي طبقهبند ميگردد. در اين مقاله، ابتدا يك سطح تصميم مبتني برفاصله براي جداسازي دادههاي دو كلاسه پيشنهاد شده است. سپس يك رويه كاهش نمونه براساس سطح تصميم مزبور و الگوريتم ژنتيك ارايه شده است. به كمك سطح تصميم فوق و الگوريتم ژنتيك، نمونههاي مفيد حفظ و نمونههاي غيرضرور نيز به گونهاي حذف ميگردند كه نرخ صحت طبقهبند كاهش نيافته و نرخ كاهش نمونه نيز بالا باشد. در ارزيابي روش پيشنهادي، از دادههاي واقعي برگرفته شده از سايت UCI استفاده شده است. در اين ارزيابي از روش اعتبارسنجي ضربدري ده تايي بهره گرفته شده است. نتايج حاصله با روشهاي مرز دانش مقايسه شده است. نتايج نشان دهنده برتري روش پيشنهادي نسبت به ساير روشهاي مرز دانش با توجه به دو معيار نرخ صحت و نرخ كاهش نمونه است.
Abstract :
In instance-based learning, a training set is given to a classifier for classifying new instances. In practice, not all information in the training set is useful for classifiers. Therefore, it is convenient to discard irrelevant instances from the training set. This process is known as instance reduction, which is an important task for classifiers since through this process the time for classification or training could be reduced. Instance-based learning methods are often confronted with the difficulty of choosing the instances, which must be stored to be used during an actual test. Storing too many instances may result in large memory requirements and slow execution speed. In this paper, first, a Distance-based Decision Surface (DDS) is proposed and is used as a separate surface between the classes, and then an instance reduction method, which is based on the DDS is proposed, namely IRDDS (Instance Reduction based on Distance-based Decision Surface). Using the DDS with Genetic algorithm selects a reference set for classification. IRDDS selects the most representative instances, satisfying both of the following objectives: high accuracy and reduction rates. The performance of IRDDS is evaluated on real world data sets from UCI repository by the 10-fold cross-validation method. The results of the experiments are compared with some state-of-the-art methods, which show the superiority of the proposed method, in terms of both classification accuracy and reduction percentage.
Journal title :
Journal of Artificial Intelligence and Data Mining
Journal title :
Journal of Artificial Intelligence and Data Mining