عنوان مقاله :
اعمال مدلهاي رگرسيون بر زيرمجموعههاي با همبستگي بالا براي بهبود جايگذاري مقادير جاافتاده عددي
عنوان به زبان ديگر :
Applying Regression Models on Subsets with High Correlations for a Better Numeric Missing Values Imputation
پديد آورندگان :
سفيديان، اميرمسعود دانشگاه تربيت دبير شهيد رجايي - دانشكده مهندسي كامپيوتر، تهران , دانشپور، نگين دانشگاه تربيت دبير شهيد رجايي - دانشكده مهندسي كامپيوتر، تهران
كليدواژه :
جايگذاري مقادير جاافتاده , همبستگي , رگرسيون
چكيده فارسي :
حضور مقادير جاافتاده در دادههاي دنياي واقعي مشكلي بسيار رايج و غيرقابلاجتناب است. بنابراين لازم است تا پيش از عمليات اكتشاف دانش، اين مقادير جاافتاده بهطور دقيق پُر شوند. در اين مقاله، سه رويكرد جديد براي تخمين مقادير جاافتاده عددي پيشنهاد ميشود. در تمامي روشهاي پيشنهادي، مدلهاي رگرسيون بر زيرمجموعههايي با همبستگي بالا اعمال ميشوند. در انتخاب زيرمجموعههاي مطلوب سعي ميشود تا همبستگي بين صفت جاافتاده و ديگر صفات حداكثر شود. انتخاب اين زيرمجموعهها با استفاده از رويكردهايي مبتني بر انتخاب روبهجلو انجام ميشود. از معيار ضريب همبستگي براي اندازهگيري ميزان ارتباط بين صفات استفادهشده است. همچنين در روشهاي پيشنهادي، ترتيب صفات جاافتاده براي انجام عمل جايگذاري اولويتدهي ميشوند. عملكرد رويكردهاي پيشنهادشده بر روي پنج مجموعهداده از دنياي واقعي با مقادير مختلف جاافتادگي ارزيابيشده است. عملكرد رويكردهاي ارائهشده با پنج رويكرد جايگذاري با مقدار ميانگين، جايگذاري با استفاده از نزديكترين همسايگان، روش جايگذاري با خوشهبندي c-means فازي، روش جايگذاري با درخت تصميم و روشي مبتني بر رگرسيون به نام «الگوريتم جايگذاري با رگرسيون افزايشيِ صفات» (IARI) مقايسه شده است. از دو معيار شناختهشدهي ريشه ميانگين مربعات خطا و ضريب تعيين براي مقايسه عملكرد رويكردهاي پيشنهادي با ديگر روشهاي جايگذاري استفادهشده است. نتايج آزمايشها نشان ميدهد كه رويكردهاي ارائهشده، حتي زماني كه درصد جاافتادگي بالا است، بهتر از ديگر روشهاي مقايسه شده عمل ميكنند.
چكيده لاتين :
The presence of missing values in the real world data is a very prevalent and inevitable problem. So, it’s necessary to fill up these missing values accurately, before they are used for knowledge discovery process. This paper proposes three novel methods to fill numeric missing values. All of the proposed methods apply regression models on subsets of data which there are strong correlations among them. These subsets are selected using forward selection based approaches. In the selection of the desired subsets, it is tried to maximize the correlation between missing attribute and other attributes. The correlation coefficient is used to measure the relationships between attributes. The priority of each missing attribute for imputation purpose is also considered in the proposed methods. The performance of proposed methods is evaluated on five real world datasets with different missing ratios. The efficiency of the proposed methods is compared with five different estimation methods, namely, the mean imputation, the k nearest neighbours imputation, a fuzzy c-means based imputation, a decision tree based imputation, and a regression based imputation algorithm, called “Incremental Attribute Regression Imputation” (IARI) method. Two well-known evaluation criteria, namely, Root Mean Squared Error (RMSE) and Coefficient of Determination (CoD) are used to compare the performance of proposed methods with other imputation methods. Experimental results show that the proposed methods perform better than other compared methods, even when the missing ratio is high.
عنوان نشريه :
مهندسي برق دانشگاه تبريز
عنوان نشريه :
مهندسي برق دانشگاه تبريز