شماره ركورد :
1034132
عنوان مقاله :
اعمال مدل‌هاي رگرسيون بر زيرمجموعه‌هاي با همبستگي بالا براي بهبود جايگذاري مقادير جاافتاده عددي
عنوان به زبان ديگر :
Applying Regression Models on Subsets with High Correlations for a Better Numeric Missing Values Imputation
پديد آورندگان :
سفيديان، اميرمسعود دانشگاه تربيت دبير شهيد رجايي - دانشكده مهندسي كامپيوتر، تهران , دانشپور، نگين دانشگاه تربيت دبير شهيد رجايي - دانشكده مهندسي كامپيوتر، تهران
تعداد صفحه :
14
از صفحه :
1187
از صفحه (ادامه) :
0
تا صفحه :
1200
تا صفحه(ادامه) :
0
كليدواژه :
جايگذاري مقادير جاافتاده , همبستگي , رگرسيون
چكيده فارسي :
حضور مقادير جاافتاده در داده‌هاي دنياي واقعي مشكلي بسيار رايج و غيرقابل‌اجتناب است. بنابراين لازم است تا پيش از عمليات اكتشاف دانش، اين مقادير جاافتاده به‌طور دقيق پُر شوند. در اين مقاله، سه رويكرد جديد براي تخمين مقادير جاافتاده عددي پيشنهاد مي‌شود. در تمامي روش‌هاي پيشنهادي، مدل‌هاي رگرسيون بر زيرمجموعه‌هايي با همبستگي بالا اعمال مي‌شوند. در انتخاب زيرمجموعه‌هاي مطلوب سعي مي‌شود تا همبستگي بين صفت جاافتاده و ديگر صفات حداكثر شود. انتخاب اين زيرمجموعه‌ها با استفاده از رويكردهايي مبتني بر انتخاب روبه‌جلو انجام مي‌شود. از معيار ضريب همبستگي براي اندازه‌گيري ميزان ارتباط بين صفات استفاده‌شده است. همچنين در روش‌هاي پيشنهادي، ترتيب صفات جاافتاده براي انجام عمل جايگذاري اولويت‌دهي مي‌شوند. عملكرد رويكردهاي پيشنهادشده بر روي پنج مجموعه‌داده از دنياي واقعي با مقادير مختلف جاافتادگي ارزيابي‌شده است. عملكرد رويكردهاي ارائه‌شده با پنج رويكرد جايگذاري با مقدار ميانگين، جايگذاري با استفاده از نزديك‌ترين همسايگان، روش جايگذاري با خوشه‌بندي c-means فازي، روش جايگذاري با درخت تصميم و روشي مبتني بر رگرسيون به نام «الگوريتم جايگذاري با رگرسيون افزايشيِ صفات» (IARI) مقايسه شده است. از دو معيار شناخته‌شده‌ي ريشه ميانگين مربعات خطا و ضريب تعيين براي مقايسه عملكرد رويكردهاي پيشنهادي با ديگر روش‌هاي جايگذاري استفاده‌شده است. نتايج آزمايش‌ها نشان مي‌دهد كه رويكردهاي ارائه‌شده، حتي زماني كه درصد جاافتادگي بالا است، بهتر از ديگر روش‌هاي مقايسه شده عمل مي‌كنند.
چكيده لاتين :
The presence of missing values in the real world data is a very prevalent and inevitable problem. So, it’s necessary to fill up these missing values accurately, before they are used for knowledge discovery process. This paper proposes three novel methods to fill numeric missing values. All of the proposed methods apply regression models on subsets of data which there are strong correlations among them. These subsets are selected using forward selection based approaches. In the selection of the desired subsets, it is tried to maximize the correlation between missing attribute and other attributes. The correlation coefficient is used to measure the relationships between attributes. The priority of each missing attribute for imputation purpose is also considered in the proposed methods. The performance of proposed methods is evaluated on five real world datasets with different missing ratios. The efficiency of the proposed methods is compared with five different estimation methods, namely, the mean imputation, the k nearest neighbours imputation, a fuzzy c-means based imputation, a decision tree based imputation, and a regression based imputation algorithm, called “Incremental Attribute Regression Imputation” (IARI) method. Two well-known evaluation criteria, namely, Root Mean Squared Error (RMSE) and Coefficient of Determination (CoD) are used to compare the performance of proposed methods with other imputation methods. Experimental results show that the proposed methods perform better than other compared methods, even when the missing ratio is high.
سال انتشار :
1397
عنوان نشريه :
مهندسي برق دانشگاه تبريز
فايل PDF :
7550654
عنوان نشريه :
مهندسي برق دانشگاه تبريز
لينک به اين مدرک :
بازگشت