عنوان مقاله :
درخت تصميم دادههاي نامطمين ( مطالعهي موردي دادههاي نامطمين طرح اطلاعات اقتصادي خانوار)
عنوان فرعي :
A Decision Tree for Uncertain Data (Case Study on Family Economical Information Plan Survey)
پديد آورندگان :
قايمي، مهسا نويسنده دانشجوي كارشناسي ارشدمهندسي كامپيوتر- هوش مصنوعي دانشگاه آزاد اسلامي، واحد علوم و تحقيقات Ghaemi, Mahsa , پدرام، ميرمحسن نويسنده , , آذر، عادل نويسنده دانشگاه تربيت مدرس,; ,
اطلاعات موجودي :
دوفصلنامه سال 1393 شماره 85
كليدواژه :
دادهكاوي , Decision tree , Classification , دادهي نامطمين , طبقهبندي , Uncertain Data , DATA MINING , درخت تصميم
چكيده فارسي :
درخت تصميم يكي از تكنيكهاي بسيار رايج در طبقهبندي دادهها است. در اين مقاله درخت تصميم دادههاي نامطمين مورد بررسي قرار گرفته است. از عواملي كه سبب عدم اطمينان در دادهها ميشوند ميتوان به محدوديت در دقت اندازهگيري، منابع قديمي، اظهار نشدن اطلاعات و مسايلي كه در انتقال دادهها بوجود ميآيد اشاره نمود. در دادههاي نامطمين، مقدار داده با يك مقدار مشخص، نشان داده نميشود و با چند مقدار به شكل توزيع احتمالي نشان داده ميشود. دادههاي طرح اطلاعات اقتصادي خانوار نيز بهدليل كمگويي يا نبود برخي از دادهها، در دستهي دادههاي نامطمين قرار ميگيرند، بنابراين لازم است كه از الگوريتمي استفاده شود كه بتواند با دادههاي نامطمين كار كرده و با دقت قابل قبولي طبقهبندي دادهها را انجام دهد. در اين مقاله، الگوريتم درخت تصميم نامطمين پيشين تعميم داده شده است. اين الگوريتم از روشهاي پيشبيني مثل نرخ بهره و آنتروپي و همچنين دادههاي نامطمين بازهاي استفاده ميكند و توانسته است با استفاده از توابع چگالي احتمال متفاوت سبب كاهش اثر دادههاي نامتوازن در خروجي الگوريتم شود. اين الگوريتم براي هر دو مجموعه دادههاي مطمين و نامطمين كار ميكند و نتايج اين مقاله نشان ميدهد كه الگوريتم پيشنهادي، دقت پيشبيني رضايت بخشي دارد. ساخت درخت تصميم دادههاي نامطمين، حجم پردازش بيشتري را در پردازنده نسبت به ساخت درخت روي دادههاي مطمين اشغال ميكند، بنابراين در الگوريتم پيشنهادي از تكنيك ماكسيمم سطح استفاده ميشود كه مصرف پردازنده را بهينه خواهد كرد.
چكيده لاتين :
Abstract. Decision Tree is one of the widely used data classification techniques. This paper proposes uncertain decision tree classification method. Lots of Factors causes Value uncertainty including measurements precision limitation, outdated sources, lack of information, and transmission problems. With uncertainty, the value of a data item is often represented not only by one single value, but also by multiple values forming a probability distribution.
Data of family economical information plan survey are uncertain because of reticence and lack of data. We need to have appropriate algorithm to work with uncertain data with satisfactory accuracy. In this paper, we upgrade the traditional uncertain decision tree algorithm, using entropy and information gain, and extend measures, including the uncertain data interval and probability distribution function which help in reducing the demanding effects of imbalance data on the output of algorithm. Our algorithm can handle both certain and uncertain datasets. This paper indicates that, the proposed algorithm has satisfactory prediction accuracy.
Uncertain Decision tree construction on data use much more CPU than that for certain data. To tackle this problem, we propose a max level technique that can greatly improve construction efficiency.
عنوان نشريه :
بررسي هاي آمار رسمي ايران
عنوان نشريه :
بررسي هاي آمار رسمي ايران
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی 85 سال 1393
كلمات كليدي :
#تست#آزمون###امتحان