شماره ركورد كنفرانس :
4726
عنوان مقاله :
انتخاب ويژگي بهينه براي دادههاي بزرگ با استفاده از بازيهاي همكارانه و الگوريتم F-Score
پديدآورندگان :
نظام پور مهناز mahishanez@yahoo.com موسسه آموزش عالي سلمان مشهد , ويسي گلاره gveisi@gmail.com دانشكده فني و مهندسي دانشگاه آزاد اسلامي مشهد
كليدواژه :
انتخاب ويژگي , F-Score , بازي همكارانه , ارزش شپلي-شوبيك , داده هاي بزرگ
عنوان كنفرانس :
چهارمين كنفرانس ملي محاسبات توزيعي و پردازش داده هاي بزرگ
چكيده فارسي :
امروزه با پيشرفت فناوري، مجموعه دادههاي بزرگ داراي ويژگي هاي زياد و پيچيدگي محاسباتي بالا به وجود آمده اند. ازاينرو، انتخاب زيرمجموعه ويژگي با كمترين ويژگي، سرعت بيشتر و كارايي بالا امر بسيار مهمي ميباشد. الگوريتم هاي رايج انتخاب ويژگي با بررسي نكردن روابط ميان ويژگي ها، كاهش دقت را به وجود مي آورند. لذا، محققان براي بررسي روابط ميان ويژگيها و رسيدن بهدقت بيشتر، روش انتخاب ويژگي مبتني بر تئوري بازيها را ارائه داده اند كه در دادهها با تعداد زياد ويژگي، پيچيدگي محاسباتي بيشتري دارند. لذا افزايش سرعت انتخاب ويژگي مبتني بر بازيهاي همكارانه در كنار دقت بالا ميتواند براي انتخاب زيرمجموعه ويژگي بهينه براي دادههاي بزرگ استفاده شود. در اين مقاله، الگوريتم FSCG ارائهشده است كه ابتدا با محاسبه F-Score، ويژگيها مرتبشده و سپس براي هر ويژگي ارزش شپلي-شوبيك محاسبه ميشود. لذا F-Score با تشخيص ويژگيهاي بين دو كلاس، نقطهضعف ارزش شپلي-شوبيك كه بار محاسباتي بالا به خاطر تعداد زياد انتخاب ويژگيهاي جفت با ائتلافهاي بين ويژگيها است را ميپوشاند و ارزش شپلي-شوبيك با مشخص كردن سهم هر ويژگي در يك همكاري نقطهضعف F-Score را پيدا ميكند. اين الگوريتم روي تعدادي از مجموعه دادههاي UCI پياده سازي و ارزيابي ويژگيهاي انتخابي براي مجموعه دادهها با استفاده از دستهبند ماشين بردار پشتيبان (SVM) انجامشده است. تعداد ويژگي هاي انتخاب شده، دقت و زمان اجراي روش FSCG با روش هاي بدون كاهش ويژگي و روش SVEGA (Shaply Value Embedded Genetic Algorithm) مقايسه شده است. نتايج نشان ميدهد كه روش FSCG بر رويدادهها با تعداد ويژگيهاي زياد با انتخاب زيرمجموعه ويژگي بهينه، علاوه بر دقت، بار محاسباتي كمتر و سرعت بيشتر را ارائه داده است.