شماره ركورد كنفرانس :
4193
عنوان مقاله :
يافتن مشاهدات ناهنجار استوار بر اساس الگوريتم دادهكاوي جنگل تصادفي در تشخيص تقلب كارتهاي اعتباري
پديدآورندگان :
سيداحمديان مژان llvllozhan@yahoo.com مؤسسه آموزش عالي شهاب دانش، قم، ايران؛ , اصغري توچائي سيد امير asgahri@khu.ac.ir دانشكده فني و مهندسي، دانشگاه خوارزمي، تهران، ايران؛ , خردمنديان قربان kheradmand@aut.ac.ir دانشكده مهندسي كامپيوتر و فناوري اطلاعات دانشگاه صنعتي اميركبير، تهران، ايران؛
كليدواژه :
تشخيص تقلب , مشاهدات ناهنجار استوار , جنگل هاي تصادفي , كارت هاي اعتباري
عنوان كنفرانس :
نهمين كنفرانس فرماندهي و كنترل ايران
چكيده فارسي :
در اين پژوهش، روشي براي تشخيص مشاهدات ناهنجار استوار در تشخيص تقلب كارتهاي اعتباري ارائه شده است. بهطور كلي تشخيص تقلب، يك مسئله طبقهبندي با نظارت است كه در آن تراكنشهاي كارتهاي اعتباري، به دو كلاس قانوني و كلاهبردارانه طبقهبندي ميشوند. اين پژوهش به دنبال آن است كه بتواند مشاهدات ناهنجاري كه توسط الگوريتمهاي مختلف دادهكاوي بهعنوان مشاهدات كلاهبردانه تشخيص داده شده است را پيدا كند. تشخيص مشاهدات ناهنجار استوار در اين پژوهش سه مرحله دارد: ابتدا با توجه به اينكه در مجموعه دادهي در دسترس، نقاط پرت به صورت برچسب مشخص نشدهاند، با استفاده از روش جنگل تصادفي، امتيازهاي پرت بودن هر مشاهده محاسبه ميشود. هر چه اين امتياز بيشتر باشد، احتمال اينكه آن مشاهده، يك مشاهدهي ناهنجار باشد، بيشتر ميشود. سپس در سه سناريوي مختلف مشاهداتي كه 15%، 20% و 25% بيشترين امتيازها را دارند، به عنوان برچسب كلاهبردارانه (مثبت) و ساير مشاهدات به عنوان مشاهدات قانوني طبقهبندي ميشوند. آنگاه در هر سناريو، دو مدل دستهبندي ميزان شدهي درخت تصميمگيري Bagging و رگرسيون لوژستيك، جهت تشخيص نقاط پرت روي مجموعه دادهها برازش داده ميشوند. سپس نتايج آنها با هم مقايسه ميشوند و در نهايت مشاهداتي كه در هر دو الگوريتم فوق، به عنوان مشاهدات پرت پيشبيني شدهاند، به عنوان مشاهدات پرت استوار (يا با اطمينان بالا) در نظر گرفته ميشوند.