شماره ركورد كنفرانس
5252
عنوان مقاله
طبقهبندي روشهاي شناسايي دادههاي تكراري در جهت تسهيل فرايند پاكسازي دادهها
پديدآورندگان
جعفري مهدي mahdijafary@aut.ac.ir دانشكده مهندسي كامپيوتر، دانشگاه صنعتي اميركبير، تهران، ايران , عبدالله زاده بار فروش احمد ahmadaku@aut.ac.ir دانشكده مهندسي كامپيوتر، دانشگاه صنعتي اميركبير، تهران، ايران
تعداد صفحه
8
كليدواژه
پاكسازي داده ها , شناسايي داده هاي تكراري , كيفيت داده ها , كلان داده
سال انتشار
1401
عنوان كنفرانس
سيزدهمين كنفرانس بين المللي فناوري اطلاعات و دانش
زبان مدرك
فارسي
چكيده فارسي
روز به روز حجم دادههاي توليد شده توسط انسانها در حال افزايش است. اين دادهها اگر به درستي مديريت شوند ميتوانند در امر تجزيه و تحليل و استخراج دانش از آنها مفيد واقع شوند. دادهها اغلب پس از جمعآوري، يكپارچهسازي و ذخيرهسازي با مشكلات كيفيتي روبرو ميشوند. اين مشكلات كيفيتي در جهت بهبود كيفيت دادهها و به دنبال آن استخراج دانش مفيد از آنها در طي فرايند تجزيه و تحليل بايد در ابتدا شناسايي شده و سپس پردازشهاي متناسب در جهت مقابله با آنها انجام شود. دادههاي تكراري به عنوان يكي از مشكلات كيفيتي رايج و مهم مورد توجه اين مقاله است. از گذشته تاكنون پژوهشهاي متعددي بر مبناي رويكردهاي مختلف از جمله مبتني بر قانون، مبتني بر مفاهيم يادگيري، مبتني بر خرد جمعي و ... در جهت شناسايي انواع مختلف داده هاي تكراري انجام و هر يك از آنها منجر به ارائه يك روش نوين در جهت مقابله با اين مشكل شده است. هدف ما در اين مقاله ارائه يك طبقهبندي از روش-هاي شناسايي دادههاي تكراري و به دنبال آن بحث و تجزيه و تحليل هر يك از روشهاي مطرح بر اساس طبقه بندي ارائه شده است.
كشور
ايران
لينک به اين مدرک