طبقه‌بندي روش‌هاي شناسايي داده‌هاي تكراري در جهت تسهيل فرايند پاكسازي داده‌ها

پديدآورندگان

جعفري مهدي mahdijafary@aut.ac.ir دانشكده مهندسي كامپيوتر، دانشگاه صنعتي اميركبير، تهران، ايران , عبدالله زاده بار فروش احمد ahmadaku@aut.ac.ir دانشكده مهندسي كامپيوتر، دانشگاه صنعتي اميركبير، تهران، ايران

تعداد صفحه

كليدواژه

پاكسازي داده ها , شناسايي داده هاي تكراري , كيفيت داده ها , كلان داده

سال انتشار

1401

عنوان كنفرانس

سيزدهمين كنفرانس بين المللي فناوري اطلاعات و دانش

زبان مدرك

فارسي

چكيده فارسي

روز به روز حجم داده‌هاي توليد شده توسط انسان‌ها در حال افزايش است. اين داده‌ها اگر به درستي مديريت شوند مي‌توانند در امر تجزيه و تحليل و استخراج دانش از آنها مفيد واقع شوند. داده‌ها اغلب پس از جمع‌آوري، يكپارچه‌سازي و ذخيره‌سازي با مشكلات كيفيتي روبرو مي‌شوند. اين مشكلات كيفيتي در جهت بهبود كيفيت داده‌ها و به دنبال آن استخراج دانش مفيد از آنها در طي فرايند تجزيه و تحليل بايد در ابتدا شناسايي شده و سپس پردازش‌هاي متناسب در جهت مقابله با آنها انجام شود. داده‌هاي تكراري به عنوان يكي از مشكلات كيفيتي رايج و مهم مورد توجه اين مقاله است. از گذشته تاكنون پژوهش‌هاي متعددي بر مبناي رويكردهاي مختلف از جمله مبتني بر قانون، مبتني بر مفاهيم يادگيري، مبتني بر خرد جمعي و ... در جهت شناسايي انواع مختلف داده هاي تكراري انجام و هر يك از آنها منجر به ارائه يك روش نوين در جهت مقابله با اين مشكل شده است. هدف ما در اين مقاله ارائه يك طبقه‌بندي از روش-هاي شناسايي داده‌هاي تكراري و به دنبال آن بحث و تجزيه و تحليل هر يك از روش‌هاي مطرح بر اساس طبقه بندي ارائه شده است.

كشور

ايران

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=36&DC=340626