• شماره ركورد كنفرانس
    5252
  • عنوان مقاله

    طبقه‌بندي روش‌هاي شناسايي داده‌هاي تكراري در جهت تسهيل فرايند پاكسازي داده‌ها

  • پديدآورندگان

    جعفري مهدي mahdijafary@aut.ac.ir دانشكده مهندسي كامپيوتر، دانشگاه صنعتي اميركبير، تهران، ايران , عبدالله زاده بار فروش احمد ahmadaku@aut.ac.ir دانشكده مهندسي كامپيوتر، دانشگاه صنعتي اميركبير، تهران، ايران

  • تعداد صفحه
    8
  • كليدواژه
    پاكسازي داده ها , شناسايي داده هاي تكراري , كيفيت داده ها , كلان داده
  • سال انتشار
    1401
  • عنوان كنفرانس
    سيزدهمين كنفرانس بين المللي فناوري اطلاعات و دانش
  • زبان مدرك
    فارسي
  • چكيده فارسي
    روز به روز حجم داده‌هاي توليد شده توسط انسان‌ها در حال افزايش است. اين داده‌ها اگر به درستي مديريت شوند مي‌توانند در امر تجزيه و تحليل و استخراج دانش از آنها مفيد واقع شوند. داده‌ها اغلب پس از جمع‌آوري، يكپارچه‌سازي و ذخيره‌سازي با مشكلات كيفيتي روبرو مي‌شوند. اين مشكلات كيفيتي در جهت بهبود كيفيت داده‌ها و به دنبال آن استخراج دانش مفيد از آنها در طي فرايند تجزيه و تحليل بايد در ابتدا شناسايي شده و سپس پردازش‌هاي متناسب در جهت مقابله با آنها انجام شود. داده‌هاي تكراري به عنوان يكي از مشكلات كيفيتي رايج و مهم مورد توجه اين مقاله است. از گذشته تاكنون پژوهش‌هاي متعددي بر مبناي رويكردهاي مختلف از جمله مبتني بر قانون، مبتني بر مفاهيم يادگيري، مبتني بر خرد جمعي و ... در جهت شناسايي انواع مختلف داده هاي تكراري انجام و هر يك از آنها منجر به ارائه يك روش نوين در جهت مقابله با اين مشكل شده است. هدف ما در اين مقاله ارائه يك طبقه‌بندي از روش-هاي شناسايي داده‌هاي تكراري و به دنبال آن بحث و تجزيه و تحليل هر يك از روش‌هاي مطرح بر اساس طبقه بندي ارائه شده است.
  • كشور
    ايران