شماره ركورد كنفرانس
4418
عنوان مقاله
كشف سرقت ادبي در متون فارسي با كمك الگوريتم SimHash
پديدآورندگان
كامران كبري دانشگاه آزاد اسلامي , احمدي علي دانشگاه صنعتي خواجه نصيرالدين طوسي , محسن زاده مهران دانشگاه آزاد اسلامي
تعداد صفحه
۶
كليدواژه
سرقت ادبي , اثر انگشت , فاصله همينگ , shingling , simHash
سال انتشار
۱۳۹۱
عنوان كنفرانس
يازدهمين كنفرانس سراسري سيستم هاي هوشمند
زبان مدرك
فارسي
چكيده فارسي
دسترسي آسان به وب، پايگاه داده هاي بزرگ و به طور كلي ارتباطات از راه دور باعث شده كه سرقت ادبي به يك مشكل بزرگ براي ناشران، محققان و موسسات آموزشي تبديل شود. در زبان انگليسي اين مسئله به طور جدي مورد اهميت بوده و ابزارهاي قدرتمندي براي جلوگيري از اين مسئله تهيه شده است، اما متاسفانهتاكنون در اين باره به صورت جدي در زبان فارسي به آن پرداخته نشده است. اين مقاله به بررسي سرقت ادبي در متون فارسي بر اساس الگوريتم simhash مي پردازد. الگوريتم simhash از دسته الگوريتم هاي اثر انگشت است. ويژگي اصلي الگوريتم هاي اثر انگشت، سرعت بالاي آنها در كشف سرقت ادبي است. قبل از بكارگيري الگوريتم، مي بايست عمليات پيش پردازش شامل: حذف تگ هاي نسخه اينترنتي مقاله، جداسازي كلمات، يكسان سازي، جايگزيني اعداد, حذف واژه هاي عموميو ريشه يابي روي متون صورت گيرد. در اين مقاله simhash و shingling بررسي و با يكديگر مقايسه مي شوند. پياده سازي اين دو الگوريتم روي يك مجموعه بزرگي از مقالات ثبت شده در پايگاه داده نور، نتايج قابل قبولي را نشان مي دهد
كشور
ايران
لينک به اين مدرک