عنوان مقاله :
همانند جويي در متون فارسي بازنويسي شده با استفاده از روشهاي معنايي و احتمالاتي
عنوان به زبان ديگر :
Detecting Similarity in Paraphrased Persian Texts using Semantic and Probabilistic Methods
پديد آورندگان :
پاك نيت، نصراله پژوهشگاه علوم و فناوري اطلاعات ايران ( ايرانداك ) , محبي، آزاده پژوهشگاه علوم و فناوري اطلاعات ايران ( ايرانداك )
كليدواژه :
تشخيص سرقت علمي , همانندجويي معنايي , همانندجويي احتمالاتي , متون بازنويسي شده
چكيده فارسي :
همانندجويي ابزاري است كه از آن براي تشخيص سرقت علمي/ ادبي استفاده ميشود. هدف در يك روش همانندجويي، تشخيص تمام قسمتهاي همانندِ موجود در يك متن مشكوك با توجه به تعدادي متن منبع احتمالي است. روشهاي زيادي براي همانندجويي ارائه شده، اما از يك طرف، استفاده از روشهاي همانندجوي موجود براي ساير زبانها بهمنظور همانندجويي در زبان فارسي مناسب نيست و از طرف ديگر، اغلب روشهاي ارائهشده براي همانندجويي در زبان فارسي قادر به تشخيص متون بازنويسيشده نيستند. با توجه به اين مهم، در اين مقاله دو روش همانندجويي جديد با هدف تشخيص متون فارسي بازنويسيشده ارائه خواهد شد. روششناسي پژوهش بر اساس مطالعه منابع و مستندات معتبر علمي در اين خصوص و روش كتابخانهاي است. روش اولِ پيشنهادي روشي معنايي است و از لغتنامه جهت بررسي همانندي جملات متون استفاده ميكند. روش دومِ پيشنهادي روشي احتمالاتي است و از اطلاعات آماري بهدستآمده از پيكرهاي عظيم از متون براي همانندجويي استفاده ميكند. روش معناييِ پيشنهادي در مقايسه با روشهاي معنايي موجود از معيارهاي جديدتري براي بررسي همانندي متون استفاده كرده و روش احتمالاتي پيشنهادي اولين روش همانندجويي احتمالاتي ارائهشده براي زبان فارسي است. علاوه بر اين، در حالي كه در ساير روشهاي موجود، همانندي هر دو جمله از متون مورد نظر بهصورت مستقل بررسي ميشود، در روشهاي پيشنهادي همانندي جملات همسايه نيز در بررسي همانندي دو جمله در نظر گرفته شده است. نتايج پيادهسازي و آزمايشات صورتگرفته بر روي روشهاي پيشنهادي نشان ميدهد كه در حالي كه هر دو روش از كيفيت مناسب و تقريباً يكساني برخوردار هستند، روش همانندجوي احتمالاتيِ پيشنهادي بسيار كاراتر بوده و زمان مورد نياز براي همانندجويي با استفاده از آن بهطور متوسط برابر با 3/8 درصد زمان مورد نياز توسط الگوريتم همانندجوي معناييِ پيشنهادي است.
چكيده لاتين :
Plagiarism detection is the process of locating instances of plagiarism within a work or a document. The main component of a plagiarism detection system is its text alignment algorithm aiming at
detecting paraphrased passages of texts in a suspicious document,
using a small set of candidate source documents. As text alignment
algorithms are highly language-dependent, thus the numerous
existing algorithms for other languages other than Pesian cannot be
employed for Persian plagiarism detection puposes. There are different
text alignment algorithms for Persian texts, while most of them are
only able to detect exactly identical passages shared between texts.
However, in many cases of plagiarism detection we are coping with the
problem of finding similar passages that are already paraphrased. In
this paper, we propose two new text alignment algorithms which are
able to detect paraphrased texts in Persian language. The first one is
a semantic algorithm that employs a dictionary to detect paraphrased
sentences and the second one is a probabilistic algorithm that uses the
statistical information obtained from a large corpus of Persian texts to
detect similar texts. Compared to other existing semantic text alignment
algorithms, the proposed algorithms use different measures to check the similarity between the text sentences. Furthermore, the probabilistic
algorithm is the first probabilistic text alignment algorithm proposed
for the Persian language. Moreover, while all existing text alignment
algorithms check the similarity between any two sentences of the text
separately, the proposed algorithms consider the similarity neighboring
sentences in the text as well. The implementation results indicate that
while the quality of both algorithms in detecting paraphrased texts is high enough and almost the same as each other, the proposed probabilistic method is more efficient
than the proposed semantic algorithm in terms of computation time.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات