Other language title :
با استفاده از هش انگشت نگاري درختي (PCP) جستجوگر سرقت ادبي براي متون فارسي
Title of article :
Plagiarism checker for Persian (PCP) texts using hash-based tree representative fingerprinting
Author/Authors :
Rafieian, Sh Computer Engineering Department - Sheikh Bahaii University - Isfahan , Braani Dastjerdi, A. Computer Engineering Department - University of Isfahan - Isfahan
Issue Information :
دوفصلنامه با شماره پیاپی سال 2016
Pages :
9
From page :
125
To page :
133
Abstract :
With due respect to the authors’ rights, plagiarism detection is one of the critical problems in the field of text-mining, in which many researchers are interested. This issue has been considered as a serious one in high academic institutions. There exist language-free tools that do not yield any reliable results since the special features of every language are ignored in them. Considering the paucity of works in the field of Persian language due to the lack of reliable plagiarism checkers in Persian, there is a need for a method to improve the accuracy of detecting plagiarized Persian phrases. An attempt is made in this work to present the PCP solution. This solution is a combinational method, in which, in addition to the meaning and stem of words, synonyms and pluralization are dealt with by applying the document tree representation based on manner fingerprinting the text in the 3-grams words. The grams obtained are eliminated from the text, hashed through the BKDR hash function, and stored as the fingerprint of a document in fingerprints of the reference document repositories in order to check the suspicious documents. The proposed PCP method here is evaluated by eight experiments on seven different sets, which include the suspicions documents and the reference document from the Hamshahri newspaper website. The results obtained indicate that the accuracy of this proposed method in detecting similar texts, in comparison with the "Winnowing" localized method, has a 21.15% average improvement. The accuracy of the PCP method in detecting the similarities, in comparison with the language-free tool, reveals a 31.65% average improvement.
Farsi abstract :
يكي از مسائل مهمي كه در زمينه متن كاوي مورد استقبال پژوهشگران قرار گرفته است، تشخيص سرقت ادبي به منظور رعايت حقوق نويسندگان است. اين مسئله به عنوان يك بحران جدي در دانشگاه ها به چشم مي خورد. ابزارهاي مستقل از زبان وجود دارند كه به دليل در نظر نگرفتن ويژگي هاي خاص هر زبان، نتايج قابل اعتمادي ايجاد نمي كنند. با توجه به معدود كارهاي انجام شده در زبان فارسي، كه از دقت قابل قبولي نيز برخوردار نيستند، نياز به روشي براي بهبود دقت كشف عبارات سرقتي فارسي مي باشد. در اين مقاله راه كار PCP ارائه شده است. اين راه كار به صورت تركيبي بوده و علاوه بر در نظر گرفتن ريشه و معني كلمات در تعيين كلمات مترادف و مكسر، به كمك نمايش درختي سند به انگشت نگاري متن بر اساس ۳-گرام هاي كلمات مي پردازد. در نهايت گرامهاي به دست آمده از متن پاكسازي شده، به كمك تابع هش BKDR، هش شده و به عنوان اثرانگشت بند در مخزن اثرانگشت هاي اسناد مرجع، براي بررسي اسناد مشكوك ذخيره مي گردد. روش ارائه شده PCP با اعمال هشت آزمايش متفاوت بر روي هفت مجموعه اسناد ايجاد شده از سايت روزنامه همشهري شامل سند مشكوك و سند مرجع ارزيابي گرديد. نتايج نشان مي دهد، ميزان دقت تعيين كشف شباهت متون به كمك روش پيشنهادي نسبت به روش "Winnowing" بومي سازي شده، به طور متوسط ۲۱٫۱۵ درصد بهبود داشته است. دقت كشف شباهت روش PCP نسبت به ابزار مستقل از زبان به طور ميانگين ۳۱٫۶۵ درصد بهبود يافته است.
Keywords :
Text-Mining , Natural Language Processing , Plagiarism Detection , External Plagiarism Detection , Persian Language
Journal title :
Astroparticle Physics
Serial Year :
2016
Record number :
2406357
Link To Document :
بازگشت