شماره ركورد كنفرانس :
4230
عنوان مقاله :
ارزيابي تأثير منشأ ويژگي ها بر ميزان دقت تشخيص وب هرز توسط الگوريتم هاي طبقه بندي
عنوان به زبان ديگر :
Evaluation of Features Origin on Web Spam Detection Accuracy Rate Obtained by Different Classification Algorithms
پديدآورندگان :
مستشارنژاد فريبا asdaghi@shahroodut.ac.ir دانشگاه آزاد اسلامي , كامل سيدرضا rezakamel@computer.org دانشگاه آزاد اسلامي
تعداد صفحه :
7
كليدواژه :
وب هرز , طبقه¬بندي , ويژگي¬هاي مبتني بر محتوا , ويژگي¬هاي مبتني بر پيوند , ويژگي¬هاي مبتني بر پيوند تبديل يافته
سال انتشار :
1395
عنوان كنفرانس :
كنفرانس بين المللي وب پژوهي
زبان مدرك :
فارسي
چكيده فارسي :
امروزه با توجه به رشد اطلاعات در وب،‌ موتورهاي جستجو به عنوان يك ابزار براي ورود به دنياي وب مورد توجه قرار گرفته¬اند. آنها فهرستي از نتايج مرتبط با پرسش كاربر را در اختيار او قرار مي-دهند. از آنجا كه اكثر كاربران تنها نتايج صفحه نخست و از آن ميان فقط روي سه يا پنج پيوند اوليه را مورد بازديد قرار مي¬دهند، حضور يك صفحه در نتايج بالاي موتورهاي جستجو به معناي بازديدكننده بيشتر و نيز درآمد بيشتر است. در اين ميان وب هرز يك روش غيرقانوني و غيراخلاقي به منظور افزايش رتبه صفحات اينترنتي توسط فريب الگوريتم¬هاي موتورهاي جستجو مي باشد. از آنجا كه كيفيت نتايج براي موتورهاي جستجو اهميت بسياري دارد، روش¬هاي مختلفي براي تشخيص صفحات وب هرز ارائه شده است. تاكنون بررسي هاي فراواني بر روي مجموعه داده UK-WEBSPAM-2007 صورت گرفته و الگوريتم هاي طبقه بندي جديد و تركيبي به نتايج خوبي رسيده اند اما هدف ما بررسي عملكرد الگوريتم هاي كلاسيك بر روي اين مجموعه داده است و اينكه نشان دهيم از اينگونه الگوريتم ها نمي¬توان به صورت خام براي تشخيص وب هرز استفاده كرد و روشهاي تركيبي جديد گزينه مناسب تري در اين خصوص است. در اين مقاله قصد داريم تاثير روش¬هاي منتخب طبقه¬بندي را بر ميزان تشخيص اين صفحات با در نظر گرفتن چگونگي انتخاب ويژگي¬ها، بررسي نماييم. بدين منظور از مجموعه داده UK-WEBSPAM-2007 استفاده كرده و 12روش مختلف طبقه-بندي را براي تشخيص صفحات وب هرز از ديگر صفحات بر روي حالات مختلف انتخاب ويژگي اعمال كرديم. بهترين نتيجه از اعمال الگوريتم¬هاي طبقه¬بندي بر تركيب ويژگي¬هاي مبتني بر محتوا و ويژگي-هاي مبتني بر پيوند بدست آمد.
چكيده لاتين :
Due to the growth of information on the web, Search engines as a tool for enterance the world of the web have been considered. They present a list of results related to the user s query. Since most users visit just the first result page and read the three or five primary link among them, the presence of a page in the top results of search engines means more visitors and more revenue. In the meantime, Web spam is an illegal and unethical methods to enhance the page rank by tricking search engines. Since quality of results are very important for search engines, several methods have been proposed to detect web spam. So far, a lot of study on data collection UK-WEBSPAM-2007 has been made and the new mixed classification algorithms have come to good results but our goal is to evaluate the performance of classical algorithms on this dataset and to show that such algorithms can not be used in raw form to detect web spam and the new combination techniques in this regard is a more appropriate option. In this article we intend to examine effect of using proper classification algorithms on detection rate, considering the features origin. For this purpose we had used UK-WEBSPAM-2007 data collection and applied 12 different methods of classification on different feature selection scenarios. Best Results was obtained by applying Random Forest classification algorithm on combination of content and link based features.
كشور :
ايران
لينک به اين مدرک :
بازگشت