شماره ركورد كنفرانس :
3376
عنوان مقاله :
بهبود متن كاوي با انتخاب كلمات ويژگي
عنوان به زبان ديگر :
Improving Text Mining with Featured Word Selection
پديدآورندگان :
ابوالقاسمي محمدامين amin.a222@yahoo.com دانشگاه صنعتي اميركبير , ممتازي سعيده momtazi@aut.ac.ir دانشگاه صنعتي اميركبير
تعداد صفحه :
6
كليدواژه :
وب كاوي , متن كاوي , دسته بندي متون , انتخاب ويژگي
سال انتشار :
1397
عنوان كنفرانس :
چهارمين كنفرانس بين المللي وب پژوهي
زبان مدرك :
فارسي
چكيده فارسي :
متن كاوي يكي از فعاليت هاي اصلي در حوزه وب پژوهي محسوب مي گردد كه هدف آن دسته بندي يا خوشه بندي متون موجود در وب براي كاربردهاي مختلف از جمله تحليل خبر، تحليل شبكه هاي اجتماعي و ... مي باشد. با توجه به بالا بودن حجم دادگان موجود در وب براي پرداز ش هاي متني، كاهش ابعاد دادگان با كمك روش هاي استخراج ويژگي نقش مهمي را در بهبود كيفيت متن كاوي و همين طور بهينه سازي زمان اجرا ايفا مي نمايد. روش هاي متنوعي براي استخراج ويژگي در الگوريتم هاي يادگيري ماشين ارائه شده است كه قابليت كاربردي سازي در حوزه متن كاوي را دارند. در مقاله حاضر به بررسي الگوريتم هاي موجود در اين زمينه پرداخته مي شود و نتايج حاصل از اين الگوريتم ها در استخراج كلمات ويژگي متون فارسي مقايسه مي گردد. همچنين تاثير به كارگيري انتخاب ويژگي در دسته بندي متون فارسي مورد تحليل قرار مي گيرد. نتايج به دست آمده در آزمايش ها برروي پيكره همشهري فارسي نشان مي دهد با كمك روش مناسب انتخاب ويژگي مي توان نتايج دسته بندي متون فارسي را از 88.12% در معيار اف به 93.07% افزايش داد.
چكيده لاتين :
Text mining is one of the main tasks in web research that aims at classification or clustering available texts in the web for different applications, such as news analysis and social network analysis. Since a very large amount of textual data is available on the Web, reducing the dimension of data using feature extraction techniques plays an important role in improving the efficiency and effectiveness of the text mining algorithms. Various techniques have been proposed in machine learning tasks that can also be applied in the text mining domain. In this paper we study the available techniques and compare their impact on improving Persian text classification performance. Our experimental results on Hamshahri corpus shows that using an appropriate feature selection technique can improve the classification f-measure from 88.12% to 93.07%.
كشور :
ايران
لينک به اين مدرک :
بازگشت