شماره ركورد :
1177902
عنوان مقاله :
ارائه روش تركيبي مبتني بر يادگيري ماشين براي دسته بندي خودكار متون اينترنتي
پديد آورندگان :
رستمي محمد دانشگاه كاشان - مهندسي نرم افزار و الگوريتم , ابراهيم پور كومله حسين دانشگاه كاشان - دانشكده مهندسي برق و كامپيوتر
تعداد صفحه :
13
از صفحه :
1
از صفحه (ادامه) :
0
تا صفحه :
13
تا صفحه(ادامه) :
0
كليدواژه :
دسته بندي متون , W-SMO , يادگيري ماشين , N-gram
چكيده فارسي :
با افزايش حجم اطلاعات در دسترس بر روي اينترنت و پايگاه هاي داده، نياز به ابزارهايي كه بتوانند در جستجو، پالايش و مديريت منابع كمك كنند، ضروري است. براي رسيدن به اين منظور در اين پژوهش، از دسته بندي متون با استفاده از الگوريتم هاي يادگيري ماشين استفاده شده است. دسته بندي يا رده بندي متون، به اختصاص يك سند متني به يك طبقه مناسب از پيش تعيين شده گفته مي شود. چالش اصلي دسته بندي متون، بزرگي فضاي ويژگي ها در اين گونه مسايل است. در بسياري از الگوريتم هاي موجود چنين فضاي بزرگي منجر به كند شدن بسيار زياد دسته بند و ناكارآمدي آن خواهد شد. علاوه بر اين ويژگي هايي وجود دارند كه نه تنها باعث دسته بندي بهتر متون نمي شوند بلكه دقت دسته بندي را نيز كاهش مي دهند. در اين پژوهش جهت دست يافتن به كارايي مناسب ابتدا آماده سازي متون يا مجموعه داده انجام شده است. براي اين منظور ابتدا اسناد متني را به شكل يكسان (حروف كوچك) تبديل كرده و سپس نتايج در دو حالت، بدون حذف كلمات متوقف كننده و با حذف كلمات متوقف كننده به دست آمده است. اين سيستم شامل دو مرحله، پردازش متن و دسته بندي متن مي باشد. در مرحله اول براي استخراج ويژگي ها از معيارهاي شاخص گذاري مختلفي نظير bigram، trigram و quadgram استفاده شده، سپس در مرحله دوم براي آموزش سيستم از الگوريتم يادگيري ماشين W-SMO استفاده شده است. به منظور ارزيابي و مقايسه نتايج دو معيار دقت و بازخواني،Macro-F1 و Micro-F1 براي روش هاي مختلف شاخص گذاري محاسبه شده اند. نتايج آزمايش ها كه بر روي 7676 سند متني استاندارد خبرگزاري رويترز انجام گرفت، نشان داد كه روش پيشنهادي بهترين كارايي را نسبت به الگوريتم هاي W-j48، Naïve Bayes، K-NNو W-LADTREE دارد. بررسي نتايج نشان مي دهد كه روش پيشنهادي باعث بهبود دقت ميكرو تا 95.17% در دسته بندي متون مي گردد.
چكيده لاتين :
No abstract
سال انتشار :
1398
عنوان نشريه :
علوم رايانشي
فايل PDF :
8216487
لينک به اين مدرک :
بازگشت