شماره ركورد
1177902
عنوان مقاله
ارائه روش تركيبي مبتني بر يادگيري ماشين براي دسته بندي خودكار متون اينترنتي
پديد آورندگان
رستمي محمد دانشگاه كاشان - مهندسي نرم افزار و الگوريتم , ابراهيم پور كومله حسين دانشگاه كاشان - دانشكده مهندسي برق و كامپيوتر
تعداد صفحه
13
از صفحه
1
از صفحه (ادامه)
0
تا صفحه
13
تا صفحه(ادامه)
0
كليدواژه
دسته بندي متون , W-SMO , يادگيري ماشين , N-gram
چكيده فارسي
با افزايش حجم اطلاعات در دسترس بر روي اينترنت و پايگاه هاي داده، نياز به ابزارهايي كه بتوانند در جستجو، پالايش و مديريت منابع كمك كنند، ضروري است. براي رسيدن به اين منظور در اين پژوهش، از دسته بندي متون با استفاده از الگوريتم هاي يادگيري ماشين استفاده شده است. دسته بندي يا رده بندي متون، به اختصاص يك سند متني به يك طبقه مناسب از پيش تعيين شده گفته مي شود. چالش اصلي دسته بندي متون، بزرگي فضاي ويژگي ها در اين گونه مسايل است. در بسياري از الگوريتم هاي موجود چنين فضاي بزرگي منجر به كند شدن بسيار زياد دسته بند و ناكارآمدي آن خواهد شد. علاوه بر اين ويژگي هايي وجود دارند كه نه تنها باعث دسته بندي بهتر متون نمي شوند بلكه دقت دسته بندي را نيز كاهش مي دهند. در اين پژوهش جهت دست يافتن به كارايي مناسب ابتدا آماده سازي متون يا مجموعه داده انجام شده است. براي اين منظور ابتدا اسناد متني را به شكل يكسان (حروف كوچك) تبديل كرده و سپس نتايج در دو حالت، بدون حذف كلمات متوقف كننده و با حذف كلمات متوقف كننده به دست آمده است. اين سيستم شامل دو مرحله، پردازش متن و دسته بندي متن مي باشد. در مرحله اول براي استخراج ويژگي ها از معيارهاي شاخص گذاري مختلفي نظير bigram، trigram و quadgram استفاده شده، سپس در مرحله دوم براي آموزش سيستم از الگوريتم يادگيري ماشين W-SMO استفاده شده است. به منظور ارزيابي و مقايسه نتايج دو معيار دقت و بازخواني،Macro-F1 و Micro-F1 براي روش هاي مختلف شاخص گذاري محاسبه شده اند. نتايج آزمايش ها كه بر روي 7676 سند متني استاندارد خبرگزاري رويترز انجام گرفت، نشان داد كه روش پيشنهادي بهترين كارايي را نسبت به الگوريتم هاي W-j48، Naïve Bayes، K-NNو W-LADTREE دارد. بررسي نتايج نشان مي دهد كه روش پيشنهادي باعث بهبود دقت ميكرو تا 95.17% در دسته بندي متون مي گردد.
چكيده لاتين
No abstract
سال انتشار
1398
عنوان نشريه
علوم رايانشي
فايل PDF
8216487
لينک به اين مدرک