عنوان مقاله :
ارائه ي يك مدل جهت دستهبندي متون فارسي با استفاده از تركيب روش هاي دسته بندي
پديد آورندگان :
جمالي، ايمان دانشگاه آزاد اسلامي واحد علوم و تحقيقات، بوشهر , ميرعابديني، جواد دانشگاه آزاد اسلامي، تهران مركزي , هارون آبادي، علي دانشگاه آزاد اسلامي، تهران مركزي
كليدواژه :
ماشين بردار پشتيبان , دستهبندي متون , انتخاب ويژگي , تحليل مؤلفه اصلي
چكيده فارسي :
براي دستهبندي متن از تكنيكهاي استخراج اطلاعات، پردازش زبان طبيعي و يادگيري ماشين به طور وسيع استفاده ميشود به طور كلي هدف يك دسته بند متون، دستهبندي اسناد در قالب تعداد معيني از دستههاي از پيش تعيين شده ميباشد. هر سند ميتواند در يك، چند و يا هيچ دستهاي قرار بگيرد. در مورد هر سند به اين سؤال پاسخ داده خواهد شد كه اين سند در كدام يك از دستهها قرار ميگيرد. اين موضوع ميتواند در قالب يك يادگيري خودكار قرار گيرد تا با استفاده از آن بتوان هر سند را به طور خودكار به دستهاي نسبت داد. در اين مقاله، بعد از انتخاب مجموعه داده و پاكسازي متون به كمك روش نرمال شده فركانس كلمه- معكوس فركانس سند (norm TF-IDF) به ويژگيها وزن داده ميشود و در طي دو مرحله ويژگيها با استفاده از روشهاي فركانس سند (DF) و مربع چي (SChi) انتخاب ميشوند و بعد با استفاده از روش تحليل مؤلفه اصلي (PCA) ابعاد ويژگيها كاهش داده ميشود و در مرحله بعد با استفاده از تركيب 21 ماشين بردار پشتيبان (SVM) به پياده سازي مدل پيشنهادي ميپردازيم و در نهايت صحت مدل را با روش اعتبار سنجي 10 مرحلهاي ارزيابي ميكنيم نتايج تجربي نشان ميدهد كه اين مدل ميتواند عمل دستهبندي متون را براي هفت دسته با صحت 91.86 انجام دهد كه نسبت به كارهاي پيشين انجام گرفته صحت بالاتري دارد.
چكيده لاتين :
This Article has no English Abstract
عنوان نشريه :
مهندسي مخابرات جنوب