ارائه ي يك مدل جهت دسته‌بندي متون فارسي با استفاده از تركيب روش هاي دسته بندي

پديد آورندگان

جمالي، ايمان دانشگاه آزاد اسلامي واحد علوم و تحقيقات، بوشهر , ميرعابديني، جواد دانشگاه آزاد اسلامي، تهران مركزي , هارون آبادي، علي دانشگاه آزاد اسلامي، تهران مركزي

تعداد صفحه

از صفحه

از صفحه (ادامه)

تا صفحه

تا صفحه(ادامه)

كليدواژه

ماشين بردار پشتيبان , دسته‌بندي متون , انتخاب ويژگي , تحليل مؤلفه اصلي

چكيده فارسي

براي دستهبندي متن از تكنيكهاي استخراج اطلاعات، پردازش زبان طبيعي و يادگيري ماشين به طور وسيع استفاده مي‌شود به طور كلي هدف يك دسته بند متون، دستهبندي اسناد در قالب تعداد معيني از دستههاي از پيش تعيين شده ميباشد. هر سند مي‌تواند در يك، چند و يا هيچ دسته‌اي قرار بگيرد. در مورد هر سند به اين سؤال پاسخ داده خواهد شد كه اين سند در كدام يك از دستهها قرار مي‌گيرد. اين موضوع مي‌تواند در قالب يك يادگيري خودكار قرار گيرد تا با استفاده از آن بتوان هر سند را به طور خودكار به دستهاي نسبت داد. در اين مقاله، بعد از انتخاب مجموعه داده و پاكسازي متون به كمك روش نرمال شده فركانس كلمه- معكوس فركانس سند (norm TF-IDF) به ويژگيها وزن داده ميشود و در طي دو مرحله ويژگيها با استفاده از روشهاي فركانس سند (DF) و مربع چي (SChi) انتخاب ميشوند و بعد با استفاده از روش تحليل مؤلفه اصلي (PCA) ابعاد ويژگيها كاهش داده ميشود و در مرحله بعد با استفاده از تركيب 21 ماشين بردار پشتيبان (SVM) به پياده سازي مدل پيشنهادي ميپردازيم و در نهايت صحت مدل را با روش اعتبار سنجي 10 مرحله‌اي ارزيابي ميكنيم نتايج تجربي نشان ميدهد كه اين مدل ميتواند عمل دستهبندي متون را براي هفت دسته با صحت 91.86 انجام دهد كه نسبت به كارهاي پيشين انجام گرفته صحت بالاتري دارد.

چكيده لاتين

This Article has no English Abstract

سال انتشار

1396

عنوان نشريه

مهندسي مخابرات جنوب

فايل PDF

8217901

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1178872