شماره ركورد
1389045
عنوان مقاله
نور-استم نسخه 1. يك مجموعه داده معيار براي ارزيابي ريشهيابهاي عربي
پديد آورندگان
العصواد ، ازل دانشگاه علم و صنعت ايران - دانشكده مهندسي كامپيوتر , مينايي بيدگلي ، بهروز دانشگاه علم و صنعت ايران - دانشكده مهندسي كامپيوتر , شناسا ، محمد ابراهيم پژوهشكده علوم اسلامي و انساني ديجيتال (نور) - آزمايشگاه هوش مصنوعي , سرياني ، حبيب پژوهشكده علوم اسلامي و انساني ديجيتال (نور) - آزمايشگاه هوش مصنوعي , حسيني ، علي دانشگاه علم و صنعت ايران - دانشكده مهندسي كامپيوتر
از صفحه
103
تا صفحه
112
كليدواژه
دادگان معيار , ريشهياب , نور-استم , ميانوند , استخراج اطلاعات
چكيده فارسي
ريشه يابي مرحله اصلي چندين فرايند پردازشي مانند متن كاوي، بازيابي اطلاعات و پردازش زبان طبيعي است. ابزارهاي تشخيص ميانوند كلمات عربي با چالشهاي زيادي روبرو هستند كه بيشتر ناشي از ماهيت پيچيده كلمات اين زبان و سبك هاي نوشتاري متفاوت آن ها است. تا جايي كه ما مي دانيم، هيچ مجموعه داده ي ريشه يابيِ معياري وجود ندارد كه طيف گسترده اي از چالش هاي ريشه يابي را پوشش دهد. بنابراين، ما توسعه يك مجموعه داده براي ارزيابي پايداري ريشهيابها را در چنين موقعيت هاي چالش برانگيزي ارزشمند مي دانيم. اين مقاله، نور-استم، يك مجموعه داده معيار با سبكهاي نوشتاري مختلف را براي ارزيابي ابزارهاي تشخيص ميانوند (استم) عربي معرفي ميكند. جهت تاييد عملكرد اين دادگان، عملكرد سه ريشهياب عربي (لايت ۱۰، NLTK و تاشفين) مورد ارزيابي قرار گرفته است. نتايج نشان مي دهد كه سنجه ي اف در ريشه ياب تاشفين بهتر از ساير ريشهيابها است كه اين موضوع در پژوهش هاي مرتبط نيز مشاهده شده است.
عنوان نشريه
پردازش علائم و داده ها
عنوان نشريه
پردازش علائم و داده ها
لينک به اين مدرک