• شماره ركورد
    1389045
  • عنوان مقاله

    نور-استم نسخه 1. يك مجموعه داده معيار براي ارزيابي ريشه‌ياب‌هاي عربي

  • پديد آورندگان

    العصواد ، ازل دانشگاه علم و صنعت ايران - دانشكده مهندسي كامپيوتر , مينايي بيدگلي ، بهروز دانشگاه علم و صنعت ايران - دانشكده مهندسي كامپيوتر , شناسا ، محمد ابراهيم پژوهشكده علوم اسلامي و انساني ديجيتال (نور) - آزمايشگاه هوش مصنوعي , سرياني ، حبيب پژوهشكده علوم اسلامي و انساني ديجيتال (نور) - آزمايشگاه هوش مصنوعي , حسيني ، علي دانشگاه علم و صنعت ايران - دانشكده مهندسي كامپيوتر

  • از صفحه
    103
  • تا صفحه
    112
  • كليدواژه
    دادگان معيار , ريشه‌ياب , نور-استم , ميانوند , استخراج اطلاعات
  • چكيده فارسي
    ريشه ‌يابي مرحله اصلي چندين فرايند پردازشي مانند متن ‌كاوي، بازيابي اطلاعات و پردازش زبان طبيعي است. ابزارهاي تشخيص ميانوند كلمات عربي با چالش‌هاي زيادي روبرو هستند كه بيشتر ناشي از ماهيت پيچيده كلمات اين زبان و سبك هاي نوشتاري متفاوت آن ها است. تا جايي كه ما مي دانيم، هيچ مجموعه داده ي ريشه يابيِ معياري وجود ندارد كه طيف گسترده اي از چالش هاي ريشه يابي را پوشش دهد. بنابراين، ما توسعه يك مجموعه داده براي ارزيابي پايداري ريشه‌ياب‌ها را در چنين موقعيت هاي چالش برانگيزي ارزشمند مي دانيم. اين مقاله، نور-استم، يك مجموعه داده معيار با سبك‌هاي نوشتاري مختلف را براي ارزيابي ابزارهاي تشخيص ميانوند (استم) عربي معرفي ‌مي‌كند. جهت تاييد عملكرد اين دادگان، عملكرد سه ريشه‌ياب‌ عربي (لايت ۱۰، NLTK و تاشفين) مورد ارزيابي قرار گرفته است. نتايج نشان مي دهد كه سنجه ي اف در ريشه ياب تاشفين بهتر از ساير ريشه‌ياب‌ها است كه اين موضوع در پژوهش هاي مرتبط نيز مشاهده شده است.
  • عنوان نشريه
    پردازش علائم و داده ها
  • عنوان نشريه
    پردازش علائم و داده ها