عنوان مقاله :
توليد پيكره برچسبخورده واحدساز زبان فارسي با درنظرگرفتن ملاحظات زبانشناسي رايانشي آن
پديد آورندگان :
فرهودي ، مژگان پژوهشگاه ارتباطات و فناوري اطلاعات , محمودي ، مريم پژوهشگاه ارتباطات و فناوري اطلاعات , داودي شمسي ، مونا پژوهشگاه ارتباطات و فناوري اطلاعات
كليدواژه :
پيكره واحدساز زبان فارسي , پردازش زبان فارسي , زبانشناسي رايانشي
چكيده فارسي :
متون نگاشتهشده فارسي بهطورمعمول دو مشكل ساده، ولي مهم دارند. مشكل نخست واژههاي چندواحدي هستند كه از اتصال يك واژه به واژه هاي بعدي حاصل مي شوند. مشكل ديگر واحدهاي چندواژه اي هستند كه از جداشدگي واژه هايي كه با هم يك واحد واژگاني را تشكيل مي دهند، حاصل ميشوند. ابزار واحدساز در زبان فارسي كه بهعنوان يكي از ابزارهاي پيش پردازش زبان است، كاربرد فراواني در تجزيه و تحليل متون داشته و بايد بتواند واحدهاي واژگاني را تشخيص دهد. به عبارتي، اين ابزار، مركز كلمات را در متون تشخيص داده و آن را به دنباله اي از كلمات بهمنظور تحليل هاي بعدي تبديل مي كند. تنوع در رسمالخط فارسي و عدم رعايت قوانين جدانويسي و پيوستهنويسي كلمات از يكسو و پيچيدگيهاي واژگاني زبان فارسي از سويي ديگر فرايندهاي مختلف پردازشي زبان از جمله واحدسازي را با چالشهاي بسياري روبهرو ميكند؛ لذا براي عملكرد بهينه اين ابزار، لازم است ابتدا ملاحظات زبانشناسي رايانشي واحدسازي در زبان فارسي مشخص و سپس بر اساس اين ملاحظات مجموعهداده اي براي آموزش و آزمايش آن فراهم شد. در اين مقاله سعي شد ضمن تبيين ملاحظات يادشده، به تهيه پيكره اي در اين خصوص بپردازيم. پيكره تهيهشده شامل 21/183 كلمه و متوسط طول جملات 40/28 است.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها