شماره ركورد :
1320796
عنوان مقاله :
توليد پيكره برچسب‌خورده واحدساز زبان فارسي با درنظر‌گرفتن ملاحظات زبان‌شناسي رايانشي آن
پديد آورندگان :
فرهودي ، مژگان پژوهشگاه ارتباطات و فناوري اطلاعات , محمودي ، مريم پژوهشگاه ارتباطات و فناوري اطلاعات , داودي شمسي ، مونا پژوهشگاه ارتباطات و فناوري اطلاعات
از صفحه :
175
تا صفحه :
188
كليدواژه :
پيكره واحدساز زبان فارسي , پردازش زبان فارسي , زبان‌شناسي رايانشي
چكيده فارسي :
متون نگاشته‌شده فارسي به‌طورمعمول دو مشكل ساده، ولي مهم دارند. مشكل نخست واژه‌هاي چندواحدي هستند كه از اتصال يك واژه به واژه ‌هاي بعدي حاصل مي شوند. مشكل ديگر واحدهاي چندواژه اي هستند كه از جداشدگي واژه‌ هايي كه با هم يك واحد واژگاني را تشكيل مي‌ دهند، حاصل مي‌شوند. ابزار واحدساز در زبان فارسي كه به‌عنوان يكي از ابزارهاي پيش پردازش زبان است، كاربرد فراواني در تجزيه و تحليل متون داشته و بايد بتواند واحدهاي واژگاني را تشخيص دهد. به عبارتي، اين ابزار، مركز كلمات را در متون تشخيص داده و آن را به دنباله اي از كلمات به‌منظور تحليل هاي بعدي تبديل مي‌ كند. تنوع در رسم‎‌الخط فارسي و عدم رعايت قوانين جدانويسي و پيوسته‌نويسي كلمات از يك‌سو و پيچيدگي‌هاي واژگاني زبان فارسي از سويي ديگر فرايندهاي مختلف پردازشي زبان از جمله واحدسازي را با چالش‌‌هاي بسياري روبه‌رو مي‌كند؛ لذا براي عملكرد بهينه اين ابزار، لازم است ابتدا ملاحظات زبان‌شناسي رايانشي واحدسازي در زبان فارسي مشخص و سپس بر اساس اين ملاحظات مجموعه‌داده اي براي آموزش و آزمايش آن فراهم شد. در اين مقاله سعي شد ضمن تبيين ملاحظات ياد‌شده، به تهيه پيكره اي در اين خصوص بپردازيم. پيكره تهيه‌شده شامل 21/183 كلمه و متوسط طول جملات 40/28 است.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
لينک به اين مدرک :
بازگشت