مرکز منطقه ای اطلاع رساني علوم و فناوري - شناسايي گرامر زبان فارسي با استفاده از تجزيهگر پيشگ

چكيده فارسي :

تجزيه و تركيب نحوي زبانهاي طبيعي يكي از چالشهاي پيشروي پژوهشگران حوزه پردازش زبان طبيعي است كه داراي دو بخش عمده ميباشد. اول ارائه گرامري كه بتواند با تركيب واژگان يك زبان، جملاتي با ساختار نحوي درست بسازد و دوم طراحي تجزيهگري كه با بكارگيري گرامر، منجر به تجزيهي جملات به ساختارهاي نحوي آنها شود. در اين مقاله، ابتدا يك گرامر مستقل از متن براي زبان فارسي ارائه شده كه شامل مجموعهاي از 128 قانون گرامري ميباشد. نمونههايي از اين قوانين در اين مقاله آورده شده است. اين گرامر توليد كنندهي جملات باترتيب و فعل- انتها در زبان فارسي است. سپس يك تجزيهگر پيشگو كه مبتني بر گرامر پيشنهادي ميباشد، ارائه شده است. همراه با تجزيهگر، جدول تجزيهاي ساخته شده است كه به تجزيهي جملات زبان فارسي كمك ميكند. با بكارگيري جدول تجزيه، خطاهاي نحوي جملات فارسي شناسايي مي شوند. رويكرد پيشنهادي مبتني بر متدهاي تجزيه بالا به پايين است و براي كاهش ابهام در تجزيهگر، عمل فاكتورگيري بر روي گرامر اوليه صورت پذيرفته است. در ارزيابي اين گرامر، از جملات برچسبگذاري شدهي پيكرهي وابستگي نحوي زبان فارسي استفاده كردهايم. تجزيهگر پيشنهادي با نرخ پذيرش 71,8% موفق به تجزيه جملات فارسي شده است، كه افزايش نرخ پذيرش، با توسعه گرامر امكانپذير است