عنوان :
پارسي ست: توليد مجموعه ي ابزار تجزيه كننده ي جمله به واژه و پيكره ي مجموعه واژگان مبهم براي زبان فارسي
شرح پديد آور/مجري (مجريان) طرح :
دستغيب، محمدباقر
چكيده فارسي :
زبان فارسي يكي از زبان هاي دنيا است كه نظام نوشتاري آن الفبايي است كه از زبان عربي برگرفته شده است.
حدود يك درصد جمعيت جهان فارسي زبان هستند و همين امر، انجام تحقيقات زبانشناسي در اين حوزه در
سطح ملي و فرا ملي را بسيار با اهميت مي سازد. انجام پژوهش در حوزه ي زبانشناسي رايانشي در حوزه ي هر
زبان، نيازمند ابزار و منابع زباني (پيكره ها) است. بنابراين تهيه ابزارها و پيكره ها از جمله پيشنيازهاي پژوهش در
حوزه ي زبانشناسي رايانه اي است. در اين راستا در اين پژوهش مجموعه ي پارسي ست كه شامل تجزيه كننده ي
جمله به واژه و پيكره ي مجموعه ي ابهام واژگان فارسي است، توليد شده است. پيكرهي مجموعه ي ابهام براي هر
واژه ي صحيح فارسي، شامل مجموعه ي واژگان صحيح فارسي در فاصله ي ويرايشي يك نسبت به آن واژه است.
اين مجموعه ي ارزشمند مي تواند در شناسايي نوري نويسه ها، تصحيح و غلط يابي متون فارسي و تبديل گفتار به
متن مورد استفاده قرار گيرد. محصول ديگر پارسي ست، تجزيه كننده است كه وظيفه ي آن تجزيه ي جمله به واژه
به روش تركيبي است. اين تجزيه كننده همچنين با كمك روش مبتني بر دانش، نيم فاصله را نيز اصلاح مي نمايد.
كليدواژه :
پارسي ست , تجزيه كننده متن , روش مبتني بر دانش , پيكره ي مجموعه ي ابهام
اطلاعات نشر :
شيراز مركز منطقه اي اطلاع رساني علوم و فناوري
مشخصات ظاهري :
جدول، نمودار