شماره ركورد كنفرانس :
3237
عنوان مقاله :
تنوع نگارشي در زبان فارسي و تهيه خودكار دادگان املايي از پيكره زباني مبتني بر وب
پديدآورندگان :
قيومي مسعود دانشگاه آزاد برلين , شريفي ساغر دانشگاه آزاد اسلامي - دانشكده زبان هاي خارجي , سناعتي مرضيه سازمان ميراث فرهنگي، صنايع دستي و گردشگري
كليدواژه :
پردازش خودكار زبان فارسي , زبان شناسي پيكره اي , پيكره مبتني بر وب , فاصله لونشتاين , تنوع نگارشي , دادگان , طبقه بندي
عنوان كنفرانس :
كنفرانس بين المللي وب پژوهي
چكيده فارسي :
در عصر اطلاعات و ارتباطات، وب جايگاه ويزه اي پيدا كرده است، چرا كه با كاربران بسيار متنوعي در تعامل بوده و مي توان از آن به عنوان يك منبع اطلاعاتي غني زباني استفاده كرد. تهيه پيكره مبتني بر وب مي تواند براي پردازش هاي زباني منبع مناسبي باشد. ولي استفاده از اين منبع ساده نيست. از آنجا كه كاربران مختلفي موجب خلق متن در وب مي شوند، برخورد با پديده تنوع نگارشي اجتناب ناپذير خواهد بود. در اين مقاله، به بررسي اين پديده در پيكره زباني حاصل از وب براي زبان فارسي مي پردازيم و با معرفي يك الگوريتم تلاش مي كنيم تنوع نگارشي واژه ها را به طور خودكار استخراج كرده و بر اساس آن، دادگاني براي تنوع نگارشي واژه هاي فارسي تهيه كنيم. سپس با طبقه بندي تنوع نگارشي مي پردازيم. اين دادگان مي تواند براي اتخاذ شيوه هاي آموزش زبان فارسي به غير فارسي زبانان و يا در زبان شناسي پيكره اي و پردازش زبان طبيعي مورد استفاده قرار گيرد.