شماره ركورد كنفرانس :
922
عنوان مقاله :
تنوعﻉ تنوع نگارشي در زبان فارسي و تهيه خودكار دادگان املايي از پيكره زباني مبتني بر وب
پديدآورندگان :
قيومي مسعود نويسنده , شريفي ساغر نويسنده دانشجوي دكتري/مترجمي زبان انگليسي , صناعتي مرضيه نويسنده پژوهشگاه سازمان ميراث فرهنگي، صنايع دستي و گردشگري
كليدواژه :
پردازش خوداكار زبان فارسي , زبان شناسي پيكره اي , پيكره مبتني بر وب , فاصله لونشتاين , تنوع نگارشي , دادگان , طبقه بندي
عنوان كنفرانس :
مجموعه مقالات اولين كنفرانس بين المللي وب پژوهي
چكيده فارسي :
در عصر اطلاعات و ارتباطات، وب جایگاه ویزه ای پیدا كرده است، چرا كه با كاربران بسیار متنوعی در تعامل بوده و می توان از آن به عنوان یك منبع اطلاعاتی غنی زبانی استفاده كرد. تهیه پیكره مبتنی بر وب می تواند برای پردازش های زبانی منبع مناسبی باشد. ولی استفاده از این منبع ساده نیست. از آنجا كه كاربران مختلفی موجب خلق متن در وب می شوند، برخورد با پدیده تنوع نگارشی اجتناب ناپذیر خواهد بود. در این مقاله، به بررسی این پدیده در پیكره زبانی حاصل از وب برای زبان فارسی می پردازیم و با معرفی یك الگوریتم تلاش می كنیم تنوع نگارشی واژه ها را به طور خودكار استخراج كرده و بر اساس آن، دادگانی برای تنوع نگارشی واژه های فارسی تهیه كنیم. سپس با طبقه بندی تنوع نگارشی می پردازیم. این دادگان می تواند برای اتخاذ شیوه های آموزش زبان فارسی به غیر فارسی زبانان و یا در زبان شناسی پیكره ای و پردازش زبان طبیعی مورد استفاده قرار گیرد.
شماره مدرك كنفرانس :
3967648