شماره ركورد كنفرانس :
2139
عنوان مقاله :
مجموه داده هاي بر خط حروف تنهاي كردي و فارسي
پديدآورندگان :
فتوحي بشير نويسنده , كبير احسان اله نويسنده
كليدواژه :
برخط , مجموعه داده , بازشناسي , مجموعه داده هاي برخط- , كردي
عنوان كنفرانس :
نخستين كنفرانس بين المللي پردازش خط و زبان فارسي
چكيده فارسي :
در این مقاله دو مجموعه داده بر خط حروف الفای كردی و فارسی ارائه می شود. تاكنون هیچ مجموعه داده مناسبی برای نوشتار كردی ارائه نشده است. این مقاله مجموعه داده ای 100 نفره با تنوع بالا برای حروف كردی و مجموعه داده ای 200 نفره برای حروف فارسی در اختیار قرار می دهد. در آینده تعداد مجموعه نخست نیز به 200 افزایش خواهد یافت. این مجموعه داده ها دارای نرخ نمونه برداری بالا و تنوع سنی- جنسی مناسب هستند. تفاوت دیگر این مجموعه ها با موارد پیشین، استفاده از سیستم پایش و جمع آوری داده Labview است منجر به مشاهده دقیق تر داده های معیوب و حذف آنها شده است. در كنار موارد فوق، استفاده از سیستم های مدرن نوشتاری منجر به ساخت مجموعه داده ای دقیق تر و طبیعی تر شده است. این دو مجموعه داده نخستین گام كارآمد در راستای ایجاد سیستم های بازشناسی بر خط نوشتار كردی و فارسی خواهند بود. محاسبات آماری بر روی این دو مجموعه داده اطلاعات مناسبی را مانند درصد به كارگیری نوع خاصی از نقطه گذاری، جهت نوشتن و تشابه گروه حروف با بدنه یكسان در اختیار قرار می دهد.
شماره مدرك كنفرانس :
4474716