شماره ركورد :
971824
عنوان مقاله :
طبقه بندي انواع دادگان موردنياز و روش هاي خطايابي و استانداردسازي متني
عنوان به زبان ديگر :
Categorization of Various Essential Datasets and Methods for Textual Spelling Detection and Normalization
پديد آورندگان :
حسيني بهشتي، ملوك السادات ايرانداك , عبدي قويدل، هادي دانشگاه صنعتي شريف
تعداد صفحه :
28
از صفحه :
1143
تا صفحه :
1170
كليدواژه :
تشخيص خطاهاي املايي , استانداردسازي نويسه ها , طبقه بندي روش ها , سامانه هاي تك زبانه ي فارسي , چالش هاي زبان فارسي
چكيده فارسي :
يكي از پايه اي ترين مراحل پردازش خودكار متن، تشخيص خطاهاي املايي و استانداردسازي نويسه ها است. بدون گذر از اين مرحله، ذخيره سازي مستندات متني با مشكلات متعددي مواجه مي شود كه اين امر موجب اختلال در بازيابي ماشيني آنها مي گردد. بدين ترتيب، متخصصين حوزه هاي پردازش زبان طبيعي و زبان شناسي رايانشي همواره در تلاش هستند تا با ارائه ي روش ها و الگوريتم هاي مطلوب انواع داده ها را در بوته ي پردازش قرار داده تا به داده ي استاندارد دست يابند. در زبان انگليسي و برخي زبانهاي ديگر، تحقيقات متعددي در اين زمينه انجام شده است كه به دنبال آن زبان فارسي نيز در اين زمينه مورد تحقيق قرار گرفته است. اين تحقيقات متعدد گاها در حد پژوهش به قوت خود باقي مانده و گاها در قالب محصول عرضه شده است. مقاله ي حاضر به طبقه بندي انواع روش ها و دادگان موردنياز در اين تحقيقات متعدد پرداخته و فرايند هركدام از آنها را به طور خاص و نحوه ي سنجش ميزان دقت پردازش آنها را به طور عام شرح مي دهد. اين مقاله همچنين نحوه ي عملكرد سامانه هاي تك زبانه ي فارسي را توصيف نموده و به نحوه ي برخورد آنها با چالش هاي زبان فارسي اشاره مي كند.
چكيده لاتين :
One of the most primary phases of automatic text processing is spelling error detection and grapheme normalization. Storing textual documents faces several problems without passing this phase، which causes a disturbance in retrieving the documents automatically. Therefore، specialists in the fields of natural language processing and computational linguistics usually make an attempt to sample various data through presenting ideal methods and algorithms in order to reach the normalized data. Several researches have been conducted on English and some other languages، which have been followed by a certain amount of researches on Farsi too. Sometimes، these several researches have remained to be a pure study and sometimes they have been released as a product. This paper carries out the categorization of the different methods and essential datasets in these researches and depicts each category individually and the evaluation measurements methods generally. Moreover، it describes the performance of the monolingual Farsi systems and the way they meet the Farsi challenges.
سال انتشار :
1396
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
فايل PDF :
3682728
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
لينک به اين مدرک :
بازگشت