شماره ركورد :
1387514
عنوان مقاله :
ساخت پيكره مقايسه‌اي تخصصي «پارسا»
پديد آورندگان :
علايي ابوذر ، الهام پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك) , حجت‌پناه ، علي اصغر پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك)
از صفحه :
219
تا صفحه :
244
كليدواژه :
پيكره تخصصي , پيكره مقايسه اي , هنجارسازي , واحدسازي , برچسب گذاري
چكيده فارسي :
پيكره ها براساس زبان به‌كاررفته در متن‌هاي تشكيل دهنده‌ آن ها به پيكره هاي تك زبانه، دوزبانه و چندزبانه گروه‌بندي مي شوند. پيكره‌ مقايسه اي، پيكره اي است دوزبانه يا چندزبانه كه شامل متن‌هايي است مشابه در حوزه هاي موضوعي يكسان. با وجود كاربرد فراوان اين نوع پيكره‌ها در پژوهش‌هاي گوناگون همچون پژوهش هاي زباني، ترجمه‌ ماشيني و سامانه‌هاي خودكار بازيابي اطلاعات بينازباني، پژوهشگران همواره با كمبود پيكره‌هاي مقايسه اي مواجه بوده‌اند. در اين مقاله، به معرفي مراحل ساخت يك پيكره‌ مقايسه‌اي تخصصي به نام «پارسا» پرداخته شده‌است. اين پيكره از چكيده هاي فارسي و انگليسي پايان نامه ها و رساله هاي ثبت‌شده در پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك) ساخته شده‌است و شامل بيش از 89 ميليون واژه فارسي و 79 ميليون واژه انگليسي است. محتواي اين پيكره عمومي نيست و مشتمل بر متن‌هاي بسيار تخصصي در حوزه هاي موضوعي كلان مانند علوم اجتماعي، علوم انساني و هنر، فني ومهندسي و رشته هاي مربوط به اين حوزه ها است و ازاين‌جنبه، براي پردازش هاي زباني كه نيازمند بهره گرفتن از متن‌هاي تخصصي است، بسيار ارزشمند است. براي ساخت اين پيكره، پس از نمونه گيري، داده هاي فارسي وارد فرايند پيش پردازش (هنجارسازي و واحدسازي) شدند. براي ارزيابي اين مرحله دقت (P)، فراخوان (R) و F1 سنجيده شد. دقت، 5614035088. 0، فراخوان،   0531561462. 0 و در پايان، F1 09711684370257966. 0 محاسبه شده‌است. سپس، داده ها برچسب‌گذاري شدند (برچسب گذاري اجزاي كلام) و برچسب هاي متون فارسي كنترل شدند. داده هاي انگليسي نيز به‌صورت ماشيني برچسب‌گذاري شدند. شمار واژه‌هاي محتوايي (فعل، اسم، صفت، قيد) داده هاي فارسي اين پيكره 57653813 و شمار واژه هاي دستوري به‌همراه اعداد و علائم سجاوندي 31350125  است و بن واژه هاي فارسي استخراج شده نيز شامل 41064 بن واژه است. شمار واژه هاي محتوايي متون انگليسي 45606686 و شمار واژه هاي دستوري به‌همراه اعداد و علائم سجاوندي شامل 33662304 و بن‌واژه هاي انگليسي استخراج شده نيز شامل 12937 بن واژه است. پيكرۀ ساخته ‎شده قابليت بسيار بالايي براي داده‌كاوي، پژوهش هاي مربوط به ترجمه ماشيني و به‌كارگيري در تمام پژوهش‌هايي كه بر روي متون علمي انجام مي‌شود را دارا است.
عنوان نشريه :
زبان پژوهي
عنوان نشريه :
زبان پژوهي
لينک به اين مدرک :
بازگشت