عنوان مقاله :
ساخت پيكره مقايسهاي تخصصي «پارسا»
پديد آورندگان :
علايي ابوذر ، الهام پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك) , حجتپناه ، علي اصغر پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك)
كليدواژه :
پيكره تخصصي , پيكره مقايسه اي , هنجارسازي , واحدسازي , برچسب گذاري
چكيده فارسي :
پيكره ها براساس زبان بهكاررفته در متنهاي تشكيل دهنده آن ها به پيكره هاي تك زبانه، دوزبانه و چندزبانه گروهبندي مي شوند. پيكره مقايسه اي، پيكره اي است دوزبانه يا چندزبانه كه شامل متنهايي است مشابه در حوزه هاي موضوعي يكسان. با وجود كاربرد فراوان اين نوع پيكرهها در پژوهشهاي گوناگون همچون پژوهش هاي زباني، ترجمه ماشيني و سامانههاي خودكار بازيابي اطلاعات بينازباني، پژوهشگران همواره با كمبود پيكرههاي مقايسه اي مواجه بودهاند. در اين مقاله، به معرفي مراحل ساخت يك پيكره مقايسهاي تخصصي به نام «پارسا» پرداخته شدهاست. اين پيكره از چكيده هاي فارسي و انگليسي پايان نامه ها و رساله هاي ثبتشده در پژوهشگاه علوم و فناوري اطلاعات ايران (ايرانداك) ساخته شدهاست و شامل بيش از 89 ميليون واژه فارسي و 79 ميليون واژه انگليسي است. محتواي اين پيكره عمومي نيست و مشتمل بر متنهاي بسيار تخصصي در حوزه هاي موضوعي كلان مانند علوم اجتماعي، علوم انساني و هنر، فني ومهندسي و رشته هاي مربوط به اين حوزه ها است و ازاينجنبه، براي پردازش هاي زباني كه نيازمند بهره گرفتن از متنهاي تخصصي است، بسيار ارزشمند است. براي ساخت اين پيكره، پس از نمونه گيري، داده هاي فارسي وارد فرايند پيش پردازش (هنجارسازي و واحدسازي) شدند. براي ارزيابي اين مرحله دقت (P)، فراخوان (R) و F1 سنجيده شد. دقت، 5614035088. 0، فراخوان، 0531561462. 0 و در پايان، F1 09711684370257966. 0 محاسبه شدهاست. سپس، داده ها برچسبگذاري شدند (برچسب گذاري اجزاي كلام) و برچسب هاي متون فارسي كنترل شدند. داده هاي انگليسي نيز بهصورت ماشيني برچسبگذاري شدند. شمار واژههاي محتوايي (فعل، اسم، صفت، قيد) داده هاي فارسي اين پيكره 57653813 و شمار واژه هاي دستوري بههمراه اعداد و علائم سجاوندي 31350125 است و بن واژه هاي فارسي استخراج شده نيز شامل 41064 بن واژه است. شمار واژه هاي محتوايي متون انگليسي 45606686 و شمار واژه هاي دستوري بههمراه اعداد و علائم سجاوندي شامل 33662304 و بنواژه هاي انگليسي استخراج شده نيز شامل 12937 بن واژه است. پيكرۀ ساخته شده قابليت بسيار بالايي براي دادهكاوي، پژوهش هاي مربوط به ترجمه ماشيني و بهكارگيري در تمام پژوهشهايي كه بر روي متون علمي انجام ميشود را دارا است.