شماره ركورد :
1193354
عنوان مقاله :
بررسي تكنيكهاي بهبود عملكرد روشهاي بسامدشماري پيكرهبنياد در استخراج خودكار واژگان (مورد مطالعه: واژگان پايه علوم پزشكي)
عنوان به زبان ديگر :
A Study on the Improved Techniques of Corpus-based Frequency Approaches in Automatic Term Extraction (ATE) (The Case Study: Basic Medicine Vocabulary)
پديد آورندگان :
ذوالفقار، زهره دانشگاه پيام نور - گروه زبان شناسي، تهران، ايران , موسوي ميانگاه، طيبه دانشگاه پيام نور - گروه زبان شناسي، تهران، ايران , روشن، بلقيس دانشگاه پيام نور - گروه زبان شناسي، تهران، ايران , وكيلي فرد، اميررضا دانشگاه بين المللي امام خميني قزوين - گروه آموزش زبان فارسي به غيرفارسي زبانان، قزوين، ايران
تعداد صفحه :
26
از صفحه :
1039
از صفحه (ادامه) :
0
تا صفحه :
1064
تا صفحه(ادامه) :
0
كليدواژه :
استخراج خودكار , واژگان علوم پزشكي , پيكره , روشهاي تركيبي استخراج , آموزش زبان فارسي , بازيابي اطلاعات
چكيده فارسي :
امروزه، شاهد گسترش استفاده از روش‌هاي پيكره‌بنياد در زبان‌شناسي هستيم. پژوهش حاضر به بررسي تكنيك‌هاي بهبود عملكرد روش‌هاي بسامدشماري در زبان فارسي و با منظور دستيابي به رويه علمي جهت استخراج خودكار واژگان پايه علوم پزشكي انجام پذيرفته است. استفاده از روش‌هاي آماري در كنار ابزار زبان‌شناسي پيكره‌اي (روش‌هاي استخراج خودكار تركيبي‌) جهت استخراج خودكار واژگان در تعدادي از زبان‌هاي دنيا همچون انگليسي، فرانسه، ژاپني، و كره‌اي طي چند دهه اخير بسيار رايج بوده است، حال آن‌كه اين روش‌ها در زبان فارسي تاكنون به‌صورت جدي مورد استفاده قرار نگرفته‌ و اغلب استخراج‌ها در زبان فارسي به‌ روش سنتي انجام گرفته است؛ ضمن آن‌كه به‌كارگيري اين روش‌ها در هر زباني متفاوت است و برون‌داد روش‌هاي آماري در هر زمان با توجه به ويژگي‌هاي زبان‌شناختي آن زبان متفاوت است. از اين رو، بايد مطابق با ويژگي‌هاي هر زبان در اين روش‌ها تغييراتي اعمال كرد تا در نهايت، بتوان به‌ روشي جهت استخراج خودكار واژگان دست يافت. جهت نيل به اين هدف در زبان فارسي، از خانواده مدل‌هاي بسامدشماري با رويكردهاي بسامدشماري پيكره عمومي، بسامدشماري پيكره اختصاصي و روش‌هاي بهبوديافته آن‌ها استفاده شده است. بسامدشماري به‌كاررفته در پژوهش، برپايه پردازش اطلاعات واژگان در دو پيكره اصلي و اختصاصي، كه محقق آن را ايجاد كرده است و از اين پس آن را پيكره محقق‌ساخته مي‌ناميم، صورت گرفته است. پيكره محقق‌ساخته شامل متون درس زيست‌شناسي دوره اول تا چهارم دبيرستان، متون درس علوم دوم و سوم راهنمايي، متون تدريس‌شده در «مركز آموزش زبان فارسي امام خميني قزوين»، مجلات و مقالات حوزه پزشكي عمومي و پيكره عمومي مورد استفاده، پيكره روزنامه همشهري (نسخه دوم) است. نتايج به‌دست‌آمده نشان مي‌دهد كه قابليت استفاده از روش‌هاي بسامدشماري پيكره‌بنياد در زبان فارسي براي دست يافتن به شيوه‌اي واحد در استخراج خودكار واژگان‌ وجود دارد. شيوه به‌كار‌گيري روش‌هاي آماري كلاسيك و مدرن و روش‌هاي بهبوديافته آن‌ها به‌يقين مي‌تواند گامي مؤثر در تهيه و تدوين متون آموزشي زبان فارسي و گسترش آموزش اين زبان به شمار آيد. از عمده‌ترين مشكلات استفاده از روش‌هاي ساده، مي‌توان جداسازي واژگان پرتكرار، همچون حروف ربط را نام برد. بنابراين، جهت بالابردن توان اين مدل با اعمال روش‌هايي مي‌توان روش‌هاي اوليه را بهبود بخشيد. مشاهده مي‌شود كه روش بسامدشماري بهبوديافته در پيكره اختصاصي از ساير روش‌ها عملكرد بهتري داشته و تا 60 درصد واژگان تخصصي را در 50 واژه پربسامد شناسايي مي‌كند. از سوي ديگر، مشاهده مي‌شود كه با افزايش دامنه واژگان مورد بررسي در پژوهش از 50 به 100، 150 و 200، دقت مدل‌ها افزايش يافته و درصد واژگان تخصصي انتخاب‌شده به ثبات مي‌رسد.
چكيده لاتين :
Nowadays we are witnessing the dramatic growth of utilizing corpus-based studies in linguistics known as corpus linguistics. The current research aims to study the improvement of frequency techniques in Farsi Language and has been conducted in order to achieve a scientific approach in automatic term extraction focused on extracting basic medicine terms. Using statistical approaches along with corpus linguistic tools (hybrid extraction methods) for automatic term extraction purposes have become quite common in a number of languages such as English, French, Japanese and Korean. So far, these approaches have not been utilized in Farsi language widely and most of the efforts for term extraction have been conducted in traditional ways. On the other hand, these approaches are language specific and it is not possible to use them for a different language. They should be modified based on the properties of the target language in order to achieve an extraction method which is appropriate for that language. To do so, a group of frequency models with approaches to count frequency in a main corpus and a special corpus and their improved methods have been utilized. The frequency method used in this study has counted the terms in a general and a main corpus which is created by the researcher. These corpuses are formed from the texts in science textbooks of Iran highschools (grades 9-12), science textbooks of Iran middle schools (grade 7-8), the science texts taught in Qazvin Imam Khomeini Farsi Language Center and some journals and articles on general science. Achieved results show that there is a potential possibility to extract terms automatically in Farsi. Among the major challenges of utilizing the simple methods we can refer to the process of separating high frequency words such as coordinators or prepositions. Therefore, to increase the power of this model, we improved the basic models by applying some techniques on them. It is observed that the improved frequency method has shown a better performance in the special corpus as opposed to other methods and has been able to predict up to 60% of the special vocabulary in the first 50 high frequency extracted vocabulary. On the other hand, other results of the study show that the presence of low frequency vocabulary in the general corpus with a frequency similar to the frequency of special vocabulary, has led to achieving weaker results than the simple method.
سال انتشار :
1399
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
فايل PDF :
8261670
لينک به اين مدرک :
بازگشت