عنوان مقاله :
بررسي تكنيكهاي بهبود عملكرد روشهاي بسامدشماري پيكرهبنياد در استخراج خودكار واژگان (مورد مطالعه: واژگان پايه علوم پزشكي)
عنوان به زبان ديگر :
A Study on the Improved Techniques of Corpus-based Frequency Approaches in Automatic Term Extraction (ATE) (The Case Study: Basic Medicine Vocabulary)
پديد آورندگان :
ذوالفقار، زهره دانشگاه پيام نور - گروه زبان شناسي، تهران، ايران , موسوي ميانگاه، طيبه دانشگاه پيام نور - گروه زبان شناسي، تهران، ايران , روشن، بلقيس دانشگاه پيام نور - گروه زبان شناسي، تهران، ايران , وكيلي فرد، اميررضا دانشگاه بين المللي امام خميني قزوين - گروه آموزش زبان فارسي به غيرفارسي زبانان، قزوين، ايران
كليدواژه :
استخراج خودكار , واژگان علوم پزشكي , پيكره , روشهاي تركيبي استخراج , آموزش زبان فارسي , بازيابي اطلاعات
چكيده فارسي :
امروزه، شاهد گسترش استفاده از روشهاي پيكرهبنياد در زبانشناسي هستيم. پژوهش حاضر به بررسي تكنيكهاي بهبود عملكرد روشهاي بسامدشماري در زبان فارسي و با منظور دستيابي به رويه علمي جهت استخراج خودكار واژگان پايه علوم پزشكي انجام پذيرفته است. استفاده از روشهاي آماري در كنار ابزار زبانشناسي پيكرهاي (روشهاي استخراج خودكار تركيبي) جهت استخراج خودكار واژگان در تعدادي از زبانهاي دنيا همچون انگليسي، فرانسه، ژاپني، و كرهاي طي چند دهه اخير بسيار رايج بوده است، حال آنكه اين روشها در زبان فارسي تاكنون بهصورت جدي مورد استفاده قرار نگرفته و اغلب استخراجها در زبان فارسي به روش سنتي انجام گرفته است؛ ضمن آنكه بهكارگيري اين روشها در هر زباني متفاوت است و برونداد روشهاي آماري در هر زمان با توجه به ويژگيهاي زبانشناختي آن زبان متفاوت است. از اين رو، بايد مطابق با ويژگيهاي هر زبان در اين روشها تغييراتي اعمال كرد تا در نهايت، بتوان به روشي جهت استخراج خودكار واژگان دست يافت. جهت نيل به اين هدف در زبان فارسي، از خانواده مدلهاي بسامدشماري با رويكردهاي بسامدشماري پيكره عمومي، بسامدشماري پيكره اختصاصي و روشهاي بهبوديافته آنها استفاده شده است. بسامدشماري بهكاررفته در پژوهش، برپايه پردازش اطلاعات واژگان در دو پيكره اصلي و اختصاصي، كه محقق آن را ايجاد كرده است و از اين پس آن را پيكره محققساخته ميناميم، صورت گرفته است. پيكره محققساخته شامل متون درس زيستشناسي دوره اول تا چهارم دبيرستان، متون درس علوم دوم و سوم راهنمايي، متون تدريسشده در «مركز آموزش زبان فارسي امام خميني قزوين»، مجلات و مقالات حوزه پزشكي عمومي و پيكره عمومي مورد استفاده، پيكره روزنامه همشهري (نسخه دوم) است. نتايج بهدستآمده نشان ميدهد كه قابليت استفاده از روشهاي بسامدشماري پيكرهبنياد در زبان فارسي براي دست يافتن به شيوهاي واحد در استخراج خودكار واژگان وجود دارد. شيوه بهكارگيري روشهاي آماري كلاسيك و مدرن و روشهاي بهبوديافته آنها بهيقين ميتواند گامي مؤثر در تهيه و تدوين متون آموزشي زبان فارسي و گسترش آموزش اين زبان به شمار آيد. از عمدهترين مشكلات استفاده از روشهاي ساده، ميتوان جداسازي واژگان پرتكرار، همچون حروف ربط را نام برد. بنابراين، جهت بالابردن توان اين مدل با اعمال روشهايي ميتوان روشهاي اوليه را بهبود بخشيد. مشاهده ميشود كه روش بسامدشماري بهبوديافته در پيكره اختصاصي از ساير روشها عملكرد بهتري داشته و تا 60 درصد واژگان تخصصي را در 50 واژه پربسامد شناسايي ميكند. از سوي ديگر، مشاهده ميشود كه با افزايش دامنه واژگان مورد بررسي در پژوهش از 50 به 100، 150 و 200، دقت مدلها افزايش يافته و درصد واژگان تخصصي انتخابشده به ثبات ميرسد.
چكيده لاتين :
Nowadays we are witnessing the dramatic growth of utilizing
corpus-based studies in linguistics known as corpus linguistics. The
current research aims to study the improvement of frequency techniques
in Farsi Language and has been conducted in order to achieve a
scientific approach in automatic term extraction focused on extracting
basic medicine terms. Using statistical approaches along with corpus
linguistic tools (hybrid extraction methods) for automatic term extraction
purposes have become quite common in a number of languages such
as English, French, Japanese and Korean. So far, these approaches
have not been utilized in Farsi language widely and most of the efforts
for term extraction have been conducted in traditional ways. On the other
hand, these approaches are language specific and it is not possible to
use them for a different language. They should be modified based on
the properties of the target language in order to achieve an extraction
method which is appropriate for that language. To do so, a group of frequency models with approaches to count frequency in a main corpus and a special corpus
and their improved methods have been utilized. The frequency method used in this study has
counted the terms in a general and a main corpus which is created by the researcher. These
corpuses are formed from the texts in science textbooks of Iran highschools (grades 9-12),
science textbooks of Iran middle schools (grade 7-8), the science texts taught in Qazvin Imam
Khomeini Farsi Language Center and some journals and articles on general science. Achieved
results show that there is a potential possibility to extract terms automatically in Farsi. Among
the major challenges of utilizing the simple methods we can refer to the process of separating
high frequency words such as coordinators or prepositions. Therefore, to increase the power
of this model, we improved the basic models by applying some techniques on them. It is
observed that the improved frequency method has shown a better performance in the special
corpus as opposed to other methods and has been able to predict up to 60% of the special
vocabulary in the first 50 high frequency extracted vocabulary. On the other hand, other results
of the study show that the presence of low frequency vocabulary in the general corpus with a
frequency similar to the frequency of special vocabulary, has led to achieving weaker results
than the simple method.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات