شماره ركورد :
1069232
عنوان مقاله :
استخراج خودكار جملات هم‌تراز انگليسي-فارسي از متون مقايسه‌اي با بهره‌برداري از اطلاعات نحوي
عنوان به زبان ديگر :
Extracting Parallel English/Persian Sentences from Comparable Corpora using Syntactic Information
پديد آورندگان :
متوليان، رضوان دانشگاه اصفهان - گروه زبانشناسي , منجمي، اميرحسين دانشگاه اصفهان - گروه كامپيوتر , قدس اللهي، ابراهيم دانشگاه اصفهان
تعداد صفحه :
22
از صفحه :
15
تا صفحه :
36
كليدواژه :
استخراج خودكار , جملات همتراز , زبانشناسي پيكره‌اي , پيكره مقايسه‌اي , پيكره موازي
چكيده فارسي :
پيكره‌هاي موازي همواره از غني‌ترين منابع در مباحث پردازش زبان طبيعي محسوب مي‌شوند. اين نوع پيكره‌ها شامل متون ترجمه‌شدۀ دو يا چند زبان هستند كه در سطوح مختلف كلمه، عبارت و يا جمله هم‌ترازشده‌اند. عليرغم كاربرد فراوان اين نوع پيكره‌ها در مطالعات مختلف از جمله پژوهش­هاي زباني، ترجمة ماشيني آماري و سامانه‌هاي خودكار بازيابي اطلاعات ميان زباني، متأسفانه همواره پژوهشگران با كمبود پيكره‌هاي موازي مواجه بوده‌اند. در اين راستا، در پژوهش حاضر سعي شده است به‌منظور توليد پيكره موازي با بهره‌گيري از اطلاعات نحوي، روشي خودكار براي استخراج جملات هم‌ترازانگليسي/فارسي از متون مقايسه‌اي ارائه شود. در اين روش، با ساخت بردار ويژگي با بهره‌گيري از اطلاعات نحوي جملات، يك مدل هم‌ترازي آموزش داده مي‌شود. دقت مدل هم‌ترازي،در بهترين حالت، به شكل عملياتي روي داده‌هاي آزمون (208 عدد جفت جمله) 77% و روي داده‌هاي آموزشي (830 عدد جفت جمله) 97/7 % محاسبه شد. از آنجايي كه حجم داده‌هاي طلايي بسيار كوچك بود روش n-fold cross validation در مورد تمام الگوريتم‌هاي آموزش مورد استفاده قرار گرفت. به‌منظور افزايش دقت، از يك الگوريتم جست‌وجوي شباهت لغوي جملات نيز استفاده شد كه دقت را روي داده‌هاي آزمون از 77% به 85/18% افزايش داد. پژوهش حاضر، با به‌كارگيري مدل هم‌ترازي به‌دست‌آمده، به توليد ابزار هم‌ترازي دانشگاه اصفهان منجر شد، كه مي‌تواند به‌منظور خودكفايي در توليد پيكره‌هاي موازي مورد استفاده محققين حوزه پردازش زبان فارسي قرار گيرد.
چكيده لاتين :
Parallel corpora have always been considered among the richest resources in the field of natural language processing. These corpora include translated texts from two or more languages that are usually aligned at the different levels of word, clause, or sentence. Notwithstanding the many uses of these corpora in different studies such as linguistic researches, statistical machine translation, and cross language information retrieval; unfortunately parallel corpora have always been rare and limited in number and quality.. Accordingly, in this paper an automatic method for extracting parallel sentences from comparable resources is introduced which exploits syntactic information. In this method, by using syntactic information of the sentences, an alignment model is trained. The highest practical accuracy of the alignment model on the test set (208 pairs of sentences) was measured to be 77% and the highest precision on the training set (830 pairs of sentences) was 97.7%. Considering the tiny size of the golden corpora, n-fold cross validation technique was used in all training algorithms. To attain higher precision, a new similarity search algorithm was implemented which increased the practical accuracy on the test set from77% to 85.15%. The final outcome of this research was an alignment toolkit and framework which was named "Isfahan University Parallel Corpus Framework" or IPCF, which can be used by the researchers in the field of computational processing of Persian language to construct standard parallel corpora.
سال انتشار :
1397
عنوان نشريه :
پژوهش هاي زبان شناسي
فايل PDF :
7606795
عنوان نشريه :
پژوهش هاي زبان شناسي
لينک به اين مدرک :
بازگشت