عنوان مقاله :
استخراج خودكار جملات همتراز انگليسي-فارسي از متون مقايسهاي با بهرهبرداري از اطلاعات نحوي
عنوان به زبان ديگر :
Extracting Parallel English/Persian Sentences from Comparable Corpora using Syntactic Information
پديد آورندگان :
متوليان، رضوان دانشگاه اصفهان - گروه زبانشناسي , منجمي، اميرحسين دانشگاه اصفهان - گروه كامپيوتر , قدس اللهي، ابراهيم دانشگاه اصفهان
كليدواژه :
استخراج خودكار , جملات همتراز , زبانشناسي پيكرهاي , پيكره مقايسهاي , پيكره موازي
چكيده فارسي :
پيكرههاي موازي همواره از غنيترين منابع در مباحث پردازش زبان طبيعي محسوب ميشوند. اين نوع پيكرهها شامل متون ترجمهشدۀ دو يا چند زبان هستند كه در سطوح مختلف كلمه، عبارت و يا جمله همترازشدهاند. عليرغم كاربرد فراوان اين نوع پيكرهها در مطالعات مختلف از جمله پژوهشهاي زباني، ترجمة ماشيني آماري و سامانههاي خودكار بازيابي اطلاعات ميان زباني، متأسفانه همواره پژوهشگران با كمبود پيكرههاي موازي مواجه بودهاند. در اين راستا، در پژوهش حاضر سعي شده است بهمنظور توليد پيكره موازي با بهرهگيري از اطلاعات نحوي، روشي خودكار براي استخراج جملات همترازانگليسي/فارسي از متون مقايسهاي ارائه شود. در اين روش، با ساخت بردار ويژگي با بهرهگيري از اطلاعات نحوي جملات، يك مدل همترازي آموزش داده ميشود. دقت مدل همترازي،در بهترين حالت، به شكل عملياتي روي دادههاي آزمون (208 عدد جفت جمله) 77% و روي دادههاي آموزشي (830 عدد جفت جمله) 97/7 % محاسبه شد. از آنجايي كه حجم دادههاي طلايي بسيار كوچك بود روش n-fold cross validation در مورد تمام الگوريتمهاي آموزش مورد استفاده قرار گرفت. بهمنظور افزايش دقت، از يك الگوريتم جستوجوي شباهت لغوي جملات نيز استفاده شد كه دقت را روي دادههاي آزمون از 77% به 85/18% افزايش داد. پژوهش حاضر، با بهكارگيري مدل همترازي بهدستآمده، به توليد ابزار همترازي دانشگاه اصفهان منجر شد، كه ميتواند بهمنظور خودكفايي در توليد پيكرههاي موازي مورد استفاده محققين حوزه پردازش زبان فارسي قرار گيرد.
چكيده لاتين :
Parallel corpora have always been considered among the richest resources in the field of natural language processing. These corpora include translated texts from two or more languages that are usually aligned at the different levels of word, clause, or sentence. Notwithstanding the many uses of these corpora in different studies such as linguistic researches, statistical machine translation, and cross language information retrieval; unfortunately parallel corpora have always been rare and limited in number and quality.. Accordingly, in this paper an automatic method for extracting parallel sentences from comparable resources is introduced which exploits syntactic information. In this method, by using syntactic information of the sentences, an alignment model is trained. The highest practical accuracy of the alignment model on the test set (208 pairs of sentences) was measured to be 77% and the highest precision on the training set (830 pairs of sentences) was 97.7%. Considering the tiny size of the golden corpora, n-fold cross validation technique was used in all training algorithms. To attain higher precision, a new similarity search algorithm was implemented which increased the practical accuracy on the test set from77% to 85.15%. The final outcome of this research was an alignment toolkit and framework which was named "Isfahan University Parallel Corpus Framework" or IPCF, which can be used by the researchers in the field of computational processing of Persian language to construct standard parallel corpora.
عنوان نشريه :
پژوهش هاي زبان شناسي
عنوان نشريه :
پژوهش هاي زبان شناسي