استخراج پيكره موازي از اسناد قابل‌ مقايسه براي بهبود كيفيت ترجمه در سامانه‌هاي ترجمه ماشيني

عنوان فرعي

Extracting parallel corpora from web comparable documents to improve the quality of an English-Farsi translation system

پديد آورندگان

رحيمي، زينب نويسنده دانشگاه كاشان , , ثمني ، محمدحسين نويسنده دانشكده مهندسي كامپيوتر و فناوري اطلاعات، دانشگاه صنعتي اميركبير، تهران، ايران samani, mohamad hossein , خديوي ، شهرام نويسنده دانشكده مهندسي كامپيوتر و فناوري اطلاعات، دانشگاه صنعتي اميركبير، تهران، ايران khadivi, shahram

اطلاعات موجودي

دوفصلنامه سال 1394 شماره 24

رتبه نشريه

علمي پژوهشي

تعداد صفحه

از صفحه

تا صفحه

كليدواژه

ترجمه ماشيني , پيكره موازي , استخراج قطعات موازي , پيكره قابل‌مقايسه

چكيده فارسي

امروزه با گسترش وسايل ارتباط عمومي و به‌خصوص شبكه جهاني اينترنت، نياز به عمليات ترجمه خودكار به‌صورت چشم‌گيري افزايش يافته است. يكي از مطرح‌ترين روش‌هاي ترجمه ماشيني، روش آماري است. پارامترهاي سامانه1 ترجمه ماشيني آماري با استفاده از مجموعه بزرگي از دادگان آموزشي (پيكره موازي دوزبانه) تخمين زده مي‌شود؛ اما در برخي زبان‌ها، هنوز مساله نياز پايه‌اي سامانه ترجمه ماشيني آماري يعني پيكره‌هاي متني بزرگ موازي برطرف نشده است. براي رفع اين مشكل روشي پيشنهادي جهت بهبود كيفيت پيكره‌هاي مستخرج از اسناد قابل‌مقايسه و درنتيجه بهبود كيفيت سامانه ترجمه ماشيني ارايه شده است. از آنجايي كه در اكثر متون قابل‌مقايسه داده‌هاي موازي نه به‌صورت جمله، بلكه به‌صورت قطعات زيرجمله‌اي ظاهر مي‌شوند، روش پيشنهادي سعي در استخراج قطعات موازي به‌صورت بلوك با استفاده از مجموعه‌اي از ويژگي‌ها دارد كه اين ويژگي‌ها عبارت‌اند از طول عبارت، امتياز شباهت لگاريتمي، شيب مسير ترازبندي در بلوك، پراكندگي شيب قطعات تشكيل‌دهنده بلوك، مربعي‌بودن بلوك و درصد حضور كلمات هم‌ترجمه در بلوك. طبق ارزيابي‌هاي انجام‌شده روش پيشنهادي كارايي مناسبي دارد؛ و علاوه‌بر اينكه از نظر دقت و بازخواني از روش‌هاي موجود استخراج قطعه پيشي گرفته است، دادگان مستخرج از اجراي اين روش روي، بخشي از پيكره قابل‌مقايسه موجود، كارايي سامانه ترجمه ماشيني پايه را براي دادگان آزمون مختلف از 33/0 تا 4/1 واحد بلو افزايش داده است.

چكيده لاتين

Today, with the proliferation of media, especially the internet, need for automated translation process has increased noticeably . One of the most famous machine translation methods is statistical method. Parameters of statistical machine translation system are estimated using a large scale training data set (bilingual parallel corpora). but in many languages, basic need for statistical machine translation systems -large scale parallel text - is still unsolved. To resolve this problem, the proposed method is presented for improving the quality of extracted comparable corpora and thus to improve the quality of machine translation systems. We believe that very non-parallel corpora have none or few good sentence pairs; most of their parallel data exists at the sub-sentential level. So proposed system is implemented based on extracting fragment blocks from input related sentences using score calculated from special features such as fragment length, LLR score, relevance path specification in the block and translation coverage percent. According to evaluations, proposed method has very good performance. Not only it outperforms existing methods of fragment extraction in terms of precision and recall, but also adding extracted database to existing data, improved the performance of the basic machine translation system, ranging from 0.33 to 1.4 in Belu metric.

سال انتشار

1394

عنوان نشريه

پردازش علائم و داده ها

عنوان نشريه

پردازش علائم و داده ها

اطلاعات موجودي

دوفصلنامه با شماره پیاپی 24 سال 1394

كلمات كليدي

#تست#آزمون###امتحان

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=769271