عنوان مقاله :
استخراج پيكره موازي از اسناد قابل مقايسه براي بهبود كيفيت ترجمه در سامانههاي ترجمه ماشيني
عنوان فرعي :
Extracting parallel corpora from web comparable documents to improve the quality of an English-Farsi translation system
پديد آورندگان :
رحيمي، زينب نويسنده دانشگاه كاشان , , ثمني ، محمدحسين نويسنده دانشكده مهندسي كامپيوتر و فناوري اطلاعات، دانشگاه صنعتي اميركبير، تهران، ايران samani, mohamad hossein , خديوي ، شهرام نويسنده دانشكده مهندسي كامپيوتر و فناوري اطلاعات، دانشگاه صنعتي اميركبير، تهران، ايران khadivi, shahram
اطلاعات موجودي :
دوفصلنامه سال 1394 شماره 24
كليدواژه :
ترجمه ماشيني , پيكره موازي , استخراج قطعات موازي , پيكره قابلمقايسه
چكيده فارسي :
امروزه با گسترش وسايل ارتباط عمومي و بهخصوص شبكه جهاني اينترنت، نياز به عمليات ترجمه خودكار بهصورت چشمگيري افزايش يافته است. يكي از مطرحترين روشهاي ترجمه ماشيني، روش آماري است. پارامترهاي سامانه1 ترجمه ماشيني آماري با استفاده از مجموعه بزرگي از دادگان آموزشي (پيكره موازي دوزبانه) تخمين زده ميشود؛ اما در برخي زبانها، هنوز مساله نياز پايهاي سامانه ترجمه ماشيني آماري يعني پيكرههاي متني بزرگ موازي برطرف نشده است. براي رفع اين مشكل روشي پيشنهادي جهت بهبود كيفيت پيكرههاي مستخرج از اسناد قابلمقايسه و درنتيجه بهبود كيفيت سامانه ترجمه ماشيني ارايه شده است. از آنجايي كه در اكثر متون قابلمقايسه دادههاي موازي نه بهصورت جمله، بلكه بهصورت قطعات زيرجملهاي ظاهر ميشوند، روش پيشنهادي سعي در استخراج قطعات موازي بهصورت بلوك با استفاده از مجموعهاي از ويژگيها دارد كه اين ويژگيها عبارتاند از طول عبارت، امتياز شباهت لگاريتمي، شيب مسير ترازبندي در بلوك، پراكندگي شيب قطعات تشكيلدهنده بلوك، مربعيبودن بلوك و درصد حضور كلمات همترجمه در بلوك. طبق ارزيابيهاي انجامشده روش پيشنهادي كارايي مناسبي دارد؛ و علاوهبر اينكه از نظر دقت و بازخواني از روشهاي موجود استخراج قطعه پيشي گرفته است، دادگان مستخرج از اجراي اين روش روي، بخشي از پيكره قابلمقايسه موجود، كارايي سامانه ترجمه ماشيني پايه را براي دادگان آزمون مختلف از 33/0 تا 4/1 واحد بلو افزايش داده است.
چكيده لاتين :
Today, with the proliferation of media, especially the internet, need for automated translation process has increased noticeably . One of the most famous machine translation methods is statistical method. Parameters of statistical machine translation system are estimated using a large scale training data set (bilingual parallel corpora). but in many languages, basic need for statistical machine translation systems -large scale parallel text - is still unsolved.
To resolve this problem, the proposed method is presented for improving the quality of extracted comparable corpora and thus to improve the quality of machine translation systems.
We believe that very non-parallel corpora have none or few good sentence pairs; most of their parallel data exists at the sub-sentential level. So proposed system is implemented based on extracting fragment blocks from input related sentences using score calculated from special features such as fragment length, LLR score, relevance path specification in the block and translation coverage percent.
According to evaluations, proposed method has very good performance. Not only it outperforms existing methods of fragment extraction in terms of precision and recall, but also adding extracted database to existing data, improved the performance of the basic machine translation system, ranging from 0.33 to 1.4 in Belu metric.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها
اطلاعات موجودي :
دوفصلنامه با شماره پیاپی 24 سال 1394
كلمات كليدي :
#تست#آزمون###امتحان