عنوان مقاله :
ارائه يك سامانه ترجمه ماشيني تركيبي بر پايه رمزگشاي يكنوا
عنوان به زبان ديگر :
A Hybrid Machine Translation System Based on a Monotone Decoder
پديد آورندگان :
خاتمي، حسين دانشگاه تهران - دانشكدۀ مهندسي برق و كامپيوتر - پرديس دانشكده هاي فني , فدايي، حكيمه دانشگاه تهران - دانشكدۀ مهندسي برق و كامپيوتر - پرديس دانشكده هاي فني , فيلي، هشام دانشگاه تهران - دانشكدۀ مهندسي برق و كامپيوتر - پرديس دانشكده هاي فني
كليدواژه :
مترجم ماشين , معماري تركيبي , رمزگشاي يكنوا , ترتيب كلمات ترجمه , انتخاب لغات
چكيده فارسي :
در اين مقاله يك مترجم خودكار متون انگليسي به فارسي با استفاده از معماري تركيبي قاعدهمند و آماري ارائه شده است. اين معماري تركيبي بهمنظور بهبود نتايج هر دو مترجم، خروجي مترجم ماشيني قاعدهمند و آماري را تركيب كرده و سعي ميكند يك خروجي برتر از هر دو سامانه ايجاد كند. در اين راستا از يك رمزگشاي يكنوا با پيچيدگي زماني چندجملهاي استفاده ميشود. مترجمهاي ماشيني قاعدهمند عمل ترجمه را بر اساس مجموعهاي از قواعد زباني انجام ميدهند. بهطور معمول نتايج آنها از نظر ترتيب كلمات و ساختار نحوي، كيفيت بهتري نسبت به نتايج مترجمهاي آماري دارند؛ ولي عملكرد اين مترجمها در زمينه انتخاب لغات مناسب و رواني ترجمه، ضعيفتر از مترجمهاي ماشيني آماري است. ازاينرو در اين معماري، ترجمه اوليه بهوسيله مترجم ماشيني قاعدهمند صورت ميگيرد؛ سپس با استفاده از مترجم ماشيني آماري ترجمه آن بهبود داده ميشود. به اين منظور، ترتيب واژگان در ترجمه نهايي بر اساس ترجمه مترجم ماشيني قاعدهمند صورت ميگيرد؛ سپس عمل ترجمه و انتخاب لغات توسط رمزگشاي يكنوا، با درنظرگرفتن ترجمههاي نامزدهاي ارائهشده توسط مترجم قاعدهمند و آماري و همچنين با استفاده از مدل زباني، انجام ميشود. آزمايشهاي انجامشده نشان ميدهند كه كيفيت نتايج بهدستآمده از معماري تركيبي در معيار بلو، بهطورتقريبي پنج واحد بهتر از نتايج مترجم ماشيني قاعدهمند است. همچنين كيفيت اين نتايج نسبت به نتايج مترجم ماشيني آماري در معيار بلو، يك واحد بهتر است.
چكيده لاتين :
In this paper, a hybrid Machine Translation (MT) system is proposed by combining the result of a rule-based machine translation (RBMT) system with a statistical approach. The RBMT uses a set of linguistic rules for translation, which leads to better translation results in terms of word ordering and syntactic structure. On the other hand, SMT works better in lexical choice. Therefore, in our system, an initial translation is generated using RBMT. Then the proper lexical for the resulted sentence is chosen by using a decoder algorithm which is inspired by SMT architecture.
In the pure SMT approach, decoder is responsible for selecting proper final lexical during the translation procedure. Normally this method deals with lexical choice as well as reordering and required exponential order in time complexity. By fixing the word order in the output, a polynomial version of this method, named monotone decoding, is used in this paper. Monotone decoder algorithm selects the best lexical from a candidate list by maximizing the language model of resulted sentence. The candidate list is gathered from the outputs of both pure RBMT and pure SMT systems.
The experiments of proposed hybrid method on English-Persian language pair show significant improvements over both RBMT and SMT results. The results show that the proposed hybrid method gains an improvement of almost +5 units over RBMT and about one unit over SMT in BLEU score.
عنوان نشريه :
پردازش علائم و داده ها