عنوان مقاله :
مدل ترجمه عبارت-مرزي با استفاده از برچسبهاي كمعمق نحوي
عنوان به زبان ديگر :
Phrase-Boundary Translation Model Using Shallow Syntactic Labels
پديد آورندگان :
سلامي، شهرام دانشگاه شهيد بهشتي، تهران - دانشكده مهندسي و علوم كامپيوتر , شمس فرد، مهرنوش دانشگاه شهيد بهشتي، تهران - دانشكده مهندسي و علوم كامپيوتر
كليدواژه :
ترجمه ماشيني آماري , مدل سلسله مراتبي , برچسب كلمه , برچسب قطعه
چكيده فارسي :
مدل عبارت-مرزي براي ترجمه ماشيني آماري، قواعد را با طبقه كلمات مرزي عبارات پيكره مقصد برچسب ميزند. در اين مقاله مدل عبارت-مرزي را با استفاده از برچسبهاي كمعمق نحوي شامل برچسب POS و برچسب قطعات توسعه ميدهيم. با اولويت برچسب قطعات، مدل پيشنهادي، غيرپايانهها را با برچسبهاي كمعمق نحوي در مرز عبارات مقصد نامگذاري ميكند. در قياس با مدل SAMT كه قواعد را با درخت تجزيه نحوي جملات مقصد برچسب ميزند، مدل پيشنهادي به تجزيه عميق نحوي نياز ندارد. همچنين، هرچه تفاوت ترتيب كلمات زبان مبداء و مقصد ترجمه بيشتر باشد، عبارات ترازشده قابل انطباق با درخت تجزيه نحوي، كمتر خواهد بود. تعدادي آزمايش در ترجمه از فارسي و آلماني به انگليسي بهعنوان جفتزبانهايي با تفاوت زياد در ترتيب كلمات انجام شد. در اين آزمايشها، مدل عبارت-مرزي پيشنهادي نسبت به مدل SAMT در حدود 0/5 واحد BLEU كيفيت ترجمه بهتري بهدست آورد.
چكيده لاتين :
Phrase-boundary model for statistical machine translation labels the rules with classes of boundary words on the target side phrases of training corpus. In this paper, we extend the phrase-boundary model using shallow syntactic labels including POS tags and chunk labels. With the priority of chunk labels, the proposed model names non-terminals with shallow syntactic labels on the boundaries of the target side phrases. In comparison to the base phrase-boundary model, our variant uses phrase labels in addition to word classes. In other words, if there is no chunk label in one boundary, the labeler uses the word POS tag. The boundary labels are concatenated where there is no label for the whole target span. Using chunks as phrase labels, the proposed model generalizes the rules to decrease the model sparseness. The sparseness has more importance in the language pairs with a lot of differences in the word order because they have less number of aligned phrase pairs for extraction of rules. Compared with Syntax Augmented Machine Translation (SAMT) that labels rules with the syntax trees of the target side sentences, the proposed model does not need deep syntactic parsing. Thus, it is applicable even for low-resource languages having no syntactic parser. Some translation experiments are performed from Persian and German to English as the source and target languages with different word orders. In the experiments, our model achieved improvements of about 0.5 point of BLEU over a variant of SAMT.
عنوان نشريه :
پردازش علائم و داده ها
عنوان نشريه :
پردازش علائم و داده ها