عنوان مقاله :
يك روش توزيعشده براي استخراج چندتاييهاي فارسي-انگليسي
پديد آورندگان :
ميرمبين ، سارا دانشگاه يزد - دانشكده مهندسي كامپيوتر , قاسم زاده ، محمد دانشگاه يزد - دانشكده مهندسي كامپيوتر , نظارات ، امين دانشگاه پيام نور يزد - گروه مهندسي كامپيوتر
كليدواژه :
الگوريتم توزيعشده , پيكرههاي متني , ترجمه ماشيني , چندتاييها
چكيده فارسي :
اين پژوهش در حوزه ترجمه ماشيني و در رابطه با استخراج چندتاييها از پيكرههاي دوزبانه به وسيله اسپارك است. در اين رابطه، مهمترين چالش اين است كه عمليات بايستي بر روي پيكرههاي متني بزرگ انجام شود لذا بايستي به صورت توزيعشده و با بهرهگيري از راهكارها و ابزارهاي تحليل دادههاي حجيم، طراحي و پيادهسازي شود. در واقع هنگام ترجمه متون، به وفور با چندتاييهايي مواجه ميشويم كه بايستي چندتاييهاي متناظر با هر كدام را بيابيم و در ترجمهمان درج كنيم، اين كار ميتواند از طريق جستجو در پيكرههايي كه شامل چندتاييها و ترجمه متناظر با آنها است انجام شود. روشهاي موجود، اين كار را به صورت غير توزيعشده انجام ميدهند، لذا ضمن اين كه نياز به زمان زيادي دارند، نميتوانند از پيكرههاي خيلي بزرگ بهره ببرند. براي رفع اين نارسايي، در اين پژوهش يك روش توزيعشده ارائه گرديده كه فاصله بين بخشهاي چندتاييها را نيز لحاظ ميكند. راهحل پيشنهادي به صورت توزيعشده، تمام چندتاييهاي ممكن را از جملات پيكره تكزبانه استخراج نموده و با استفاده از ضريب همبستگي، چندتاييهاي معتبر جداشده را با استفاده از پيكره دوزبانه ترجمه ميكند. روش پيشنهادي روي يك كلاستر محاسباتي با 64 گيگابايت حافظه اصلي و پردازنده 24هستهاي، در محيط اسپارك پيادهسازي گرديد. دادههاي آزمايش شامل پيكرههاي فارسي و انگليسي تكزبانه و نيز پيكره دوزبانه، حاوي به طور متوسط 100 هزار جمله بودند. نتايج آزمايشي نشان ميدهند كه بدين طريق، زمان اجرا به شدت كاهش و كيفيت ترجمه نيز به طور قابل ملاحظهاي بهبود مييابد.
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران