شماره ركورد :
1142660
عنوان مقاله :
يك روش توزيع‌شده براي استخراج چندتايي‎هاي فارسي-انگليسي
پديد آورندگان :
ميرمبين ، سارا دانشگاه يزد - دانشكده مهندسي كامپيوتر , قاسم زاده ، محمد دانشگاه يزد - دانشكده مهندسي كامپيوتر , نظارات ، امين دانشگاه پيام نور يزد - گروه مهندسي كامپيوتر
تعداد صفحه :
7
از صفحه :
42
تا صفحه :
48
كليدواژه :
الگوريتم توزيع‌شده , پيكره‌هاي متني , ترجمه ماشيني , چندتايي‎ها
چكيده فارسي :
اين پژوهش در حوزه ترجمه ماشيني و در رابطه با استخراج چندتايي‌ها از پيكره‌هاي دوزبانه به وسيله اسپارك است. در اين رابطه، مهم‌ترين چالش اين است كه عمليات بايستي بر روي پيكره‌هاي متني بزرگ انجام شود لذا بايستي به صورت توزيع‌شده و با بهره‌گيري از راهكارها و ابزارهاي تحليل داده‌هاي حجيم، طراحي و پياده‌سازي شود. در واقع هنگام ترجمه متون، به وفور با چندتايي‌هايي مواجه مي‌شويم كه بايستي چندتايي‌هاي متناظر با هر كدام را بيابيم و در ترجمه‌مان درج كنيم، اين كار مي‌تواند از طريق جستجو در پيكره‌هايي كه شامل چندتايي‌ها و ترجمه متناظر با آنها است انجام شود. روش‌هاي موجود، اين كار را به صورت غير توزيع‌شده انجام مي‌دهند، لذا ضمن اين كه نياز به زمان زيادي دارند، نمي‌توانند از پيكره‌هاي خيلي بزرگ بهره ببرند. براي رفع اين نارسايي، در اين پژوهش يك روش توزيع‌شده ارائه گرديده كه فاصله بين بخش‌هاي چندتايي‌ها را نيز لحاظ مي‌كند. راه‌حل پيشنهادي به صورت توزيع‌شده، تمام چندتايي‌هاي ممكن را از جملات پيكره تك‌زبانه استخراج نموده و با استفاده از ضريب همبستگي، چندتايي‌هاي معتبر جداشده را با استفاده از پيكره دوزبانه ترجمه مي‌كند. روش پيشنهادي روي يك كلاستر محاسباتي با 64 گيگابايت حافظه اصلي و پردازنده 24هسته‌اي، در محيط اسپارك پياده‌سازي گرديد. داده‌هاي آزمايش شامل پيكره‌هاي فارسي و انگليسي تك‌زبانه و نيز پيكره دوزبانه، حاوي به‌ طور متوسط 100 هزار جمله بودند. نتايج آزمايشي نشان مي‌دهند كه بدين طريق، زمان اجرا به شدت كاهش و كيفيت ترجمه نيز به طور قابل ملاحظه‌اي بهبود مي‌يابد.
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
لينک به اين مدرک :
بازگشت