شماره ركورد كنفرانس :
4726
عنوان مقاله :
روشي توزيعپذير جهت يافتن عبارات معادل بينزباني در بستر دادههاي حجيم
پديدآورندگان :
هاشمي سيد علي alihashemi@stu.yazd.ac.ir دانشگاه يزد , زارع چاهوكي محمدعلي chahooki@yazd.ac.ir دانشگاه يزد , قاسمزاده محمد m.ghasemzadeh@yazd.ac.ir دانشگاه يزد , نظارات امين aminnezarat@gmail.com دانشگاه آزاد اسلامي يزد
كليدواژه :
بازيابي اطلاعات دوزبانه , دادههاي حجيم , ترجمه ماشيني
عنوان كنفرانس :
چهارمين كنفرانس ملي محاسبات توزيعي و پردازش داده هاي بزرگ
چكيده فارسي :
متون منتشرشده در اينترنت به زبانهاي مختلف نوشتهشدهاند. در حال حاضر توانايي سيستمهاي بازيابي اطلاعات براي جستجوي اطلاعات بينزباني ضعيف است. يكي از بزرگترين موانع اين كار، عدم تطبيق لفظبهلفظ كلمات در زبانهاي مختلف است. به عبارت ديگر ممكن است دو عبارت در دو زبان مختلف هممعني باشند ولي هيچ شباهت تحتاللفظياي نداشتهباشند. در اين مقاله با كمك پيكرههاي يكزبانه و دوزبانه، عبارات معادل در زبانهاي انگليسي و فارسي شناسايي ميشوند. روش ارائهشده قابليت توزيعپذيري دارد. با افزايش حجم پيكرهها بدون افت كارايي كيفيت خروجي بهبود خواهديافت. آزمايش و بررسي اصطلاحات معادل در دادههايي از متون فارسي، انگليسي و تركيبي كه هر متن معادل آن در زبان ديگر نيز وجود دارد، بيانگر دقّت مناسب اين روش است. اين روش به زبان اسكالا پيادهسازيشده و قابلتعميم به زبانهاي ديگر است.