شماره ركورد
1141457
عنوان مقاله
گسترش پرسوجو با سرپرستي ضعيف با استفاده از شبكه سيامي عميق حافظه كوتاه-مدت طولاني
عنوان به زبان ديگر
Weakly Supervised Query Expansion using Deep Siamese LSTM
پديد آورندگان
كاوه يزدي، فاطمه دانشگاه يزد - گروه مهندسي كامپيوتر، يزد، ايران , زارع بيدكي، علي محمد دانشگاه يزد - گروه مهندسي كامپيوتر، يزد، ايران
تعداد صفحه
12
از صفحه
813
تا صفحه
824
كليدواژه
بازيابي اطلاعات , گسترش پرس وجو , جداسازي كلمات , وابستگي معنايي , وابستگي ارتباطي , شبكه سيامي عميق , سلول حافظه كوتاه-مدت طولاني
چكيده فارسي
عدمهمخواني واژگان مهمترين چالش پيش روي سيستمهاي بازيابي اطلاعات از وب هستند. عدمهمخواني واژگاني به تفاوتهاي موجود بين پرسوجوهاي كاربران و محتواي اسناد وب در حالي اطلاق ميگردد كه هر دو به يك موضوع واحد اشاره دارند. روشهاي گسترش پرسوجو براي رويارويي با مشكل عدمهمخواني واژگاني، پرسوجوي كاربر را بازآرايي مينمايند تا بدينوسيله همپوشاني بين عبارتهاي موجود در پرسوجو و اسناد را افزايش دهند. در اين مقاله يك چهارچوب گسترش پرسوجوي مبتني بر شبكه سيامي عميق حافظه كوتاه-مدت طولاني ارائه شده است. به علاوه، براي نخستين بار وابستگي ارتباطي در اين مقاله تعريف شده و براي برچسبگذاري جفتهاي متشكل از پرسوجوي كاربر و پرسوجوي جايگزين مورد استفاده قرار گرفته است. شبكه سيامي آموزش داده شده با استفاده از جفتهاي برچسبگذاري شده با نظارت ضعيف، علاوه بر ارائه برچسب براي جفتهاي ورودي، هزينه همسنجي آنها را نيز محاسبه نموده و اعلام ميكند. پس از برچسبگذاري، جفتهاي با كمترين هزينه همسنجي انتخاب و در هم ادغام ميشوند تا به يك پرسوجوي گسترش يافته تبديل شوند. نتايج آزمايشات نشاندهنده برتري روش پيشنهادي بر ساير روشهاي مشابه گسترش پرسوجوي مبتني بر جاسازي كلمات بوده است.
چكيده لاتين
Term mismatch is the most important challege in web information retrieval. The term mismatch problem is defined as differences between user queries and contents of documents while referring to the same topic. Query expansion methods deal with term mismatch by reformulating the queries to increase their term-overlap with relevant documents. In this paper, we proposed a query expansion framework based on a deep Siamese LSTM neural network. In addition, we defined the relevant relatedness for the first time and used this concept to label pairs made from user query and candidate query. Weakly-supervised labeled pairs are utilized in training of the deep Siamese network. The trained Siamese network provides labels for testset pairs in addition to contrastive loss values. The contrastive loss value reflects the cost of pulling together similar pairs. Pairs with minimum contrastive loss values are selected and merged together to form one expanded query. Results of our tests showed that the proposed framework outperforms similar word embedding based query expansion methods.
سال انتشار
1399
عنوان نشريه
مهندسي برق دانشگاه تبريز
فايل PDF
8113612
لينک به اين مدرک