عنوان مقاله :
مجموعهداده چندسطحي فارسي براي بازيابي اطلاعات
پديد آورندگان :
عابدزاده ، علي دانشگاه اصفهان كامپيوتر؛ دانشگاه اصفهان. - دانشكده مهندسي كامپيوتر , رمضاني ، رضا دانشگاه اصفهان - دانشكده مهندسي كامپيوتر , فاطمي ، افسانه دانشگاه اصفهان مهندسي كامپيوتر؛ دانشگاه اصفهان. - دانشكده مهندسي كامپيوتر
كليدواژه :
بازيابي اطلاعات , مدلهاي زبان , مجموعهداده بازيابي اطلاعات , مجموعهداده فارسي
چكيده فارسي :
هر سامانه بازيابي اطلاعات وظيفه دارد با دريافت يك پُرسه، اسناد مرتبط با آن پُرسه را بازيابي كند. اين بازيابي از ميان مجموعهاي بزرگ از هزاران تا ميليونها سند انجام ميشود. در سالهاي اخير، پژوهشهاي زيادي براي توسعه سامانههاي بازيابي اطلاعات با استفاده از مدلهاي زبان انجام شده است؛ اما در اين زمينه، پژوهشي براي زبان فارسي يافت نشد. يكي از علتهاي اصلي اين امر، نبودِ يك مجموعهداده فارسي مناسب براي آموزش مدلهاي زبان است. در اين پژوهش، ابتدا يك مجموعهداده بازيابي اطلاعات فارسي ارائه شده و پس از آن، روشهايي براي غنيسازي اين مجموعهداده مورد بحث قرار گرفته است. اين غنيسازي با كمك چندسطحي كردن ارتباط ميان پُرسه و سند انجام ميشود؛ به نحوي كه مجموعهداده جديد ميتواند رابطه بين پُرسه و سند را بهجاي دو سطح (كاملاً نامرتبط، كاملاً مرتبط) در چهار سطح (نامرتبط، مرتبط، بسيار مرتبط، و كاملاً مرتبط) نشان دهد. مجموعهداده ايجادشده PersianMLIR نام دارد. آزمايشها بيانگر بهبود عملكرد سامانه، هم براي زبان فارسي و هم براي زبان انگليسي است و اين ميزان بهبود براي زبان فارسي 1.87 درصد است.
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات
عنوان نشريه :
پژوهش نامه پردازش و مديريت اطلاعات