مرکز منطقه ای اطلاع رساني علوم و فناوري - مجموعه‌داده چندسطحي فارسي براي بازيابي اطلاعات

شماره ركورد :

1394920

عنوان مقاله :

مجموعه‌داده چندسطحي فارسي براي بازيابي اطلاعات

پديد آورندگان :

عابدزاده ، علي دانشگاه اصفهان كامپيوتر؛ دانشگاه اصفهان. - دانشكده مهندسي كامپيوتر , رمضاني ، رضا دانشگاه اصفهان - دانشكده مهندسي كامپيوتر , فاطمي ، افسانه دانشگاه اصفهان مهندسي كامپيوتر؛ دانشگاه اصفهان. - دانشكده مهندسي كامپيوتر

از صفحه :

1109

تا صفحه :

1137

كليدواژه :

بازيابي اطلاعات , مدل‌هاي زبان , مجموعه‌داده بازيابي اطلاعات , مجموعه‌داده فارسي

چكيده فارسي :

هر سامانه‌ بازيابي اطلاعات وظيفه دارد با دريافت يك پُرسه، اسناد مرتبط با آن پُرسه را بازيابي كند. اين بازيابي از ميان مجموعه‌اي بزرگ از هزاران تا ميليون‌ها سند انجام مي‌شود. در سال‌هاي اخير، پژوهش‌هاي زيادي براي توسعه‌ سامانه‌هاي بازيابي اطلاعات با استفاده از مدل‌هاي زبان انجام شده است؛ اما در اين زمينه، پژوهشي براي زبان فارسي يافت نشد. يكي از علت‌هاي اصلي اين امر، نبودِ يك مجموعه‌داده‌ فارسي مناسب براي آموزش مدل‌هاي زبان است. در اين پژوهش، ابتدا يك مجموعه‌داده‌ بازيابي اطلاعات فارسي ارائه شده و پس از آن، روش‌هايي براي غني‌سازي اين مجموعه‌داده مورد بحث قرار گرفته است. اين غني‌سازي با كمك چندسطحي كردن ارتباط ميان پُرسه و سند انجام مي‌شود؛ به ‌نحوي كه مجموعه‌داده‌ جديد مي‌تواند رابطه بين پُرسه و سند را به‌جاي دو سطح (كاملاً نامرتبط، كاملاً مرتبط) در چهار سطح (نامرتبط، مرتبط، بسيار مرتبط، و كاملاً مرتبط) نشان دهد. مجموعه‌داده ايجادشده PersianMLIR نام دارد. آزمايش‌ها بيانگر بهبود عملكرد سامانه، هم براي زبان فارسي و هم براي زبان انگليسي است و اين ميزان بهبود براي زبان فارسي‌ 1.87 درصد است.

عنوان نشريه :

پژوهش نامه پردازش و مديريت اطلاعات

عنوان نشريه :

پژوهش نامه پردازش و مديريت اطلاعات

لينک به اين مدرک :

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1394920