شماره ركورد
1312525
عنوان مقاله
ارائه روشي براي استخراج اطلاعات ساختاريافته محدود به دامنه از صفحات وب فارسي
پديد آورندگان
امامي ، حجت دانشگاه بناب - دانشكده فني و مهندسي - گروه مهندسي كامپيوتر
از صفحه
133
تا صفحه
146
كليدواژه
وبكاوي , استخراج اطلاعات , پردازش زبان طبيعي , آنتولوژي , اطلاعات ساختاريافته محدود به دامنه
چكيده فارسي
استخراج اطلاعات ساختاريافته از متون وب يكي از وظايف اصلي در حوزه وبكاوي، پردازش زبان طبيعي و استخراج اطلاعات است. در سالهاي اخير، روشهاي مختلفي براي استخراج اطلاعات ساختاريافته از متون انگليسي وب ارائه شده است. اغلب روشهاي موجود براي استخراج اطلاعات در مورد انواع موجوديتها، به يك آنتولوژي از پيش تعريفشده نياز دارند كه شامل دانش كامل در مورد موجوديتها و خصلتهاي آنها است. مشكل اصلي اين روشها عدم توانايي آنها در استخراج اطلاعات موجوديتهايي است كه مشخصات آنها از قبل در آنتولوژي تعريف نشدهاند. در اين پژوهش، روش جديدي براي استخراج خودكار اطلاعات ساختاريافته محدود به دامنه از متون فارسي صفحات وب ارائه شده است كه نيازي به دانش پيشزمينه در مورد موجوديتها و خصلتهاي آنها ندارد. روش پيشنهادي شامل سه مؤلفه پيشپردازش، تحليل معنايي و نگاشت قاب است. تمركز اصلي روش پيشنهادي به افزودن اطلاعات معنايي به گزارههاي مسندآرگومان و استخراج اطلاعات معنادار و محدود به دامنه از گزارهها معطوف شده است. اطلاعات استخراجشده در اين روش، هم ساختاريافته بوده و هم به مدخلهاي آنتولوژي عمومي DBPedia نگاشت شدهاند، بهنحويكه پردازش آنها بهوسيله ماشين به سهولت انجام ميشود. براي ارزيابي روش پيشنهادي، يك مجموعهداده كوچك در زبان فارسي ايجاد شده است و روش پيشنهادي و ساير روشها بر روي اين مجموعهداده مورد ارزيابي قرار گرفتهاند. نتايج آزمايشها برتري روش پيشنهادي را در مقايسه با ساير روشها برحسب برخي از معيارهاي كارايي نشان ميدهد.
عنوان نشريه
پردازش علائم و داده ها
عنوان نشريه
پردازش علائم و داده ها
لينک به اين مدرک