• شماره ركورد
    1352392
  • عنوان مقاله

    مقايسه عملكرد رويكردهاي كشف و استخراج موضوعات كتاب‌هاي الكترونيكي

  • پديد آورندگان

    زرمهر ، فاطمه دانشگاه اصفهان , منصوري ، علي دانشگاه اصفهان - دانشكده علوم تربيتي و روان‌شناسي - گروه علم اطلاعات و دانش شناس , كارشناس ، جسين دانشگاه اصفهان - دانشكده مهندسي كامپيوتر - گروه هوش مصنوعي

  • از صفحه
    1369
  • تا صفحه
    1393
  • كليدواژه
    كتاب الكترونيك , استخراج , كليدواژه‌هاي موضوعي , متن‌كاوي , مدل‌سازي موضوعي
  • چكيده فارسي
    استخراج كلمات كليدي از مسائل مهم در زمينه پردازش و تحليل متن بوده و خلاصه‌اي سطح بالا و دقيق از متن ارائه مي‌دهد. بنابراين، انتخاب روش مناسب براي استخراج كلمات كليدي متن حائز اهميت است. هدف پژوهش حاضر، مقايسه عملكرد سه رويكرد دركشف و استخراج كليدواژه‌هاي موضوعي كتاب‌هاي الكترونيك با استفاده از تكنيك‌هاي متن‌كاوي و يادگيري ماشين است. در اين راستا سه رويكرد آزمايشي شامل، 1) اجراي متوالي فرايند خوشه‌بندي، ارتقاي كيفيت خوشه‌ها از نظر معنايي و غني‌سازي كلمات توقف حوزه خاص، 2) استفاده از الگوي كليدواژه‌هاي تخصصي، 3) استفاده از بخش‌هاي مهم متن در كشف و استخراج واژگان كليدي و موضوعات مهم متن معرفي و مقايسه شده است. جامعه آماري شامل 1000 عنوان كتاب الكترونيك از زيرشاخه‌هاي موضوعي حوزه علم اطلاعات و دانش‌شناسي بر اساس نظام رده‌بندي كنگره است كه بعد از كسب اطلاعات كتابشناختي آن از پايگاه كتابخانه كنگره، اقدام به تهيه متن اصلي گرديد. استخراج كليدواژه‌هاي موضوعي و خوشه‌بندي داده‌هاي آموزش به ‌كمك الگوريتم تجزيه نامنفي ماتريس و با سه رويكرد آزمايشي انجام شد و كيفيت و عملكرد خوشه‌هاي موضوعي حاصل از اجراي سه رويكرد در بخش دسته‌بندي خودكار داده‌هاي آزمايشي به ‌كمك ماشين بردار پشتيبان مقايسه شد. يافته‌ها نشان داد كه افت همينگ (0/020) يا ميزان خطا در دسته‌بندي صحيح متون آزمايشي در رويكرد سوم يعني بهره‌گيري از بخش‌هاي مهم متن در استخراج كليدواژه‌هاي موضوعي، از دو رويكرد ديگر كمتر است. همچنين امتيازF1  (0/82) كه ميانگين دو معيار دقت (0/87) و بازخواني (0/78) و بازتابي از عملكرد درست فرايند دسته‌بندي در برچسب‌گذاري موضوعي متون است، در رويكرد سوم بهتر از نتايج دو رويكرد ديگر است. نتايج تحليل‌ها نشان داد كه كيفيت و انسجام معنايي خوشه‌هاي موضوعي حاصل از رويكرد سوم، يعني استفاده از بخش‌هاي مهم متن در كشف و استخراج موضوع، در مقايسه با دو رويكرد ديگر بهتر بود. افزون ‌بر اين، كليدواژه‌هاي به‌دست‌آمده از خوشه‌هاي موضوعي رويكرد سوم را مي‌توان در مجموعه‌هاي توصيف‌نشده و ناشناخته به‌منظور استخراج محتواي موضوعي ناآشكار كل مجموعه به‌كار برد.
  • عنوان نشريه
    پژوهش نامه پردازش و مديريت اطلاعات
  • عنوان نشريه
    پژوهش نامه پردازش و مديريت اطلاعات