شماره ركورد
1352392
عنوان مقاله
مقايسه عملكرد رويكردهاي كشف و استخراج موضوعات كتابهاي الكترونيكي
پديد آورندگان
زرمهر ، فاطمه دانشگاه اصفهان , منصوري ، علي دانشگاه اصفهان - دانشكده علوم تربيتي و روانشناسي - گروه علم اطلاعات و دانش شناس , كارشناس ، جسين دانشگاه اصفهان - دانشكده مهندسي كامپيوتر - گروه هوش مصنوعي
از صفحه
1369
تا صفحه
1393
كليدواژه
كتاب الكترونيك , استخراج , كليدواژههاي موضوعي , متنكاوي , مدلسازي موضوعي
چكيده فارسي
استخراج كلمات كليدي از مسائل مهم در زمينه پردازش و تحليل متن بوده و خلاصهاي سطح بالا و دقيق از متن ارائه ميدهد. بنابراين، انتخاب روش مناسب براي استخراج كلمات كليدي متن حائز اهميت است. هدف پژوهش حاضر، مقايسه عملكرد سه رويكرد دركشف و استخراج كليدواژههاي موضوعي كتابهاي الكترونيك با استفاده از تكنيكهاي متنكاوي و يادگيري ماشين است. در اين راستا سه رويكرد آزمايشي شامل، 1) اجراي متوالي فرايند خوشهبندي، ارتقاي كيفيت خوشهها از نظر معنايي و غنيسازي كلمات توقف حوزه خاص، 2) استفاده از الگوي كليدواژههاي تخصصي، 3) استفاده از بخشهاي مهم متن در كشف و استخراج واژگان كليدي و موضوعات مهم متن معرفي و مقايسه شده است. جامعه آماري شامل 1000 عنوان كتاب الكترونيك از زيرشاخههاي موضوعي حوزه علم اطلاعات و دانششناسي بر اساس نظام ردهبندي كنگره است كه بعد از كسب اطلاعات كتابشناختي آن از پايگاه كتابخانه كنگره، اقدام به تهيه متن اصلي گرديد. استخراج كليدواژههاي موضوعي و خوشهبندي دادههاي آموزش به كمك الگوريتم تجزيه نامنفي ماتريس و با سه رويكرد آزمايشي انجام شد و كيفيت و عملكرد خوشههاي موضوعي حاصل از اجراي سه رويكرد در بخش دستهبندي خودكار دادههاي آزمايشي به كمك ماشين بردار پشتيبان مقايسه شد. يافتهها نشان داد كه افت همينگ (0/020) يا ميزان خطا در دستهبندي صحيح متون آزمايشي در رويكرد سوم يعني بهرهگيري از بخشهاي مهم متن در استخراج كليدواژههاي موضوعي، از دو رويكرد ديگر كمتر است. همچنين امتيازF1 (0/82) كه ميانگين دو معيار دقت (0/87) و بازخواني (0/78) و بازتابي از عملكرد درست فرايند دستهبندي در برچسبگذاري موضوعي متون است، در رويكرد سوم بهتر از نتايج دو رويكرد ديگر است. نتايج تحليلها نشان داد كه كيفيت و انسجام معنايي خوشههاي موضوعي حاصل از رويكرد سوم، يعني استفاده از بخشهاي مهم متن در كشف و استخراج موضوع، در مقايسه با دو رويكرد ديگر بهتر بود. افزون بر اين، كليدواژههاي بهدستآمده از خوشههاي موضوعي رويكرد سوم را ميتوان در مجموعههاي توصيفنشده و ناشناخته بهمنظور استخراج محتواي موضوعي ناآشكار كل مجموعه بهكار برد.
عنوان نشريه
پژوهش نامه پردازش و مديريت اطلاعات
عنوان نشريه
پژوهش نامه پردازش و مديريت اطلاعات
لينک به اين مدرک