عنوان مقاله :
ارائه روشي براي استخراج خودكار عبارات كليدي از اخبار وب پارسي
عنوان به زبان ديگر :
A Method for Automatic Key phrase Extraction from Persian Web News
پديد آورندگان :
باسره، مريم دانشگاه يزد - دانشكده مهندسي كامپيوتر پرديس فني و مهندسي , درهمي، ولي دانشگاه يزد - دانشكده مهندسي كامپيوتر پرديس فني و مهندسي , ظريف زاده، سجاد دانشگاه يزد - دانشكده مهندسي كامپيوتر پرديس فني و مهندسي
كليدواژه :
اسناد خبري , شيوههاي آماري , يادگيري با ناظر , متنكاوي , بازيابي اطلاعات , استخراج عبارات كليدي
چكيده فارسي :
دادگان متني و از آن جمله متون خبري از حوزههاي مهم بازيابي اطلاعات به شمار ميرود و استخراج اطلاعات از آنها ضروري است. اين امر با استخراج عبارات كليدي اسناد كه دربردارنده محتواي اصلي متن است، صورت ميگيرد. در اين پژوهش، راهكاري سه مرحلهاي جهت استخراج عبارات كليدي از صفحات خبري وب پارسي، با تركيب شيوههاي زبانشناختي، يادگيري با ناظر، ابتكاري و تعداد نسبتاً جامعي از شيوههاي آماري ارائه ميشود. همچنين، يك مجموعه داده خبري و ليستي از عبارات توقفي خبري ايجاد ميگردد. در پژوهش حاضر، با توجه به ويژگيهاي دادگان، از دستهبند جنگل تصادفي استفاده و عملكرد خوب آن به كمك نتايج آزمايشها ثابت ميشود. به علاوه، استفاده از امتياز تعلقگرفته به عبارات توسط دستهبند، جهت ايجاد ليستي مرتب از عبارات براي دستهبندي، به جاي استفاده ازخروجي دستهبند، پيشنهاد ميشود. نتايج، نشاندهنده دقت قابلقبول سيستم ارائهشده است.
چكيده لاتين :
Text documents, especially news, are one of the important information retrieval fields which are necessary to extract information. This job, is done by extracting key phrases which include the main context of the news. In this research, a three level approach combining lingual, supervised learning, heuristic, and a relatively comprehensive number of statistical approaches, is suggested for key phrase extraction from Persian news web pages. A news dataset and a stop word list are generated. In this research, according to the data characteristics, Random Forest classifier is used; and its good performance is proved through experiments. Furthermore, using scores given by classifier to phrases, to build an ordered list of phrases, for classification, instead of using the classifier output, is suggested. Results show an acceptable f-measure.
عنوان نشريه :
مهندسي برق دانشگاه تبريز
عنوان نشريه :
مهندسي برق دانشگاه تبريز