شماره ركورد :
1002972
عنوان مقاله :
ارائه روشي براي استخراج خودكار عبارات كليدي از اخبار وب پارسي
عنوان به زبان ديگر :
A Method for Automatic Key phrase Extraction from Persian Web News
پديد آورندگان :
باسره، مريم دانشگاه يزد - دانشكده مهندسي كامپيوتر پرديس فني و مهندسي , درهمي، ولي دانشگاه يزد - دانشكده مهندسي كامپيوتر پرديس فني و مهندسي , ظريف زاده، سجاد دانشگاه يزد - دانشكده مهندسي كامپيوتر پرديس فني و مهندسي
تعداد صفحه :
10
از صفحه :
857
تا صفحه :
866
كليدواژه :
اسناد خبري , شيوه‌هاي آماري , يادگيري با ناظر , متن‌كاوي , بازيابي اطلاعات , استخراج عبارات كليدي
چكيده فارسي :
دادگان متني و از آن جمله متون خبري از حوزه‌هاي مهم بازيابي اطلاعات به شمار مي‌رود و استخراج اطلاعات از آن‌ها ضروري است. اين امر با استخراج عبارات كليدي اسناد كه دربردارنده محتواي اصلي متن است، صورت مي‌گيرد. در اين پژوهش، راهكاري سه مرحله‌اي جهت استخراج عبارات كليدي از صفحات خبري وب پارسي، با تركيب شيوه‌هاي زبان‌شناختي، يادگيري با ناظر، ابتكاري و تعداد نسبتاً جامعي از شيوه‌هاي آماري ارائه مي‌شود. همچنين، يك مجموعه داده خبري و ليستي از عبارات توقفي خبري ايجاد مي‌گردد. در پژوهش حاضر، با توجه به ويژگي‌هاي دادگان، از دسته‌بند جنگل تصادفي استفاده و عملكرد خوب آن به كمك نتايج آزمايش‌ها ثابت مي‌شود. به علاوه، استفاده از امتياز تعلق‌گرفته به عبارات توسط دسته‌بند، جهت ايجاد ليستي مرتب از عبارات براي دسته‌بندي، به جاي استفاده ازخروجي دسته‌بند، پيشنهاد مي‌شود. نتايج، نشان‌دهنده دقت قابل‌قبول سيستم ارائه‌شده است.
چكيده لاتين :
Text documents, especially news, are one of the important information retrieval fields which are necessary to extract information. This job, is done by extracting key phrases which include the main context of the news. In this research, a three level approach combining lingual, supervised learning, heuristic, and a relatively comprehensive number of statistical approaches, is suggested for key phrase extraction from Persian news web pages. A news dataset and a stop word list are generated. In this research, according to the data characteristics, Random Forest classifier is used; and its good performance is proved through experiments. Furthermore, using scores given by classifier to phrases, to build an ordered list of phrases, for classification, instead of using the classifier output, is suggested. Results show an acceptable f-measure.
سال انتشار :
1396
عنوان نشريه :
مهندسي برق دانشگاه تبريز
فايل PDF :
7432812
عنوان نشريه :
مهندسي برق دانشگاه تبريز
لينک به اين مدرک :
بازگشت