عنوان مقاله :
تكنيكهاي خلاصهسازي چندسندي خودكار متون فارسي مبتني بر الگوريتمهاي فرااكتشافي
پديد آورندگان :
آهنگري ، فاطمه دانشگاه گلستان - دانشكده فني و مهندسي , كرباسي ، سهيلا دانشگاه گلستان - دانشكده فني و مهندسي - گروه كامپيوتر , يعقوبي ، مهدي دانشگاه گلستان - دانشكده فني و مهندسي - گروه كامپيوتر
كليدواژه :
خلاصهسازي خودكار متن , خلاصه استخراجي , الگوريتمهاي فرااكتشافي , الگوريتم ژنتيك , الگوريتم جستجوي فاخته , ابزار ارزيابي Rouge
چكيده فارسي :
هدف:ارائه الگوي خلاصهسازي استاندارد متون فارسي با رويكرد تبديل مسئله خلاصهسازي به مسئله بهينهسازي توسط الگوريتمهاي فرااكتشافي سازگار. روششناسي: در اين پژوهش از اسناد استاندارد پيكره چندسندي «پاسخ» كه شامل 50 موضوع مختلف از انواع گونههاي خبري از خبرگزاريهاي پرببينده ايران، براي ارزيابي استفاده شده است. هر موضوع حاوي 20 سند و همچنين 5 خلاصه چكيدهاي و 5 خلاصه استخراجي است. ابتدا عمليات پيشپردازش روي متون ورودي انجام و خلاصههاي اوليه توليد شدند. اين كار بهكمك معيار TFISF، معيارهاي خوانايي و انسجام جملات، ويژگي شباهت با عنوان، ويژگي موقعيت جمله در متن، و ويژگي طول جمله انجام شد. با توجه به هر يك از اين معيارها، وزني به هر يك از جملات خلاصه اختصاص داده و ماتريس شباهت ايجاد شد. سپس، خروجي سيستم استخراج توسط دو الگوريتم فرااكتشافي ژنتيك و جستجوي فاخته براي رسيدن به خلاصه نهايي پردازش شد. درنهايت، خروجي بهدستآمده از مرحله قبل بهكمك ابزار ارزيابي Rouge و مقايسه با خلاصههاي انساني تحليل شدند. يافتهها: ميانگين همه مقادير بهدستآمده از ابزار ارزيابي Rouge در محاسبه ميزان همپوشاني نمونههاي مشترك خلاصههاي انساني و خلاصه ماشيني توسط الگوريتم جستجوي فاخته بيشتر از مقادير بهدستآمده توسط الگوريتم ژنتيك و همچنين سامانه خلاصهساز برخط ايجاز بودند. از ميان هشت معيار موجود در اين ابزار، دو معيار ارزيابي طولانيترين زيررشته مشترك با مقدار 0.33 و تعداد لغات مشابه در متن با مقدار 0.40 نتايج بهتري نسبت به بقيه معيارها داشتند. نتيجهگيري: نتايج حاصل از مقايسه دو الگوريتم بهكاررفته، حاكي از عملكرد بهتر الگوريتم جستجوي فاخته در هر يك از معيارهاي ابزار Rouge است. از طرفي مقايسه زماني نتايج نشان ميدهد كه ميانگين زماني محاسبهشده براي خلاصهسازي توسط سيستم پيشنهادي با الگوريتم جستجوي فاخته كمتر است.
عنوان نشريه :
مطالعات ملي كتابداري و سازماندهي اطلاعات