عنوان مقاله :
مدلي جديد برپايه معماري كدگذار-كدگشا و سازوكار توجه براي خلاصهسازي چكيدهاي خودكار متون
پديد آورندگان :
علي اكبرپور ، حسن دانشگاه آزاد اسلامي واحد علوم و تحقيقات - گروه مهندسي كامپيوتر , منظوري ، محمدتقي دانشگاه صنعتي شريف - گروه مهندسي كامپيوتر , رحماني ، اميرمسعود استاد دانشگاه آزاد اسلامي واحد علوم و تحقيقات - گروه مهندسي كامپيوتر
كليدواژه :
يادگيري عميق , خلاصهسازي چكيدهاي , معماري كدگذار-كدگشا , سازوكار توجه كمكي , ويژگيهاي زباني.
چكيده فارسي :
با گسترش وب و در دسترس قرار گرفتن حجم زيادي از اطلاعات در قالب اسناد متني، توسعه سيستمهاي خودكار خلاصهسازي متون بهعنوان يكي از موضوعات مهم در پردازش زبانهاي طبيعي در مركز توجه محققان قرار گرفته است. البته با معرفي روشهاي يادگيري عميق در حوزه پردازش متن، خلاصهسازي متون نيز وارد فاز جديدي از توسعه شده و در سالهاي اخير نيز استخراج خلاصه چكيدهاي از متن با پيشرفت قابلتوجهي مواجه شده است. اما ميتوان ادعا كرد كه تاكنون از همه ظرفيت شبكههاي عميق براي اين هدف استفاده نشده است و نياز به پيشرفت در اين حوزه توأمان با در نظر گرفتن ويژگيهاي شناختي همچنان احساس ميشود. در اين راستا، در اين مقاله يك مدل دنبالهاي مجهز به سازوكار توجه كمكي براي خلاصهسازي چكيدهاي متون معرفي شده است كه نهتنها از تركيب ويژگيهاي زباني و بردارهاي تعبيه بهعنوان ورودي مدل يادگيري بهره ميبرد بلكه برخلاف مطالعات پيشين كه همواره از سازوكار توجه در بخش كدگذار استفاده ميكردند، از سازوكار توجه كمكي در بخش كدگذار استفاده ميكند. به كمك سازوكار توجه كمكي معرفيشده كه از سازوكار ذهن انسان هنگام توليد خلاصه الهام ميگيرد، بجاي اينكه كل متن ورودي كدگذاري شود، تنها قسمتهاي مهمتر متن كدگذاري شده و در اختيار كدگشا براي توليد خلاصه قرار ميگيرند. مدل پيشنهادي همچنين از يك سوئيچ به همراه يك حد آستانه در كدگشا براي غلبه بر مشكل با كلمات نادر بهره ميبرد. مدل پيشنهادي اين مقاله روي دو مجموعه داده CNN/Daily Mail و DUC2004 مورد آزمايش قرار گرفت. بر اساس نتايج حاصل از آزمايشها و معيار ارزيابي ROUGE، مدل پيشنهادي از دقت بالاتري نسبت به ساير روشهاي موجود براي توليد خلاصه چكيدهاي روي هر دو مجموعه داده برخوردار است.
عنوان نشريه :
فناوري اطلاعات و ارتباطات ايران
عنوان نشريه :
فناوري اطلاعات و ارتباطات ايران