عنوان مقاله :
بهبود يادگيري Q با استفاده از همزماني به روز رساني و رويه تطبيقي بر پايه عمل متضاد
پديد آورندگان :
پويان، مريم دانشگاه هرمزگان بندر عباس - گروه برق و كامپيوتر , گلزاري، شهرام دانشگاه هرمزگان بندر عباس - گروه برق و كامپيوتر , موسوي، امين دانشگاه هرمزگان بندر عباس - گروه برق و كامپيوتر , حاتم، احمد دانشگاه هرمزگان بندر عباس - گروه برق و كامپيوتر
كليدواژه :
رويه تطبيقي , سرعت همگرايي , عمل متضاد , همزماني به روز رساني , يادگيري Q
چكيده فارسي :
روش يادگيري Q يكي از مشهورترين و پركاربردترين روشهاي يادگيري تقويتي مستقل از مدل است. از جمله مزاياي اين روش عدم وابستگي به آگاهي از دانش پيشين و تضمين در رسيدن به پاسخ بهينه است. يكي از محدوديتهاي اين روش كاهش سرعت همگرايي آن با افزايش بعد است. بنابراين افزايش سرعت همگرايي به عنوان يك چالش مطرح است. استفاده از مفاهيم عمل متضاد در يادگيري Q، منجر به بهبود سرعت همگرايي ميشود زيرا در هر گام يادگيري، دو مقدار Q به طور همزمان به روز ميشوند. در اين مقاله روشي تركيبي با استفاده از رويه تطبيقي در كنار مفاهيم عمل متضاد براي افزايش سرعت همگرايي مطرح شده است. روشها براي مسئله Grid world شبيهسازي شده است. روشهاي ارائهشده بهبود در ميانگين درصد نرخ موفقيت، ميانگين درصد حالتهاي بهينه، متوسط تعداد گامهاي عامل براي رسيدن به هدف و ميانگين پاداش دريافتي را نشان ميدهند.
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران