شماره ركورد :
1001458
عنوان مقاله :
بهبود يادگيري Q با استفاده از هم‌زماني به روز رساني و رويه تطبيقي بر پايه عمل متضاد
پديد آورندگان :
پويان، مريم دانشگاه هرمزگان بندر عباس - گروه برق و كامپيوتر , گلزاري، شهرام دانشگاه هرمزگان بندر عباس - گروه برق و كامپيوتر , موسوي، امين دانشگاه هرمزگان بندر عباس - گروه برق و كامپيوتر , حاتم، احمد دانشگاه هرمزگان بندر عباس - گروه برق و كامپيوتر
تعداد صفحه :
10
از صفحه :
137
تا صفحه :
146
كليدواژه :
رويه تطبيقي , سرعت همگرايي , عمل متضاد , هم‌زماني به روز رساني , يادگيري Q
چكيده فارسي :
روش يادگيري Q يكي از مشهورترين و پركاربردترين روش‌هاي يادگيري تقويتي مستقل از مدل است. از جمله مزاياي اين روش عدم وابستگي به آگاهي از دانش پيشين و تضمين در رسيدن به پاسخ بهينه است. يكي از محدوديت‌هاي اين روش كاهش سرعت همگرايي آن با افزايش بعد است. بنابراين افزايش سرعت همگرايي به عنوان يك چالش مطرح است. استفاده از مفاهيم عمل متضاد در يادگيري Q، منجر به بهبود سرعت همگرايي مي‌شود زيرا در هر گام يادگيري، دو مقدار Q به طور هم‌زمان به روز مي‌شوند. در اين مقاله روشي تركيبي با استفاده از رويه تطبيقي در كنار مفاهيم عمل متضاد براي افزايش سرعت همگرايي مطرح شده است. روش‌ها براي مسئله Grid world شبيه‌سازي شده است. روش‌هاي ارائه‌شده بهبود در ميانگين درصد نرخ موفقيت، ميانگين درصد حالت‌هاي بهينه، متوسط تعداد گام‌هاي عامل براي رسيدن به هدف و ميانگين پاداش دريافتي را نشان مي‌دهند.
سال انتشار :
1395
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
فايل PDF :
7430608
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
لينک به اين مدرک :
بازگشت