شماره ركورد كنفرانس :
4418
عنوان مقاله :
روشي جديد براي افزايش سرعت يادگيري تقويتي توزيع شده ، IBSAQL
پديدآورندگان :
اسفندياري سارا دانشگاه آزاد اسلامي , داور قلاتي سميرا دانشگاه آزاد اسلامي , اسفندياري مهديه دانشگاه آزاد اسلامي
تعداد صفحه :
۸
كليدواژه :
الگوريتم Q-learning , سيستم هاي چند عامله , توزيع بولتزمي , يادگيري تقويتي
سال انتشار :
۱۳۹۱
عنوان كنفرانس :
يازدهمين كنفرانس سراسري سيستم هاي هوشمند
زبان مدرك :
فارسي
چكيده فارسي :
در اين مقاله، الگوريتم جديدي مبتني بر يادگير تقويتي توزيع شده، براي افزايش سرعت يادگيري، در الگوريتم هاي يادگيري تقويتي ارائه شده است. در روش پيشنهادي، به ازاي هر حالت از محيط، به تعداد اعمال مجاز آن حالت، عامل مجازي در نظر گرفته شده است و همچنين يك تابع بهبود يافته ي جديد براي انتخاب عمل در هر حالت پيشنهاد شده است، كه موجب تسريع در الگوريتم هاي مبتني بر Q-learning مي شود. از الگوريتم مذكور براي حل بازي هاي ماركوف استفاده شده است. برتري تابع پيشنهادي با انجام آزمايشات متعدد نشان داده است. نتايج به دست آمده در آزمايش ها نشان مي دهد، كه الگوريتم پيشنهادي از لحاظ رعت رسيدن به پاسخ بهينه و ميانگين پاداش هاي به دست آمده، داراي كارايي بسيار بالايي به روش هاي قبلي است
كشور :
ايران
لينک به اين مدرک :
بازگشت