شماره ركورد :
1126448
عنوان مقاله :
بهبود سرعت آموزش در مسائل يادگيري تقويتي مبتني بر انتقال دانش عصبي‌فازي
عنوان به زبان ديگر :
Improving the learning speed in reinforcement learning issues based on the transfer learning of neuro-fuzzy knowledge
پديد آورندگان :
سعادت جو، فاطمه دانشگاه علم و هنر - دانشكده مهندسي كامپيوتر، يزد , قندهاري، عرفان دانشگاه علم و هنر - دانشكده مهندسي كامپيوتر، يزد
تعداد صفحه :
11
از صفحه :
1119
تا صفحه :
1129
كليدواژه :
يادگيري تقويتي , انتقال دانش , ويژگي مشترك , شبكه عصبي- فازي
چكيده فارسي :
اين مقاله به موضوع انتقال يادگيري در محيط­هايي كه بعضي از ويژگي­هاي آن مشترك است مي­پردازد. چالش اصلي در اين مبحث، نحوه انتقال دانش به­دست­آمده از محيط مبدأ به محيط مقصد است. در ايده ارائه ­شده با در نظر­گرفتن ويژگي­هاي مشترك در فضاي عامل بين دو محيط، ابتدا مقدار ارزش - عمل در محيط مبدأ به­دست مي­آيد، سپس از يك شبكه عصبي- فازي براي تقريب مقدار تابع ارزش - عمل بهره برده ميشود. در محيط مقصد، مقدار ارزش - عمل از تركيب مقدار پيش­بيني شبكه عصبي - فازي و مقدار به ­دست ­آمده در خود آن محيط استفاده مي­شود. به‌عبارت ديگر با توجه به آموزش انجام‌شده در محيط مبدأ، مقادير ارزش - عمل در محيط مقصد از تركيب مقادير ارزش - عمل تقريب­زده­شده توسط شبكه عصبي - فازي و مقدار به­ دست آمده از الگوريتم يادگيري در آن محيط به­دست مي­آيد. شايان ذكر است كه از الگوريتم يادگيري Q در محيط استفاده‌شده است. نتايج حاصل از ايده ارائه‌شده، حاكي از افزايش چشمگير سرعت يادگيري مي­باشد.
چكيده لاتين :
This paper to the topic of transfer learning in environments that share some of its features. The main challenge in this topic is how to transfer knowledge from the source environment to the target environment. In the presented idea, taking into account the common features in the operating space between the two environments, the value of the operation in the source environment first is obtained and then it uses a neuro -fuzzy network to approximate the value of the value function of the operation. In the target environment, the value of the mode of operation is used to combine the predictive value of the neuro - fuzzy network and the amount received in the environment itself. In other words, according to the training carried out in the source environment, value-action values ​​in the target environment are derived from the combination of value-action values ​​approximated by the neuro - fuzzy network and the amount obtained from the learning algorithm in that environment. It is worth noting that the learning algorithm Q is used in the environment. The results of the proposed idea indicate a significant increase in learning speed.
سال انتشار :
1398
عنوان نشريه :
مهندسي برق دانشگاه تبريز
فايل PDF :
7823024
لينک به اين مدرک :
بازگشت