عنوان مقاله :
ارائه روشي جديد براي كسب مهارت در يادگيري تقويتي با كمك خوشهبندي گراف
عنوان به زبان ديگر :
Proposing a New Method for Acquiring Skills in Reinforcement Learning with the Help of Graph Clustering
پديد آورندگان :
داودآبادي فراهاني، مرضيه دانشگاه علم و صنعت ايران - دانشكده مهندسي كامپيوتر، تهران , مزيني، ناصر دانشگاه علم و صنعت ايران - دانشكده مهندسي كامپيوتر، تهران
كليدواژه :
يادگيري تقويتي سلسله مراتبي , گزينه , انتزاع زماني , مهارت , ارزيابي مهارت ها , خوشه بندي گراف
چكيده فارسي :
يادگيري تقويتي، يكي از انواع يادگيري ماشين است كه در آن عامل
با استفاده از تراكنش با محيط، به شناخت محيط و بهبود رفتار خود مي پردازد.
يكي از مشكلات اصلي الگوريتم هاي استاندارد يادگيري تقويتي مانند يادگيري Q
اين است كه نمي توانند مسايل بزرگ را در زمان قابل قبولي حل كنند. كسب
خودكار مهارت ها مي تواند به شكستن مسأله به زيرمسأله هاي كوچك تر و حل
سلسله مراتبي آن كمك كند. با وجود نتايج اميدواركننده استفاده از مهارت ها در
يادگيري تقويتي سلسله مراتبي، در برخي تحقيقات ديگر نشان داده شد كه بر
اساس وظيفه مورد نظر، اثر مهارت ها بر كارايي يادگيري مي تواند كاملاً مثبت يا
منفي باشد و اگر به درستي انتخاب نشوند مي توانند پيچيدگي حل مسأله را
افزايش دهند. از اين رو يكي از نقاط ضعف روش هاي قبلي كسب خودكار
مهارت ها، عدم ارزيابي هر يك از مهارت هاي كسب شده مي باشد. در اين مقاله
روش هاي جديدي مبتني بر خوشه بندي گراف براي استخراج زيرهدف ها و كسب
مهارت ها ارائه مي گردد. همچنين معيارهاي جديد براي ارزيابي مهارت ها مطرح
مي شود كه با كمك آنها، مهارتهاي نامناسب براي حل مسأله حذف مي گردند.
استفاده از اين روش ها در چندين محيط آزمايشگاهي افزايش سرعت يادگيري را
به شكل قابل ملاحظ هاي نشان مي دهد.
چكيده لاتين :
Reinforcement learning is atype of machine learning methods in which the agent uses its transactions with the environment to recognize the environment and to improve its behavior.One of the main problems of standard reinforcement learning algorithms like Q-learning is that they are not able to solve large scale problems in a reasonable time. Acquiring skills helps to decompose the problem to a set of sub-problems and to solve it with hierarchical methods. In spite of the promising results of using skills in hierarchical reinforcement learning, it has been shown in some previous studies that based on the imposed task, the effect of skills on learning performance can be quite positive. On the contrary, if they are not properly selected, they can increase the complexity of problem-solving. Hence, one of the weaknesses of previous methods proposed for automatically acquiring skills is the lack of a systematic evaluation method for each acquired skill. In this paper, we propose new methods based on graph clustering for subgoal extraction and acquisition of skills. Also, we present new criteria for evaluating skills, with the help of which, inappropriate skills for solving the problem are eliminated. Using these methods in a number of experimental environments shows a significant increase in learning speed.
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران
عنوان نشريه :
مهندسي برق و مهندسي كامپيوتر ايران