عنوان مقاله :
افزايش سرعت فرايند يادگيري DQN با مكانيزم آثار شايستگي
پديد آورندگان :
خوشرو ، علي دانشگاه صنعتي خواجه نصيرالدين طوسي - گروه هوش مصنوعي , خواسته ، حسين دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده برق و كامپيوتر - گروه هوش مصنوعي
كليدواژه :
شبكههاي عصبي عميق , آثار شايستگي , يادگيري تقويتي عميق , Deep Q Network (DQN)
چكيده فارسي :
براي سرعت بخشيدن به فرآيند يادگيري در مسائل يادگيري تقويتي با ابعاد بالا، معمولا از تركيب روشهاي TD، مانند يادگيري Q يا سارسا، با مكانيزم آثار شايستگي، استفاده ميشود. در الگوريتم شبكه عميق Q (DQN)، كه به تازگي معرفي شده، تلاش شده است كه با استفاده از شبكههاي عصبي عميق در يادگيري Q، الگوريتمهاي يادگيري تقويتي را قادر سازد كه به درك بالاتري از دنياي بصري رسيده و به مسائلي گسترش يابند كه در گذشته رامنشدني تلقي ميشدند. DQN كه يك الگوريتم يادگيري تقويتي عميق خوانده ميشود، از سرعت يادگيري پاييني برخوردار است. در اين مقاله سعي ميشود كه از مكانيزم آثار شايستگي كه يكي از روشهاي پايهاي در يادگيري تقويتي به حساب ميآيد، در يادگيري تقويتي در تركيب با شبكههاي عصبي عميق استفاده شود تا سرعت فرايند يادگيري بهبود بخشيده شود. همچنين براي مقايسه كارايي با الگوريتم DQN، روي تعدادي از بازيهاي آتاري 2600، آزمايش انجام شد و نتايج تجربي به دست آمده در آنها نشان ميدهند كه روش ارائه شده، زمان يادگيري را در مقايسه با الگوريتم DQN، به طرز قابل توجهي كاهش داده و سريعتر به مدل مطلوب همگرا ميشود.