شماره ركورد :
1220064
عنوان مقاله :
افزايش سرعت فرايند يادگيري DQN با مكانيزم آثار شايستگي
پديد آورندگان :
خوشرو ، علي دانشگاه صنعتي خواجه نصيرالدين طوسي - گروه هوش مصنوعي , خواسته ، حسين دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده برق و كامپيوتر - گروه هوش مصنوعي
از صفحه :
13
تا صفحه :
23
كليدواژه :
شبكه‌هاي عصبي عميق , آثار شايستگي , يادگيري تقويتي عميق , Deep Q Network (DQN)
چكيده فارسي :
براي سرعت بخشيدن به فرآيند يادگيري در مسائل يادگيري تقويتي با ابعاد بالا، معمولا از تركيب روش‌هاي TD، مانند يادگيري Q يا سارسا، با مكانيزم آثار شايستگي، استفاده مي‌شود. در الگوريتم شبكه عميق Q (DQN)، كه به تازگي معرفي شده، تلاش شده است كه با استفاده از شبكه‌هاي عصبي عميق در يادگيري Q، الگوريتم‌هاي يادگيري تقويتي را قادر سازد كه به درك بالاتري از دنياي بصري رسيده و به مسائلي گسترش يابند كه در گذشته رام‌نشدني تلقي مي‌شدند. DQN كه يك الگوريتم يادگيري تقويتي عميق خوانده مي‌شود، از سرعت يادگيري پاييني برخوردار است. در اين مقاله سعي مي‌شود كه از مكانيزم آثار شايستگي كه يكي از روش‌هاي پايه‌اي در يادگيري تقويتي به حساب مي‌آيد، در يادگيري تقويتي در تركيب با شبكه‌هاي عصبي عميق استفاده شود تا سرعت فرايند يادگيري بهبود بخشيده شود. همچنين براي مقايسه كارايي با الگوريتم DQN، روي تعدادي از بازي‌هاي آتاري 2600، آزمايش انجام شد و نتايج تجربي به دست آمده در آنها نشان مي‌دهند كه روش ارائه شده، زمان يادگيري را در مقايسه با الگوريتم DQN، به طرز قابل توجهي كاهش داده و سريعتر به مدل مطلوب همگرا مي‌شود.
عنوان نشريه :
كنترل
عنوان نشريه :
كنترل
لينک به اين مدرک :
بازگشت