حل زيربهينه بازي هاي گرافي ديفرانسيلي غير خطي با استفاده از برنامه ريزي پوياي تقريبي تك-شبكه

عنوان به زبان ديگر

Suboptimal Solution of Nonlinear Graphical Games Using Single Network Approximate Dynamic Programming

پديد آورندگان

مازوچي، مجيد دانشگاه فردوسي مشهد - داﻧﺸﮑﺪه ﻣﻬﻨﺪﺳﯽ - ﮔﺮوه ﻣﻬﻨﺪﺳﯽ ﺑﺮق , نقيبي سيستاني، محمد باقر دانشگاه فردوسي مشهد - داﻧﺸﮑﺪه ﻣﻬﻨﺪﺳﯽ - ﮔﺮوه ﻣﻬﻨﺪﺳﯽ ﺑﺮق , حسيني ثاني، كمال دانشگاه فردوسي مشهد - داﻧﺸﮑﺪه ﻣﻬﻨﺪﺳﯽ - ﮔﺮوه ﻣﻬﻨﺪﺳﯽ ﺑﺮق

تعداد صفحه

از صفحه

تا صفحه

كليدواژه

برنامه ريزي پوياي تقريبي , شبكه هاي عصبي , كنترل بهينه , يادگيري تقويتي

چكيده فارسي

در اين مقاله يك الگوريتم يادگيري برخط برمبناي برنامه ريزي پوياي تقريبي تك-شبكه براي حل تقريبي بازي هاي گرافي ديفرانسيلي زمان پيوسته غيرخطي با تابع هزينه زمان نامحدود و ديناميك معين پيشنهاد شده است. در بازي هاي گرافي ديفرانسيلي، هدف عامل ها رديابي حالت رهبر به صورت بهينه مي باشد، به طوري كه ديناميك خطا و انديس عملكرد هر عامل بستگي به توپولوژي گراف تعاملي بازي دارد. در الگوريتم پيشنهادي، هر عامل تنها از يك شبكه عصبي نقاد براي تقريب ارزش و سياست كنترلي بهينه خود استفاده مي كند و از قوانين تنظيم وزن پيشنهاد شده براي به روزرساني برخط وزن هاي شبكه عصبي نقاد خود بهره مي جويد. در اين مقاله، با معرفي سوئيچ هاي پايدار ساز محلي در قوانين تنظيم وزن هاي شبكه عصبي كه پايداري سيستم حلقه بسته و همگرايي به سياست هاي تعادل نش را تضمين مي كنند، ديگر نيازي به مجموعه سياست هاي كنترلي پايدار ساز اوليه وجود ندارد. بعلاوه در اين مقاله از تئوري لياپانوف براي اثبات پايداري سيستم حلقه بسته استفاده مي شود. در پايان، مثال شبيه سازي، موثر بودن الگوريتم پيشنهادي را نشان مي دهد

چكيده لاتين

In this paper, an online learning algorithm based on approximate dynamic programming is proposed to approximately solve the nonlinear continuous time differential graphical games with infinite horizon cost functions and known dynamics. In the proposed algorithm, every agent employs a critic neural network (NN) to approximate its optimal value and control policy and utilizes the proposed weight tuning laws to learn its critic NN optimal weights in an online fashion. Critic NN weight tuning laws containing a stabilizer switch guarantees the closed-loop system stability and the control policies convergence to the Nash equilibrium. In this algorithm, there is no requirement for any set of initial stabilizing control policies anymore. Furthermore, Lyapunov theory is employed to show uniform ultimate boundedness of the closedloop system. Finally, a simulation example is presented to illustrate the efficiency of the proposed algorithm.

سال انتشار

1397

عنوان نشريه

كنترل

فايل PDF

7657401

عنوان نشريه

كنترل

لينک به اين مدرک

https://search.isc.ac/dl/search/defaultta.aspx?DTC=8&DC=1073666