عنوان مقاله :
كنترل فيدبك مبتني بر يادگيري تقويتي رشد تومور با محدودسازي دوز داروي شيميدرماني با استفاده از منطق فازي
عنوان به زبان ديگر :
Reinforcement learning based feedback control of tumor growth by limiting maximum chemo-drug dose using fuzzy logic
پديد آورندگان :
مشايخي، هدي دانشگاه صنعتي شاهرود - دانشكده مهندسي كامپيوتر ، شاهرود، ايران , نظري، مصطفي دانشگاه صنعتي شاهرود - دانشكده مهندسي مكانيك و مكاترونيك ، شاهرود، ايران
كليدواژه :
سرطان , شيميدرماني , ايمنيدرماني , كنترل , يادگيري تقويتي
چكيده فارسي :
در اين مقاله از يك روش كنترلي غيروابسته به مدل براي ارائه پروتكل درماني استفاده شده است؛ چراكه استفاده از روش هاي وابسته به مدل به دليل ماهيت به شدت غيرخطي ديناميك سرطان و وجود عدم قطعيت هاي فراوان با مشكلاتي مانند تضمين پايداري و سختي در طراحي روبرو هستند. در اين مقاله، براي تعيين و بهينهسازي ميزان دوز دارو، از روش كنترل حلقه بسته برمبناي يادگيري تقويتي استفاده شده است. براي ارائه كنترل كننده بهينه از روش يادگيري Q استفاده شده است. در اين روش يادگيري، هر مدخل جدول Q نشاندهنده ميزان مطلوب بودن يك عمل انتخابي يا همان دوز داروي شيميدرماني نسبت به يك حالت بيمار ميباشد. اين جدول با استفاده از اطلاعات دريافت شده از حالت سيستم، عمل و پاداش، به روز ميشود. براي نشان دادن موثر بودن روش كنترلي از يك مدل رياضي كه داراي چهار متغير حالت سلول هاي ايمني، سلول هاي سرطاني، سلول هاي سالم و غلظت داروي شيمي درماني در خون است، استفاده شده است. سه بيمار جوان، پير و باردار با شرايط متفاوت و پارامترهاي متفاوت درنظر گرفته شده اند، و براي محدود كردن دوز داروي شيمي درماني بر مبناي سن بيمار از يك سيستم فازي استفاده شده است. در بيمار پير به دليل ضعف سيستم ايمني علاوه بر شيمي درماني از ايمني درماني هم استفاده شده است كه منجر به تقويت ماندگار سيستم ايمني مي شود. نتايج شبيه سازي بر روي سه بيمار با شرايط متفاوت، نشان دهنده موثر بودن الگوريتم كنترلي بهينه ارائه شده در درمان سرطان و قابل اعمال بودن آن براي بيماران با شرايط مختلف است. در تمامي بيماران، سرطان در زمان محدودي درمان و دارودهي نيز قطع شده است. همچنين نشان داده شده است كه ايمني درماني در بيماران داراي سيستم ايمني ضعيف، جهت درمان زمان محدود ضروري مي باشد.
چكيده لاتين :
In this paper, a model-free reinforcement learning-based controller is designed to extract a treatment protocol because the design of a model-based controller is complex due to the highly nonlinear dynamics of cancer. The Q-learning algorithm is used to develop an optimal controller for cancer chemotherapy drug dosing. In the Q-learning algorithm, each entry of the Q-table is updated using data from states, action, and reward. The action is the chemo-drug dose. The proposed controller is implemented on a four states mathematical model including immune cells, tumor cells, healthy cells, and chemo-drug concentration in the bloodstream. Three different treatment strategies are proposed for three young, old, and pregnant patients considering his/her age. Chemotherapy is used in all cases. In the older patient, immunotherapy is also used for modifying the dynamics of cancer by reinforcing his/her weak immune system. A Mamdani fuzzy inference system is designed to limit the maximum chemo-drug dose by regarding the age of the patients. Simulation results show the effectiveness of the proposed treatment strategy. It is also shown that immunotherapy is necessary for finite duration cancer treatment in patients with a weak immune system. The used strategy is a model-free method which is the main advantage of this method.