مرکز منطقه ای اطلاع رساني علوم و فناوري - يادگيري تقويتي چندعاملي مشاركتي در محيط‌هاي پويا بر اساس انتقال دانش براي مسأله گله‌داري

پديد آورندگان :

نيك انجام ، امين دانشگاه صنعتي خواجه نصيرالدين طوسي - دانشكده‌ي مهندسي كامپيوتر - گروه هوش مصنوعي , عبدوس ، منيره دانشگاه شهيد بهشتي - دانشكده‌ي مهندسي و علوم كامپيوتر - گروه هوش مصنوعي، رباتيك و رايانش شناختي , مهدوي مقدم ، ماهنوش دانشگاه صنعتي خواجه نصيرالدين طوسي - گروه هوش مصنوعي

چكيده فارسي :

امروزه، براي حل بسياري از مسائل، از سيستم هاي چندعاملي مشاركتي استفاده مي شود كه در آن گروهي از عامل ها براي رسيدن به يك هدف مشترك همكاري مي‌كنند. همكاري ميان عامل ها، فوايدي همچون كاهش هزينه هاي عملياتي، مقياس پذيري بالا و سازگاري قابل‌توجه را به ارمغان خواهد آورد. براي آموزش اين عامل ها در رسيدن به يك سياست بهينه، از يادگيري تقويتي بهره مي جويند. يادگيري در محيط هاي چندعاملي مشاركتي پويا، غيرقطعي و با اندازه فضاي حالت بزرگ به يك چالش بسيار مهم در برنامه هاي كاربردي تبديل‌شده است. ازجمله اين چالش ها مي‌توان به تأثير اندازه فضاي حالت بر مدت زمان يادگيري و همچنين همكاري ناكارآمد ميان عامل ها و عدم وجود هماهنگي مناسب در تصميم‌گيري عامل ها اشاره كرد. همچنين هنگام استفاده از الگوريتم هاي يادگيري تقويتي نيز با چالش هايي نظير دشواري تعيين هدف يادگيري مناسب و زمان طولاني همگرايي ناشي از يادگيري مبتني بر آزمايش و خطا مواجه خواهيم بود. در اين مقاله، با معرفي يك چارچوب ارتباطي براي سيستم هاي چندعاملي مشاركتي، تلاش شده چالش هاي فوق تا حدي برطرف شود. در راستاي حل مشكلات مربوط به همگرايي، انتقال دانش به كار برده شده است كه مي‌تواند به شكل قابل‌توجهي در افزايش كارايي الگوريتم‌هاي يادگيري تقويتي موثر واقع شود. همكاري ميان عامل‌ها با استفاده از عامل سرگروه و هماهنگي ميان آنان توسط يك عامل هماهنگ‌كننده صورت مي‌پذيرد. چارچوب پيشنهادي براي حل مسأله گله‌داري به كار رفته است و نتايج تجربي افزايش كارايي عامل‌ها را نشان مي‌دهند.