یادگیری تقویتی چندعاملی مشارکتی در محیط‌های پویا بر اساس انتقال دانش برای مساله گله‌داری

Fa | Ar | En

یادگیری تقویتی چندعاملی مشارکتی در محیط‌های پویا بر اساس انتقال دانش برای مساله گله‌داری


نویسنده	نیک انجام امین ,عبدوس منیره ,مهدوی مقدم ماهنوش
منبع	كنترل - 1399 - دوره : 14 - شماره : 4 - صفحه:55 -66
چکیده	امروزه، برای حل بسیاری از مسائل، از سیستم های چندعاملی مشارکتی استفاده می شود که در آن گروهی از عامل ها برای رسیدن به یک هدف مشترک همکاری می‌کنند. همکاری میان عامل ها، فوایدی همچون کاهش هزینه های عملیاتی، مقیاس پذیری بالا و سازگاری قابل‌توجه را به ارمغان خواهد آورد. برای آموزش این عامل ها در رسیدن به یک سیاست بهینه، از یادگیری تقویتی بهره می جویند. یادگیری در محیط های چندعاملی مشارکتی پویا، غیرقطعی و با اندازه فضای حالت بزرگ به یک چالش بسیار مهم در برنامه های کاربردی تبدیل‌شده است. ازجمله این چالش ها می‌توان به تاثیر اندازه فضای حالت بر مدت زمان یادگیری و همچنین همکاری ناکارآمد میان عامل ها و عدم وجود هماهنگی مناسب در تصمیم‌گیری عامل ها اشاره کرد. همچنین هنگام استفاده از الگوریتم های یادگیری تقویتی نیز با چالش هایی نظیر دشواری تعیین هدف یادگیری مناسب و زمان طولانی همگرایی ناشی از یادگیری مبتنی بر آزمایش و خطا مواجه خواهیم بود. در این مقاله، با معرفی یک چارچوب ارتباطی برای سیستم های چندعاملی مشارکتی، تلاش شده چالش های فوق تا حدی برطرف شود. در راستای حل مشکلات مربوط به همگرایی، انتقال دانش به کار برده شده است که می‌تواند به شکل قابل‌توجهی در افزایش کارایی الگوریتم‌های یادگیری تقویتی موثر واقع شود. همکاری میان عامل‌ها با استفاده از عامل سرگروه و هماهنگی میان آنان توسط یک عامل هماهنگ‌کننده صورت می‌پذیرد. چارچوب پیشنهادی برای حل مساله گله‌داری به کار رفته است و نتایج تجربی افزایش کارایی عامل‌ها را نشان می‌دهند.
کلیدواژه	سیستم‌های چندعامله مشارکتی، یادگیری تقویتی، انتقال دانش، مساله گله‌داری
آدرس	دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشکده‌ی مهندسی کامپیوتر, گروه هوش مصنوعی, ایران, دانشگاه شهید بهشتی, دانشکده‌ی مهندسی و علوم کامپیوتر, گروه هوش مصنوعی، رباتیک و رایانش شناختی, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, گروه هوش مصنوعی, ایران
پست الکترونیکی	mahnooshmahdavi@email.kntu.ac.ir

Collaborative Multi-Agent Reinforcement Learning in Dynamic Environments using Knowledge Transfer for Herding Problem

Authors	Nikanjam Amin ,Abdoos Monireh ,Mahdavi Moghadam Mahnoosh
Abstract	Nowadays, collaborative multiagent systems in which a group of agents work together to reach a common goal, are used to solve a wide range of problems. Cooperation between agents will bring benefits such as reduced operational costs, high scalability and significant adaptability. Usually, reinforcement learning is employed to achieve an optimal policy for these agents. Learning in collaborative multiagent dynamic environments with large and stochastic state spaces has become a major challenge in many applications. These challenges include the effect of size of state space on learning time, ineffective collaboration between agents and the lack of appropriate coordination between decisions of agents. On the other hand, using reinforcement learning has challenges such as the difficulty of determination the appropriate learning goal or reward and the longtime of convergence due to the trial and error in learning. This paper, by introducing a communication framework for collaborative multiagent systems, attempts to address some of these challenges in herding problem. To handle the problems of convergence, knowledge transfer has been utilized that can significantly increase the efficiency of reinforcement learning algorithms. Cooperation and Coordination and between the agents is carried out through the existence of a head agent in each group of agents and a coordinator agent respectively. This framework has been successfully applied to herding problem instances and experimental results have revealed a significant improvement in the performance of agents.
Keywords	Collaborative multi-agent system ,Reinforcement learning ,Knowledge transfer ,Herding problem.