همزمانسازی بهینه برخط سیستم های چندعاملی غیر خطی با دینامیک های نامعلوم

Fa | Ar | En

همزمانسازی بهینه برخط سیستم های چندعاملی غیر خطی با دینامیک های نامعلوم


نویسنده	تاتاری فرزانه ,نقیبی سیستانی محمدباقر
منبع	كنترل - 1397 - دوره : 12 - شماره : 3 - صفحه:13 -28
چکیده	در این مقاله، الگوریتم بهینه توزیع شده تطبیقی برخط برای همزمانسازی عامل های غیرخطی یک سیستم چندعاملی با دینامیک های نامعلوم به عامل رهبر بر اساس تکنیک های برنامه ریزی پویای تقریبی و شناساگرهای شبکه های عصبی ارایه شده است. الگوریتم پیشنهاد شده به یادگیری حل برخط معادلات همیلتونجاکوبی تزویج شده[1] (chj) تحت دینامیک های نامعلوم پرداخته است. هر عامل جهت یادگیری سیاست بهینه محلی از ساختار عملگرنقاد بهره برده و دینامیک نامعلوم هر عامل نیز با به کارگیری یک تقریبگر شبکه عصبی، تقریب زده شده است. شناسایی دینامیک های نامعلوم با استفاده از قانون تکرار تجربیات انجام شده است به طوری که از اطلاعات ثبت شده به همراه داده های لحظه ای برای انطباق وزن های شبکه عصبی شناساگر دینامیک عامل ها، استفاده شده است. در حالی که وزن های تقریبگرهای دینامیک و شبکه های عملگرنقاد به صورت همزمان در حال انطباق هستند، کرانداری تمامی سیگنال های حلقه بسته توسط تئوری لیاپانوف تضمین شده است. در انتها صحت الگوریتم پیشنهاد شده با ذکر نتایج شبیه سازی، نشان داده شده است.
کلیدواژه	برنامه ریزی پویای تقریبی، تقریبگرهای عملگر-نقاد، سیستم های چندعاملی، کنترل بهینه توزیع شده، همزمانسازی
آدرس	دانشگاه سمنان, دانشکده مهندسی برق و کامپیوتر, گروه مهندسی برق, ایران, دانشگاه فردوسی مشهد, دانشکده مهندسی, گروه مهندسی برق, ایران
پست الکترونیکی	mb-naghibi@um.ac.ir

Online Optimal Synchronization of Nonlinear Multi-agent Systems under Unknown Dynamics

Authors	Tatari Farzaneh ,Naghibi-S. Mohammad-B.
Abstract	In this paper an online optimal distributed algorithm is introduced for multiagent systems synchronization under unknown dynamics based on approximate dynamic programming and neural networks. Every agent has employed an actorcritic structure to learn its distributed optimal policy and the unknown dynamics of every agent is identified by employing a neural network approximator. The unknown dynamics are identified based on the experience replay technique where the recorded data and current data are used to adopt the approximators weights. The introduced algorithm learns the solution of coupled HamiltonJacobi equations under unknown dynamics in an online fashion. While the weights of the identifiers and actorcritic approximators are being tuned, the boundedness of the closed loop system signals are assured using Lyapunov theory. The effectiveness of the proposed algorithm is shown through the simulation results.
Keywords	Actor-Critic Approximators ,Approximate Dynamic Programming ,Multi-Agent Systems ,Optimal Distributed Control ,Synchronization