طراحی کنترل کننده امن سیستم‌های غیرخطی با استفاده از یادگیری تقویتی و بهینه سازی مجموع مربعات

Fa | Ar | En

طراحی کنترل کننده امن سیستم‌های غیرخطی با استفاده از یادگیری تقویتی و بهینه سازی مجموع مربعات


نویسنده	قلی زاده حسین ,رضوی احسان ,پاک خصال سجاد ,شمقدری سعید ,منهاج محمدباقر
منبع	كنفرانس بين المللي مهندسي برق - 1401 - دوره : 30 - کنفرانس بین المللی مهندسی برق - کد همایش: 01220-26721 - صفحه:0 -0
چکیده	حل مساله مقید یکی از بزرگ‌ترین چالش‌های الگوریتم‌های یادگیری تقویتی می‌باشد. در مساله مقید چنانچه قید بر روی حالت‌های سیستم باشد به آن مسئله ایمنی نیز می‎گویند. اکثر روش‌هایی که بهینگی قانون کنترل را تضمین می‌کنند در مورد ایمنی آن ادعایی ندارند و بالعکس. در این مقاله الگوریتمی برای طراحی کنترل‌کننده امن و بهینه برای یک سیستم غیرخطی پیوسته ارائه می‌شود. در این روش، الگوریتم تکرار سیاست با استفاده از مفهوم تابع مانع (barrier function) به الگوریتم تکرار سیاست امن تبدیل می‌شود. برای حل این مسئله نیازمند داشتن ناحیه امن و ناحیه دارای تضمین پایداری، در حضور قیدهای مسئله هستیم. علاوه بر این یک الگوریتم تکراری دیگر ارائه می‌شود که بزرگترین ناحیه امن و با تضمین پایداری را ارائه می‌کند. این تضمین داده می‌شود که مسیر حالت‌های سیستم از این ناحیه خارج ‌نخواهند شد. در الگوریتم تکرار سیاست از برنامه‌ریزی مجموع مربعات استفاده شده است که روشی موثر برای حل مسائل بهینه‌سازی با قیود چند جمله‌ای می‌باشد. نهایتا کارایی کنترل‌کننده پیشنهاد شده با استفاده از شبیه‌سازی نشان داده شده است.
کلیدواژه	- تکرار سیاست امن، بهینه سازی مجموع مربعات، ناحیه امن، یادگیری تقویتی امن، سیستم غیرخطی
آدرس	, iran, , iran, , iran, , iran, , iran
پست الکترونیکی	menhaj@aut.ac.ir



Authors