|
|
|
|
یادگیری تقویتی فازی مبتنی بر تکرار ارزش در ربات تعقیب کنندهی هدف
|
|
|
|
|
|
|
|
نویسنده
|
نادی فرزانه ,درهمی ولی ,اعلمییان هرندی فریناز
|
|
منبع
|
كنترل - 1403 - دوره : 18 - شماره : 2 - صفحه:1 -12
|
|
چکیده
|
این مقاله روشی جدید در استفاده از دادههای جمع آوری شده از حرکت تصادفی عامل در محیط برای تنظیم اولیهی پارامترهای یک کنترلگر با ساختار یادگیری تقویتی فازی ارائه میدهد. کندی سرعت آموزش و تعداد شکست بالا در زمان آموزش دو چالش مهم در این قبیل ساختارها هستند. مقداردهی اولیهی پارامترهای سیستم فازی میتواند راهکار مناسبی برای رفع این چالشها باشد. در این مقاله با تعمیم روش تکرار ارزش گسسته به پیوسته بدون بهرهگیری از روشهای مبتنی بر مشتق، پارامترهای سیستم فازی مقدار دهی اولیه میشوند. ابتدا با تعامل تصادفی عامل با محیط دادههای مرتبط جمعآوری میشود. با توجه به آنکه فضای حالت پیوسته است، دادهها به طور مناسب خوشه بندی شده و هر خوشه به عنوان یک حالت لحاظ میگردد. آنگاه با تعمیم روش تکرار ارزش استاندارد به پیوسته ماتریس احتمال انتقال حالت-عمل به حالت بعدی و امید پاداش آنی حالت-عمل به حالت بعدی محاسبه میشود. با استفاده از نتایج این مرحله پارامترهای ساختار یادگیری تقویتی فازی مقدار دهی اولیه میشوند. پس آز آن پارامترهای این ساختار به صورت برخط با روش یادگیری تقویتی تنظیم نهایی میگردند. روش ارایه شده یادگیری تقویتی فازی مبتنی بر تکرار ارزش نامیده میشود و در مسئلهی ربات تعقیب کنندهی هدف مورد استفاده قرار میگیرد. نتایج آزمایشها حاکی از بهبود قابل توجه عملکرد روش ارائه شده در مسئلهی ربات تعقیب کنندهی هدف است.
|
|
کلیدواژه
|
کنترلگر فازی، یادگیری تقویتی، برنامهسازی پویا، خوشهبندی، ربات تعقیب کنندهی هدف
|
|
آدرس
|
دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه صنعتی اصفهان, دانشکده مهندسی برق و کامپیوتر, ایران
|
|
پست الکترونیکی
|
farinaz.alamiyan@gmail.com
|
|
|
|
|
|
|
|
|
|
|
|
|
value iteration based fuzzy reinforcement learning in target following robot
|
|
|
|
|
Authors
|
nadi farzaneh ,derhami vali ,alamiyan harandi farinaz
|
|
Abstract
|
this paper presents a new method for using data collected from the agent’s random movement in the environment for the initial adjustment of parameters of a controller with a fuzzy reinforcement learning structure. slow learning speed and high failure rates during training are two major challenges in such structures. the initial parameterization of the fuzzy system can be a suitable solution to address these challenges. in this paper, the method of discrete value iteration is extended to continuous without relying on derivative based methods to initialize the parameters of the fuzzy system. first, random interaction with the environment is used to collect relevant data. since the state space is continuous, the data is appropriately clustered and each cluster is considered as a state. then, by generalizing the standard value iteration method to the continuous, the transition probability matrix and the immediate reward expectation matrix are calculated. using the results of this stage, the initial parameterization of the fuzzy reinforcement learning structure is performed. subsequently, these parameters are fine-tuned using reinforcement learning. the proposed method is called value iteration based fuzzy reinforcement learning and is used in the problem of target following robots. the experimental results indicate a significant improvement in the performance of the proposed method in the problem of target following robots.
|
|
Keywords
|
fuzzy controller ,reinforcement learning ,dynamic programming ,clustering ,target following robot
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|