>
Fa   |   Ar   |   En
   یادگیری تقویتی فازی مبتنی بر تکرار ارزش در ربات تعقیب کننده‌ی هدف  
   
نویسنده نادی فرزانه ,درهمی ولی ,اعلمی‌یان هرندی فریناز
منبع كنترل - 1403 - دوره : 18 - شماره : 2 - صفحه:1 -12
چکیده    این مقاله روشی جدید در استفاده از داده‌های جمع آوری شده از حرکت تصادفی عامل در محیط برای تنظیم اولیه‌ی پارامترهای یک کنترلگر با ساختار یادگیری تقویتی فازی ارائه می‌دهد. کندی سرعت آموزش و تعداد شکست بالا در زمان آموزش دو چالش مهم در این قبیل ساختارها هستند. مقداردهی اولیه‌ی پارامترهای سیستم فازی می‌تواند راهکار مناسبی برای رفع این چالش‌ها باشد. در این مقاله با تعمیم روش تکرار ارزش گسسته به پیوسته بدون بهره‌گیری از روش‌های مبتنی بر مشتق، پارامترهای سیستم فازی مقدار دهی اولیه می‌شوند. ابتدا با تعامل تصادفی عامل با محیط داده‌های مرتبط جمع‌آوری می‌شود. با توجه به آنکه فضای حالت پیوسته است، داده‌ها به طور مناسب خوشه بندی شده و هر خوشه به عنوان یک حالت لحاظ می‌گردد. آنگاه با تعمیم روش تکرار ارزش استاندارد به پیوسته ماتریس احتمال انتقال حالت-عمل به حالت بعدی و امید پاداش آنی حالت-عمل به حالت بعدی محاسبه می‌شود. با استفاده از نتایج این مرحله پارامترهای ساختار یادگیری تقویتی فازی مقدار دهی اولیه می‌شوند. پس آز آن پارامترهای این ساختار به صورت برخط با روش یادگیری تقویتی تنظیم نهایی می‌گردند. روش ارایه شده یادگیری تقویتی فازی مبتنی بر تکرار ارزش نامیده می‌شود و در مسئله‌ی ربات تعقیب کننده‌ی هدف مورد استفاده قرار می‌گیرد. نتایج آزمایش‌ها حاکی از بهبود قابل توجه عملکرد روش ارائه شده در مسئله‌ی ربات تعقیب کننده‌ی هدف است. 
کلیدواژه کنترلگر فازی، یادگیری تقویتی، برنامه‌سازی پویا، خوشه‌بندی، ربات تعقیب کننده‌ی هدف
آدرس دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه یزد, دانشکده مهندسی کامپیوتر, ایران, دانشگاه صنعتی اصفهان, دانشکده مهندسی برق و کامپیوتر, ایران
پست الکترونیکی farinaz.alamiyan@gmail.com
 
   value iteration based fuzzy reinforcement learning in target following robot  
   
Authors nadi farzaneh ,derhami vali ,alamiyan harandi farinaz
Abstract    this paper presents a new method for using data collected from the agent’s random movement in the environment for the initial adjustment of parameters of a controller with a fuzzy reinforcement learning structure. slow learning speed and high failure rates during training are two major challenges in such structures. the initial parameterization of the fuzzy system can be a suitable solution to address these challenges. in this paper, the method of discrete value iteration is extended to continuous without relying on derivative based methods to initialize the parameters of the fuzzy system. first, random interaction with the environment is used to collect relevant data. since the state space is continuous, the data is appropriately clustered and each cluster is considered as a state. then, by generalizing the standard value iteration method to the continuous, the transition probability matrix and the immediate reward expectation matrix are calculated. using the results of this stage, the initial parameterization of the fuzzy reinforcement learning structure is performed. subsequently, these parameters are fine-tuned using reinforcement learning. the proposed method is called value iteration based fuzzy reinforcement learning and is used in the problem of target following robots. the experimental results indicate a significant improvement in the performance of the proposed method in the problem of target following robots.  
Keywords fuzzy controller ,reinforcement learning ,dynamic programming ,clustering ,target following robot
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved