>
Fa   |   Ar   |   En
   یادگیری تکرار سیاست حداقل مربعات عصبی با معماری نقاد- تنها  
   
نویسنده محرابی امید ,فخاریان احمد ,سیاهی مهدی ,رمضانی امین
منبع كنترل - 1402 - دوره : 17 - شماره : 1 - صفحه:61 -76
چکیده    کنترل هوشمند مسائل کنترلی واقعی بر پایه یادگیری تقویتی اغلب نیاز به تصمیم گیری در فضای حالت– عمل بزرگ و یا پیوسته دارد. از آنجا که تعداد پارامترهای قابل تنظیم در یادگیری تقویتی گسسته، رابطه مستقیمی با عدد اصلی فضای متغیرهای حالت– عمل مساله دارد، لذا در چنین مسائلی مشکل تنگنای ابعاد، سرعت کم یادگیری و راندمان پایین وجود دارد. استفاده از روشهای آموزش تقویتی پیوسته برای حل این مشکلات مورد توجه محققان است. در همین راستا، در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (nrl) بر مبنای معماری نقاد– تنها برای حل مسائل کنترلی معرفی میگردد. روش ارائه شده یک روش مستقل از مدل و نرخ یادگیری است و از ترکیب روش تکرار سیاست کمترین مربعات (lspi) با شبکه توابع پایه شعاعی (rbf) به عنوان یک تقریب زننده ی تابعی حاصل شده است. الگوریتم پیشنهادی تکرار سیاست کمترین مربعات عصبی (nlspi) نامیده می شود. در این روش، با استفاده از توابع پایه تعریف شده در ساختار شبکه عصبی rbf، راهکاری برای رفع چالشِ تعریف توابع پایه حالت- عمل در lspi ارائه شده است. ورودی های شبکه جفت حالت و عمل های مساله و خروجی آن تابع ارزش عمل تقریب زده شده می باشد. هدف، به روز رسانی برخط وزن های شبکه عصبی با استفاده از روش ارائه شده به صورتی است که بهترین تقریب از تابع ارزش عمل صورت گیرد. به منظور اعتبارسنجی روش ارائه شده، عملکرد الگوریتم پیشنهادی در مورد حل دو مساله کنترلی با روش های دیگر مقایسه شده است. نتایج بدست آمده، برتری روش در یادگیری سیاست شبه بهینه را بخوبی نشان می دهد.
کلیدواژه یادگیری تقویتی عصبی، معماری نقاد- تنها، تکرار سیاست کمترین مربعات، شبکه توابع پایه شعاعی
آدرس دانشگاه آزاد اسلامی واحد علوم و تحقیقات, ایران, دانشگاه آزاد اسلامی واحد قزوین, گروه مهندسی برق, ایران, دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه تربیت مدرس, دانشکده مهندسی برق و کامپیوتر, ایران
پست الکترونیکی ramezani@modares.ac.ir
 
   neural least square policy iteration learning with critic-only architecture  
   
Authors mehrabi omid ,fakharian ahmad ,siahi mehdi ,ramezani amin
Abstract    intelligent control of real control problems based on reinforcement learning often requires decision-making in a large or continuous state-action space. since the number of adjustable parameters in discrete reinforcement learning has a direct relationship with cardinality of the state-action space of the problem, so in such problems, we are faced with the curse of dimensiality, low learning speed and low efficiency. the use of continuous reinforcement learning methods to overcome these problems have attracted many research interests. in this paper a novel neural reinforcement learning (nrl) scheme is proposed. the presented method is model free and learning rate independent, and is obtained by combining least squares policy iteration (lspi) with radial basis functions (rbf) as a function approximator, and we call it neural least squares policy iteration (nlspi). in this method, by using the basis functions defined in the rbf neural network structure, we have provided a solution to solve the challenge of defining the state-action basis functions in lspi. in order to validate the presented method, the performance of the proposed algorithm in solving two control problems has been compared with other methods. the overall results show the superiority of our method in learning the pseudo-optimal policy.
Keywords neural reinforcement learning ,critic-only architecture ,least square policy iteration ,rbf network
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved