|
|
بهبود یادگیری q با استفاده از همزمانی به روز رسانی و رویه تطبیقی بر پایه عمل متضاد
|
|
|
|
|
نویسنده
|
پویان مریم ,گلزاری شهرام ,موسوی امین ,حاتم احمد
|
منبع
|
مهندسي برق و مهندسي كامپيوتر ايران - 1395 - دوره : 14 - شماره : 2 - صفحه:137 -146
|
چکیده
|
روش یادگیری q یکی از مشهورترین و پرکاربردترین روشهای یادگیری تقویتی مستقل از مدل است. از جمله مزایای این روش عدم وابستگی به آگاهی از دانش پیشین و تضمین در رسیدن به پاسخ بهینه است. یکی از محدودیتهای این روش کاهش سرعت همگرایی آن با افزایش بعد است. بنابراین افزایش سرعت همگرایی به عنوان یک چالش مطرح است. استفاده از مفاهیم عمل متضاد در یادگیری q، منجر به بهبود سرعت همگرایی میشود زیرا در هر گام یادگیری، دو مقدار q به طور همزمان به روز میشوند. در این مقاله روشی ترکیبی با استفاده از رویه تطبیقی در کنار مفاهیم عمل متضاد برای افزایش سرعت همگرایی مطرح شده است. روشها برای مسئله grid world شبیهسازی شده است. روشهای ارائهشده بهبود در میانگین درصد نرخ موفقیت، میانگین درصد حالتهای بهینه، متوسط تعداد گامهای عامل برای رسیدن به هدف و میانگین پاداش دریافتی را نشان میدهند.
|
کلیدواژه
|
رویه تطبیقی، سرعت همگرایی، عمل متضاد، همزمانی به روز رسانی، یادگیری q
|
آدرس
|
دانشگاه هرمزگان, گروه برق و کامپیوتر, ایران, دانشگاه هرمزگان, گروه برق و کامپیوتر, ایران, دانشگاه هرمزگان, گروه برق و کامپیوتر, ایران, دانشگاه هرمزگان, گروه برق و کامپیوتر, ایران
|
پست الکترونیکی
|
a.hatam@hormozgan.ac.ir
|
|
|
|
|
|
|
|
|
Improving QLearning Using Simultaneous Updating and Adaptive Policy Based on Opposite Action
|
|
|
Authors
|
Pouyan M. ,Golzari S. ,Mousavi A. ,Hatam A.
|
Abstract
|
Qlearning is a one of the most popular and frequently used modelfree reinforcement learning method. Among the advantages of this method is independent in its prior knowledge and there is a proof for its convergence to the optimal policy. One of the main limitations of this method is its low convergence speed, especially when the dimension is high. Accelerating convergence of this method is a challenge. Qlearning can be accelerated the convergence by the notion of opposite action. Since two Qvalues are updated simultaneously at each learning step. In this paper, adaptive policy and the notion of opposite action are used to speed up the learning process by integrated approach. The methods are simulated for the grid world problem. The results demonstrate a great advance in the learning in terms of success rate, the percent of optimal states, the number of steps to goal, and average reward.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|