|
|
افزایش سرعت فرایند یادگیری dqn با مکانیزم آثار شایستگی
|
|
|
|
|
نویسنده
|
خوشرو علی ,خواسته حسین
|
منبع
|
كنترل - 1399 - دوره : 14 - شماره : 4 - صفحه:13 -23
|
چکیده
|
برای سرعت بخشیدن به فرآیند یادگیری در مسائل یادگیری تقویتی با ابعاد بالا، معمولا از ترکیب روشهای td، مانند یادگیری q یا سارسا، با مکانیزم آثار شایستگی، استفاده میشود. در الگوریتم شبکه عمیق q (dqn)، که به تازگی معرفی شده، تلاش شده است که با استفاده از شبکههای عصبی عمیق در یادگیری q، الگوریتمهای یادگیری تقویتی را قادر سازد که به درک بالاتری از دنیای بصری رسیده و به مسائلی گسترش یابند که در گذشته رامنشدنی تلقی میشدند. dqn که یک الگوریتم یادگیری تقویتی عمیق خوانده میشود، از سرعت یادگیری پایینی برخوردار است. در این مقاله سعی میشود که از مکانیزم آثار شایستگی که یکی از روشهای پایهای در یادگیری تقویتی به حساب میآید، در یادگیری تقویتی در ترکیب با شبکههای عصبی عمیق استفاده شود تا سرعت فرایند یادگیری بهبود بخشیده شود. همچنین برای مقایسه کارایی با الگوریتم dqn، روی تعدادی از بازیهای آتاری 2600، آزمایش انجام شد و نتایج تجربی به دست آمده در آنها نشان میدهند که روش ارائه شده، زمان یادگیری را در مقایسه با الگوریتم dqn، به طرز قابل توجهی کاهش داده و سریعتر به مدل مطلوب همگرا میشود.
|
کلیدواژه
|
شبکههای عصبی عمیق، آثار شایستگی، یادگیری تقویتی عمیق ,deep q network (dqn)
|
آدرس
|
دانشگاه صنعتی خواجه نصیرالدین طوسی, گروه هوش مصنوعی, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشکده برق و کامپیوتر, گروه هوش مصنوعی, ایران
|
پست الکترونیکی
|
khasteh@kntu.ac.ir
|
|
|
|
|
|
|
|
|
Increase the speed of the DQN learning process with the Eligibility Traces
|
|
|
Authors
|
Khoshroo Seyed Ali ,Khasteh Seyed Hossein
|
Abstract
|
To accelerate the learning process in highdimensional learning problems, the combination of TD techniques, such as Qlearning or SARSA, is usually used with the mechanism of Eligibility Traces. In the newly introduced DQN algorithm, it has been attempted to using deep neural networks in Q learning, to enable reinforcement learning algorithms to reach a greater understanding of the visual world and to address issues Spread in the past that was considered unbreakable. DQN, which is called a deep reinforcement learning algorithm, has a low learning speed. In this paper, we try to use the mechanism of Eligibility Traces, which is one of the basic methods in reinforcement learning, in combination with deep neural networks to improve the learning process speed. Also, for comparing the efficiency with the DQN algorithm, a number of Atari 2600 games were tested and the experimental results obtained showed that the proposed method significantly reduced learning time compared to the DQN algorithm and converges faster to the optimal model.
|
Keywords
|
Deep Neural Networks ,Deep Q Networks (DQN) ,Eligibility Traces ,Deep Reinforcement Learning. ,Deep Q Network (DQN)
|
|
|
|
|
|
|
|
|
|
|