افزایش سرعت فرایند یادگیری dqn با مکانیزم آثار شایستگی

Fa | Ar | En

افزایش سرعت فرایند یادگیری dqn با مکانیزم آثار شایستگی


نویسنده	خوشرو علی ,خواسته حسین
منبع	كنترل - 1399 - دوره : 14 - شماره : 4 - صفحه:13 -23
چکیده	برای سرعت بخشیدن به فرآیند یادگیری در مسائل یادگیری تقویتی با ابعاد بالا، معمولا از ترکیب روش‌های td، مانند یادگیری q یا سارسا، با مکانیزم آثار شایستگی، استفاده می‌شود. در الگوریتم شبکه عمیق q (dqn)، که به تازگی معرفی شده، تلاش شده است که با استفاده از شبکه‌های عصبی عمیق در یادگیری q، الگوریتم‌های یادگیری تقویتی را قادر سازد که به درک بالاتری از دنیای بصری رسیده و به مسائلی گسترش یابند که در گذشته رام‌نشدنی تلقی می‌شدند. dqn که یک الگوریتم یادگیری تقویتی عمیق خوانده می‌شود، از سرعت یادگیری پایینی برخوردار است. در این مقاله سعی می‌شود که از مکانیزم آثار شایستگی که یکی از روش‌های پایه‌ای در یادگیری تقویتی به حساب می‌آید، در یادگیری تقویتی در ترکیب با شبکه‌های عصبی عمیق استفاده شود تا سرعت فرایند یادگیری بهبود بخشیده شود. همچنین برای مقایسه کارایی با الگوریتم dqn، روی تعدادی از بازی‌های آتاری 2600، آزمایش انجام شد و نتایج تجربی به دست آمده در آنها نشان می‌دهند که روش ارائه شده، زمان یادگیری را در مقایسه با الگوریتم dqn، به طرز قابل توجهی کاهش داده و سریعتر به مدل مطلوب همگرا می‌شود.
کلیدواژه	شبکه‌های عصبی عمیق، آثار شایستگی، یادگیری تقویتی عمیق ,deep q network (dqn)
آدرس	دانشگاه صنعتی خواجه نصیرالدین طوسی, گروه هوش مصنوعی, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشکده برق و کامپیوتر, گروه هوش مصنوعی, ایران
پست الکترونیکی	khasteh@kntu.ac.ir

Increase the speed of the DQN learning process with the Eligibility Traces

Authors	Khoshroo Seyed Ali ,Khasteh Seyed Hossein
Abstract	To accelerate the learning process in highdimensional learning problems, the combination of TD techniques, such as Qlearning or SARSA, is usually used with the mechanism of Eligibility Traces. In the newly introduced DQN algorithm, it has been attempted to using deep neural networks in Q learning, to enable reinforcement learning algorithms to reach a greater understanding of the visual world and to address issues Spread in the past that was considered unbreakable. DQN, which is called a deep reinforcement learning algorithm, has a low learning speed. In this paper, we try to use the mechanism of Eligibility Traces, which is one of the basic methods in reinforcement learning, in combination with deep neural networks to improve the learning process speed. Also, for comparing the efficiency with the DQN algorithm, a number of Atari 2600 games were tested and the experimental results obtained showed that the proposed method significantly reduced learning time compared to the DQN algorithm and converges faster to the optimal model.
Keywords	Deep Neural Networks ,Deep Q Networks (DQN) ,Eligibility Traces ,Deep Reinforcement Learning. ,Deep Q Network (DQN)