|
|
استخراج گذرگاهها با استفاده از تشخیص اشیا در یادگیری تقویتی
|
|
|
|
|
نویسنده
|
غضنفری بهزاد ,مزینی ناصر ,جاهد مطلق محمدرضا
|
منبع
|
مهندسي برق و مهندسي كامپيوتر ايران - 1391 - دوره : 10 - شماره : 1 - صفحه:55 -62
|
چکیده
|
این مقاله روش جدیدی را مطرح میکند که قادر به استخراج گذرگاهها بهصورت اتوماتیک برای عامل یادگیری تقویتی است. روش پیشنهادی از سیستمهای بیولوژیکی، رفتار و مسیریابی حیوانات الهام گرفته شده است و بهواسطه تعاملات عامل با محیط پیرامونیاش عمل میکند. عامل با استفاده از خوشهبندی و تشخیص اشیا بهصورت سلسله مراتبی، نشانههایی را پیدا میکند. اگر این نشانهها در فضای اقدام به هم نزدیک باشند، گذرگاهها با استفاده از حالتهای بین آنها استخراج میشوند. نتایج آزمایشها بهبود قابل ملاحظهای را در فرایند یادگیری تقویتی در مقایسه با سایر روشهای مشابه نشان میدهد.
|
کلیدواژه
|
یادگیری تقویتی، خوشهبندی اشیا، یادگیری تقویتی سلسله مراتبی، اقدامات گسترشیافته زمانی
|
آدرس
|
دانشگاه علم و صنعت ایران, دانشکده مهندسی کامپیوتر, ایران, دانشگاه علم و صنعت ایران, دانشکده مهندسی کامپیوتر, ایران, دانشگاه علم و صنعت ایران, دانشکده مهندسی کامپیوتر, ایران
|
پست الکترونیکی
|
jahedmr@iust.ac.ir
|
|
|
|
|
|
|
|
|
Extracting Bottlenecks Using Object Recognition in Reinforcement Learning
|
|
|
Authors
|
Ghazanfari B. ,Mozayani N. ,Jahed Motlagh M. R.
|
Abstract
|
Extracting bottlenecks improves considerably the speed of learning and the ability knowledge transferring in reinforcement learning. But, extracting bottlenecks is a challenge in reinforcement learning and it typically requires prior knowledge and designer’s help. This paper will propose a new method that extracts bottlenecks for reinforcement learning agent automatically. We have inspired of biological systems, behavioral analysts and routing animals and the agent works on the basis of its interacting to environment. The agent finds landmarks based in clustering and hierarchical object recognition. If these landmarks in actions space are close to each other, bottlenecks are extracted using the states between them. The Experimental results show a considerable improvement in the process of learning in comparison to some key methods in the literature.
|
Keywords
|
|
|
|
|
|
|
|
|
|
|
|