|
|
|
|
توسعه منطق خودتطبیقی سیستم های خودتطبیق به کمک یادگیری تقویتی عمیق
|
|
|
|
|
|
|
|
نویسنده
|
نیکفرجام کاظم
|
|
منبع
|
اكتشاف و پردازش هوشمند دانش - 1402 - دوره : 3 - شماره : 8 - صفحه:8 -23
|
|
چکیده
|
یک سیستم خودتطبیق میتواند ساختار و رفتار خود را در زمان اجرا، بر اساس درکش از محیط و از خودش و نیازمندیهایش، اصلاح کند. یکی از عناصر کلیدی در توسعه این سیستمها، منطق خودتطبیقی آن است که زمان و نحوه تطبیق سیستم را رمزگذاری میکند. هنگام توسعه منطق تطبیق، مهندسان با چالش عدم قطعیت زمان طراحی مواجهاند. برای تعریف زمان تطبیق سیستم، باید تمام حالات محیطی بالقوه را پیش بینی کنند. پیش بینی تمام تغییرات محیطی بالقوه اغلب به دلیل اطلاعات ناقص در زمان طراحی، غیرممکن است. یادگیری تقویتی برخط، با یادگیری اثربخشی عملیات تطبیق، از طریق تعامل سیستم با محیط در زمان اجرا، مشکل عدم قطعیت زمان طراحی را برطرف، و توسعه منطق خودتطبیقی را بطور خودکار درمیآورد. عناصر یادگیری تقویتی، در حلقه mape-k سیستمهای خودتطبیق ادغام میشود.روشهای یادگیری تقویتی برخط موجود در سیستمهای خودتطبیق، دانش آموخته شده را در قالب تابع ارزش نمایش می-دهند و دو نقص دارند که درجه خودکارسازی و توسعه را محدود میکند: 1- نیازمند تنظیم دقیق نرخ اکتشاف بصورت دستی هستند 2- برای تقویت توسعهپذیری، ممکن است نیاز به کمی سازی حالت های محیط به صورت دستی باشد. در این مقاله برای خودکارسازی فعالیتهای فوق از یادگیری تقویتی عمیق، استفاده شد. در این یادگیری، دانش در قالب یک شبکه عصبی، در وزنهای شبکه عصبی پنهان است. نتایج آزمایشات از سرعت همگرایی بالای یادگیری حکایت دارد.
|
|
کلیدواژه
|
یادگیری تقویتی عمیق، عدم قطعیت، منطق خود تطبیق، سیستم خودتطبیق
|
|
آدرس
|
دانشگاه آزاد اسلامی واحد بیرجند, ایران
|
|
پست الکترونیکی
|
nikfarjam1389@gmail.com
|
|
|
|
|
|
|
|
|
|
|
|
|
self adaptive logic development in self adaptive systems using online deep reinforcement learning
|
|
|
|
|
Authors
|
nikfarjam kazem
|
|
Abstract
|
a self-adaptive system can modify its own structure and behavior at runtime based on its perception of the environment, of itself and of its requirements. one key element of a self-adaptive system is its self-adaptation logic that encodes when and how the system should adapt itself. when developing the adaptation logic, developers face the challenge of design time uncertainty. to define when the system should adapt, they have to anticipate all potential environment states. however, anticipating all potential environment changes is infeasible in most cases due to incomplete information at design time.online reinforcement learning (rl) addresses design time uncertainty by learning the effectiveness of adaptation actions through interactions with the system's environment at run time, thereby automating the development of self-adaptation logic. online-rl for self-adaptive systems integrates the elements of rl into the mape-k loopexisting online rl approaches for self-adaptive systems represent learned knowledge as a value function, so exhibit two shortcomings that limit the degree of automation: they require manually fine-tuning the exploration rate and may require manually quantizing environment states to foster scalability. in this paper, use policy-based deep reinforcement learning, which are structurally quite different, to automate the aforementioned manual activities. deep rl addresses these disadvantages by representing the learned knowledge as a neural network. learned knowledge is hidden in the neural network. the results of the experiments indicate a high convergence speed of learning.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|