توسعه منطق خودتطبیقی سیستم های خودتطبیق به کمک یادگیری تقویتی عمیق

Fa | Ar | En

توسعه منطق خودتطبیقی سیستم های خودتطبیق به کمک یادگیری تقویتی عمیق


نویسنده	نیکفرجام کاظم
منبع	اكتشاف و پردازش هوشمند دانش - 1402 - دوره : 3 - شماره : 8 - صفحه:8 -23
چکیده	یک سیستم خودتطبیق می‌تواند ساختار و رفتار خود را در زمان اجرا، بر اساس درکش از محیط و از خودش و نیازمندی‌هایش، اصلاح کند. یکی از عناصر کلیدی در توسعه این سیستم‌ها، منطق خودتطبیقی آن است که زمان و نحوه تطبیق سیستم را رمزگذاری می‌کند. هنگام توسعه منطق تطبیق، مهندسان با چالش عدم قطعیت زمان طراحی مواجه‌اند. برای تعریف زمان تطبیق سیستم، باید تمام حالات محیطی بالقوه را پیش بینی کنند. پیش بینی تمام تغییرات محیطی بالقوه اغلب به دلیل اطلاعات ناقص در زمان طراحی، غیرممکن است. یادگیری تقویتی برخط، با یادگیری اثربخشی عملیات تطبیق، از طریق تعامل سیستم با محیط در زمان اجرا، مشکل عدم قطعیت زمان طراحی را برطرف، و توسعه منطق خودتطبیقی را بطور خودکار درمی‌آورد. عناصر یادگیری تقویتی، در حلقه mape-k سیستم‌های خودتطبیق ادغام می‌شود.روشهای یادگیری تقویتی برخط موجود در سیستم‌های خودتطبیق، دانش آموخته شده را در قالب تابع ارزش نمایش می-دهند و دو نقص دارند که درجه خودکارسازی و توسعه را محدود می‌کند: 1- نیازمند تنظیم دقیق نرخ اکتشاف بصورت دستی هستند 2- برای تقویت توسعه‌پذیری، ممکن است نیاز به کمی سازی حالت های محیط به صورت دستی باشد. در این مقاله برای خودکارسازی فعالیت‌های فوق‌ از یادگیری تقویتی عمیق، استفاده شد. در این یادگیری، دانش در قالب یک شبکه عصبی، در وزن‌های شبکه عصبی پنهان است. نتایج آزمایشات از سرعت همگرایی بالای یادگیری حکایت دارد.
کلیدواژه	یادگیری تقویتی عمیق، عدم قطعیت، منطق خود تطبیق، سیستم خودتطبیق
آدرس	دانشگاه آزاد اسلامی واحد بیرجند, ایران
پست الکترونیکی	nikfarjam1389@gmail.com

self adaptive logic development in self adaptive systems using online deep reinforcement learning

Authors	nikfarjam kazem
Abstract	a self-adaptive system can modify its own structure and behavior at runtime based on its perception of the environment, of itself and of its requirements. one key element of a self-adaptive system is its self-adaptation logic that encodes when and how the system should adapt itself. when developing the adaptation logic, developers face the challenge of design time uncertainty. to define when the system should adapt, they have to anticipate all potential environment states. however, anticipating all potential environment changes is infeasible in most cases due to incomplete information at design time.online reinforcement learning (rl) addresses design time uncertainty by learning the effectiveness of adaptation actions through interactions with the system's environment at run time, thereby automating the development of self-adaptation logic. online-rl for self-adaptive systems integrates the elements of rl into the mape-k loopexisting online rl approaches for self-adaptive systems represent learned knowledge as a value function, so exhibit two shortcomings that limit the degree of automation: they require manually fine-tuning the exploration rate and may require manually quantizing environment states to foster scalability. in this paper, use policy-based deep reinforcement learning, which are structurally quite different, to automate the aforementioned manual activities. deep rl addresses these disadvantages by representing the learned knowledge as a neural network. learned knowledge is hidden in the neural network. the results of the experiments indicate a high convergence speed of learning.