|
|
برنامهریزی بهرهبرداری ریزشبکهها مبتنی بر الگوریتم یادگیری تقویتی عمیق
|
|
|
|
|
نویسنده
|
اسمعیلی سعید ,ناطقی علیرضا ,زارع حسن ,اصغرپورعلمداری حسین
|
منبع
|
مهندسي و مديريت انرژي - 1401 - دوره : 12 - شماره : 2 - صفحه:2 -11
|
چکیده
|
در این مقاله، برنامهریزی بهرهبرداری ریزشبکهها مشتمل بر منابع تولید انرژی و سیستمهای ذخیره انرژی مبتنی بر یادگیری تقویتی عمیق ارائه شده است. با توجه به خاصیت پویایی مسئله، ابتدا در قالب یک فرایند تصمیمگیری مارکوف متشکل از چهارتایی (حالت، اقدام، تابع احتمال انتقال و پاداش) فرمولبندی شده است. سپس، الگوریتم گرادیان استراتژی قطعی عمیق بهمنظور یادگیری استراتژی بهینۀ برنامهریزی بهرهبرداری ریزشبکه با هدف کمینه کردن هزینههای بهرهبرداری ارائه شده است. این الگوریتم یک روش بینیاز از مدل، مستقل از استراتژی و بر مبنای معماری عامل -نقاد است که میتواند بهخوبی فضای حالت و اقدام مسئله را بهصورت پیوسته مدلسازی و بر چالش بزرگ بودن ابعاد مسئله غلبه کند. بهمنظور ارزیابی الگوریتم ارائهشده، نتایج با الگوریتم یادگیری q عمیق و روش تحلیلی مقایسه شد. نتایج حاصل از شبیهسازی، کارایی الگوریتم گرادیان استراتژی قطعی عمیق ارائهشده را از جهت همگرایی، زمان اجرا و هزینۀ کل نشان دادند.
|
کلیدواژه
|
ریزشبکه، گرادیان استراتژی قطعی عمیق، فرایند تصمیمگیری مارکوف، برنامهریزی بهرهبرداری
|
آدرس
|
دانشگاه علم و صنعت ایران, ایران, دانشگاه علوم و فنون هوایی شهید ستاری, ایران, دانشگاه فنی و حرفهای, گروه مهندسی برق, ایران, دانشگاه فنی و حرفهای, گروه مهندسی برق, ایران
|
پست الکترونیکی
|
asgharpour.alamdari@gmail.com
|
|
|
|
|
|
|
|
|
Operation Scheduling of MGs Based on Deep Reinforcement Learning Algorithm
|
|
|
Authors
|
Esmaeili Saeid ,Nateghi Alireza ,Zare Hassan ,asgharpour-Alamdari hossein
|
Abstract
|
: In this paper, the operation scheduling of Microgrids (MGs), including Distributed Energy Resources (DERs) and Energy Storage Systems (ESSs), is proposed using a Deep Reinforcement Learning (DRL) based approach. Due to the dynamic characteristic of the problem, it firstly is formulated as a Markov Decision Process (MDP). Next, Deep Deterministic Policy Gradient (DDPG) algorithm is presented to minimize total operational costs by learning the optimal strategy for operation scheduling of MG systems. This modelfree algorithm deploys an actorcritic architecture which can not only model the continuous state and action spaces properly but also overcome the curse of dimensionality. In order to evaluate the efficiency of the proposed algorithm, the results were compared with the analytical method and a Qbased learning algorithm which demonstrates the capability of the DDPG method from the aspects of convergence, running time, and total costs.
|
Keywords
|
Microgrid ,Deep deterministic policy gradient ,Markov decision process ,Operational scheduling
|
|
|
|
|
|
|
|
|
|
|