>
Fa   |   Ar   |   En
   بهینه‌سازی سبد سهام با استفاده از یادگیری تقویتی عمیق  
   
نویسنده نامداری بیرگانی سمیه ,صدیقی امیر حسین ,ملاعلیزاده زواردهی صابر
منبع مديريت مهندسي و رايانش نرم - 1403 - دوره : 10 - شماره : 2 - صفحه:1 -22
چکیده    پژوهش حاضر قصد دارد تا با استفاده از مفاهیم هوش مصنوعی، معامله‌گر هوشمندی را آموزش دهد که بتواند به تصمیم‌گیری بهینه برای سرمایه‌گذاری در سبد سهام کمک کند. بدین منظور روشی مبتنی بر یادگیری تقویتی عمیق q برای بهینه‌سازی سبد سهام پیشنهاد خواهیم داد. در این روش از شبکه سیاست و شبکه سیاست هدف برای یادگیری اقدام‌ها و از شبکه یادگیری و شبکه هدف برای برآورد q بهینه بهره گرفته می‌شود. برای ارزیابی عملکرد روش پیشنهادی از داده‌های مربوط به شرکت‌های تشکیل‌دهنده شاخص داو جونز (djia) از مارس 2008 تا اکتبر 2021 استفاده می‌گردد. بعلاوه عملکرد روش پیشنهادی با استراتژی‌های مرسوم سرمایه‌گذاری و دو الگوریتم یادگیری تقویتی عمیق، بهینه‌سازی سیاست پروکسیمال (ppo) و بازیگر منتقد نرم (sac) مقایسه می‌شود. نتایج این بررسی‌ها حاکی از آن است که روش پیشنهادی بر روی دادگان آزمون با مجموع بازده 35.6 درصدی در مقایسه با سایر روش‌های بررسی شده بهترین عملکرد را دارد. از سوی دیگر نسبت شارپ در روش پیشنهادی بیشترین مقدار است که نشانگر آن است که این استراتژی در متعادل‌سازی بین سود و ریسک عملکرد بهتری دارد.
کلیدواژه بهینه‌سازی سبد سهام، یادگیری تقویتی، هوش مصنوعی، یادگیری تقویتی عمیق q، شاخص داو جونز
آدرس دانشگاه آزاد اسلامی واحد مسجدسلیمان, گروه مدیریت, ایران, دانشگاه آزاد اسلامی واحد مسجدسلیمان, گروه مدیریت, ایران. پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), پژوهشکده فناوری اطلاعات, ایران, دانشگاه آزاد اسلامی واحد مسجدسلیمان, گروه صنایع, ایران
پست الکترونیکی saber.alizadeh@gmail.com
 
   portfolio optimization using deep reinforcement learning  
   
Authors namdari-birgani somayeh ,seddighi amir hossein ,molla-alizadeh-zavardehi saber
Abstract    this research aims to train an intelligent trader by using artificial intelligence concepts that can help to make optimal decisions for investing in the stock portfolio. for this purpose, a method based on q deep reinforcement learning is presented for portfolio optimization. in this method, the policy network and the target policy network are used to learn the actions, and the learning network and the target network are used to estimate the optimal q. the data related to the companies constituting the dow jones industrial average (djia) from march 2008 to october 2021 are used to evaluate the proposed method. moreover, the performance of the proposed method is compared with conventional investment strategies and two deep reinforcement learning algorithms, ppo and sac. the results indicate that the proposed method has the best performance on the test data with a total profit of 35.6% compared to other investigated methods. on the other hand, the sharpe ratio of the proposed method is the highest value, which implies this strategy performs better in balancing profit and risk.
Keywords portfolio optimization ,reinforcement learning ,artificial intelligence ,q deep reinforcement learning ,dow jones industrial average.
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved