|
|
بهینهسازی سبد سهام با استفاده از یادگیری تقویتی عمیق
|
|
|
|
|
نویسنده
|
نامداری بیرگانی سمیه ,صدیقی امیر حسین ,ملاعلیزاده زواردهی صابر
|
منبع
|
مديريت مهندسي و رايانش نرم - 1403 - دوره : 10 - شماره : 2 - صفحه:1 -22
|
چکیده
|
پژوهش حاضر قصد دارد تا با استفاده از مفاهیم هوش مصنوعی، معاملهگر هوشمندی را آموزش دهد که بتواند به تصمیمگیری بهینه برای سرمایهگذاری در سبد سهام کمک کند. بدین منظور روشی مبتنی بر یادگیری تقویتی عمیق q برای بهینهسازی سبد سهام پیشنهاد خواهیم داد. در این روش از شبکه سیاست و شبکه سیاست هدف برای یادگیری اقدامها و از شبکه یادگیری و شبکه هدف برای برآورد q بهینه بهره گرفته میشود. برای ارزیابی عملکرد روش پیشنهادی از دادههای مربوط به شرکتهای تشکیلدهنده شاخص داو جونز (djia) از مارس 2008 تا اکتبر 2021 استفاده میگردد. بعلاوه عملکرد روش پیشنهادی با استراتژیهای مرسوم سرمایهگذاری و دو الگوریتم یادگیری تقویتی عمیق، بهینهسازی سیاست پروکسیمال (ppo) و بازیگر منتقد نرم (sac) مقایسه میشود. نتایج این بررسیها حاکی از آن است که روش پیشنهادی بر روی دادگان آزمون با مجموع بازده 35.6 درصدی در مقایسه با سایر روشهای بررسی شده بهترین عملکرد را دارد. از سوی دیگر نسبت شارپ در روش پیشنهادی بیشترین مقدار است که نشانگر آن است که این استراتژی در متعادلسازی بین سود و ریسک عملکرد بهتری دارد.
|
کلیدواژه
|
بهینهسازی سبد سهام، یادگیری تقویتی، هوش مصنوعی، یادگیری تقویتی عمیق q، شاخص داو جونز
|
آدرس
|
دانشگاه آزاد اسلامی واحد مسجدسلیمان, گروه مدیریت, ایران, دانشگاه آزاد اسلامی واحد مسجدسلیمان, گروه مدیریت, ایران. پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک), پژوهشکده فناوری اطلاعات, ایران, دانشگاه آزاد اسلامی واحد مسجدسلیمان, گروه صنایع, ایران
|
پست الکترونیکی
|
saber.alizadeh@gmail.com
|
|
|
|
|
|
|
|
|
portfolio optimization using deep reinforcement learning
|
|
|
Authors
|
namdari-birgani somayeh ,seddighi amir hossein ,molla-alizadeh-zavardehi saber
|
Abstract
|
this research aims to train an intelligent trader by using artificial intelligence concepts that can help to make optimal decisions for investing in the stock portfolio. for this purpose, a method based on q deep reinforcement learning is presented for portfolio optimization. in this method, the policy network and the target policy network are used to learn the actions, and the learning network and the target network are used to estimate the optimal q. the data related to the companies constituting the dow jones industrial average (djia) from march 2008 to october 2021 are used to evaluate the proposed method. moreover, the performance of the proposed method is compared with conventional investment strategies and two deep reinforcement learning algorithms, ppo and sac. the results indicate that the proposed method has the best performance on the test data with a total profit of 35.6% compared to other investigated methods. on the other hand, the sharpe ratio of the proposed method is the highest value, which implies this strategy performs better in balancing profit and risk.
|
Keywords
|
portfolio optimization ,reinforcement learning ,artificial intelligence ,q deep reinforcement learning ,dow jones industrial average.
|
|
|
|
|
|
|
|
|
|
|