قیمت‌گذاری پویای کلاس‌های مشتریان در سیستم‌های حمل‌ونقل ریلی با استفاده از الگوریتم شبکۀ عمیق q

Fa | Ar | En

قیمت‌گذاری پویای کلاس‌های مشتریان در سیستم‌های حمل‌ونقل ریلی با استفاده از الگوریتم شبکۀ عمیق q


نویسنده	نیک‌نامی امید ,آخوندزاده نوقابی الهام
منبع	مديريت صنعتي - 1403 - دوره : 16 - شماره : 4 - صفحه:597 -630
چکیده	هدف: در این پژوهش به بررسی مسئلۀ قیمت‌گذاری پویا در سیستم‌های حمل‌ونقل ریلی با استفاده از تکنیک‌های پیشرفته یادگیری تقویتی عمیق پرداخته شده است. هدف اصلی این پژوهش، بهینه‌سازی درآمد شرکت‌های حمل‌ونقل ریلی، از طریق ایجاد سیاست فروش بلیت است که بتواند قیمت بلیت را با در نظر گرفتن کلاس‌های خدماتی به‌صورت پویا تنظیم کند. این رویکرد به شرکت‌های حمل‌ونقل ریلی این امکان را می‌دهد تا با تنظیم دقیق‌تر قیمت‌ها، بر اساس تقاضای مسافران، درآمد بیشتری کسب کنند و سودآوری خود را بهبود بخشند.روش: در این پژوهش، به‌منظور حل مسئله قیمت‌گذاری پویا، از الگوریتم شبکۀ عمیق q، یکی از الگوریتم‌های پُرکاربرد یادگیری تقویتی عمیق، بهره گرفته شده است. این الگوریتم یک الگوریتم پیش‌گامانه است که شبکه‌های عصبی عمیق را با یادگیری q ترکیب می‌کند. در الگوریتم شبکۀ عمیق q، شبکه‌های عصبی عمیق وظیفۀ تقریب مقادیر q را به‌جای جدول پُرهزینۀ q برعهده دارند. یک شبکۀ عصبی عمیق می‌تواند حالت فعلی و یک عمل ممکن را مشاهده کند و به‌صورت مستقیم مقدار q را تقریب بزند. توانایی الگوریتم شبکۀ عمیق q در یادگیری سیاست‌های بهینه در محیط‌های پیچیده، این الگوریتم را به یک الگوریتم پُرکاربرد تبدیل کرده است. با توجه به این نکته که مدل‌های یادگیری تقویتی، اغلب برای تحلیل بیش از حد پیچیده به‌کار می‌روند، تحلیل استراتژی‌های قیمت‌گذاری متفاوت، فقط با آزمایش‌های عددی و شبیه‌سازی به‌دست می‌آیند.یافته‌ها: نتایج شبیه‌سازی‌ها نشان می‌دهد که الگوریتم شبکۀ عمیق q، به‌طور موفقیت‌آمیزی به یک سیاست قیمت‌گذاری پایدار هم‌گرا تبدیل شده است. در این مطالعه، شاخص‌های عملکردی مختلفی مانند درآمد کل، ظرفیت باقی‌مانده، میانگین قیمت‌های ارائه‌شده به مشتریان و تعداد بلیت‌های فروخته‌شده در هر کلاس خدماتی بررسی شد. الگوریتم در مراحل اولیه با نرخ یادگیری بالا بهبود و به‌تدریج به پایداری و ثبات دست یافت. میانگین درآمد کل، پس از 5000 تکرار، به مقدار 225 هزار هم‌گرا می‌شود. این مقدار نشان‌دهندۀ آن است که این شرکت به‌طور متوسط، از هر قطار 225 هزار واحد پولی درآمد کسب می‌کند. میانگین ظرفیت باقی‌مانده نیز پس از حدود 3000 تکرار، به مقدار صفر نزدیک می‌شود. هم‌گرایی نمودار میانگین ظرفیت باقی‌مانده به صفر، نشان‌دهندۀ این است که عامل یادگیری تقویتی، به‌طور موثری یاد گرفته است که برای حداکثرسازی درآمد کل، می‌بایست تمامی بلیت‌های موجود را به فروش برساند. شاخص میانگین قیمت‌های پیشنهادی به مشتریان، پس از حدود 7500 تکرار به یک حالت پایدار می‌رسد، به این معنا که الگوریتم به یک سیاست قیمت‌گذاری بهینه دست پیدا کرده است. در این وضعیت، میانگین قیمت‌ها در محدوده 680 تا 700 واحد پولی باقی می‌ماند و نوسان‌های چشمگیری مشاهده نمی‌شود. به عبارت دیگر، مدل یادگیری تقویتی بر اساس شاخص میانگین قیمت‌های پیشنهادی هم‌گرا شده است. در نهایت، پس از حدود 5000 تکرار، میانگین تعداد بلیت فروخته شده برای تمامی کلاس‌های خدماتی، به یک سطح تقریباً ثابت و پایدار می‌رسد. میانگین تعداد بلیت فروخته شده برای کلاس اکونومی، حدود 175 تا 180 بلیت، کلاس بیزینس حدود 130 تا 135 بلیت، کلاس ویژه حدود 60 تا 65 بلیت و کلاس هتل حدود 23 تا 25 بلیت به‌دست آمد.نتیجه‌گیری: نتایج این پژوهش نشان می‌دهد که پس از حدود 7500 تکرار، الگوریتم شبکۀ عمیق q به یک سیاست بهینه و پایدار رسیده است و تغییرات چشمگیری در عملکرد مشاهده نمی‌شود. همچنین می‌توان نتیجه گرفت که استفاده از الگوریتم شبکۀ عمیق q در قیمت‌گذاری پویا، می‌تواند به بهبود چشمگیری در مدیریت درآمد سیستم‌های حمل‌ونقل ریلی منجر شود. این الگوریتم با قابلیت یادگیری و سازگاری با شرایط متغیر، قادر است که سیاست‌های قیمت‌گذاری موثری را با هدف حداکثرسازی درآمد به‌کار گیرد و همچنین، تعداد بهینۀ بلیت‌های فروخته‌شده در هر کلاس خدماتی را تعیین کند. این دستاوردها می‌توانند به شرکت‌های حمل‌ونقل ریلی در بهبود راهبردهای قیمت‌گذاری و افزایش بهره‌وری اقتصادی کمک شایانی کنند.
کلیدواژه	قیمت‌گذاری پویا، یادگیری تقویتی عمیق، حمل‌ونقل ریلی
آدرس	دانشگاه تربیت مدرس, دانشکده مهندسی صنایع و سیستم‌ها, گروه مهندسی صنایع, ایران, دانشگاه تربیت مدرس, دانشکده مهندسی صنایع و سیستم‌ها, گروه فناوری اطلاعات, ایران
پست الکترونیکی	e.akhondzadeh.n@gmail.com

dynamic pricing of customer classes in rail transportation systems using deep q network algorithm

Authors	niknami omid ,akhondzadeh noughabi elham
Abstract	objectivethis research investigates the problem of dynamic pricing in rail transportation systems using advanced deep reinforcement learning techniques. the main goal is to optimize the revenue of railway transport companies by developing a ticket sales policy that dynamically adjusts ticket prices based on service classes. this approach allows rail transport companies to enhance revenue and profitability by accurately aligning prices with passenger demand. methodsto solve the problem of dynamic pricing, this research utilizes the q deep network algorithm, which combines deep neural networks with q-learning. deep neural networks approximate q values instead of using a costly q table. the q deep network algorithm is widely used due to its ability to learn optimal policies in complex environments. as reinforcement learning models are often too complex to analyze, numerical experiments and simulations are used to analyze different pricing strategies. resultsthe simulations demonstrate that the q deep network algorithm successfully converges to a stable pricing policy. various performance indicators were investigated, including such as total revenue, remaining capacity, average prices offered to customers, and the number of tickets sold in each service class. the algorithm showed improvement in the early stages and gradually achieved stability. the average total revenue converges to 225,000 after 5,000 iterations, indicating that the company earns an average of 225,000 monetary units from each train. the average residual capacity approaches zero after approximately 3,000 iterations, indicating that the reinforcement learning agent learns to sell all available tickets to maximize total revenue. the average price index offered to customers stabilizes after approximately 7,500 iterations, indicating that the algorithm has converged to an optimal pricing policy. in this state, the average prices remain within the range of 680 to 700 monetary units, with no significant fluctuations observed. in other words, the reinforcement learning model has successfully converged based on the average proposed price index. finally, after about 5,000 iterations, the average number of tickets sold for all service classes reaches a stable level. the average number of tickets sold for economy class is around 175 to 180 tickets, for business class is around 130 to 135 tickets, for special class is around 60 to 65 tickets, and for hotel class is around 23 to 25 tickets. conclusionthe findings of this study suggest that employing the deep q-network algorithm in dynamic pricing can lead to substantial optimization in revenue management for railway transportation systems. the results of this research indicate that after approximately 7,500 iterations, the q deep network algorithm reaches an optimal and stable policy with no significant changes in performance. it can be concluded that the use of the q deep network algorithm in dynamic pricing can significantly improve the revenue management of rail transportation systems. this algorithm can learn and adapt to changing conditions, allowing for effective pricing policies to maximize revenue and determine the optimal number of tickets sold in each service class. the obtained findings can help rail transport companies improve pricing strategies and increase economic productivity.
Keywords	dynamic pricing ,reinforcement learning ,rail transportation