چانه‌زنی هوشمند در بازار با استفاده از یادگیری تقویتی

Fa | Ar | En

چانه‌زنی هوشمند در بازار با استفاده از یادگیری تقویتی


نویسنده	سعادت‌جو محمدعلی ,درهمی ولی ,سعادت جو فاطمه
منبع	مهندسي برق و مهندسي كامپيوتر ايران - 1391 - دوره : 10 - شماره : 1 - صفحه:40 -46
چکیده	استفاده از تکنیک‌های فناوری اطلاعات در بازارهای الکترونیکی، پویایی و پیچیدگی سیستم عرضه و تقاضا را بالا برده است. بنابراین به‌کارگیری عامل‌های هوشمند جهت خرید و فروش و چانه‌زنی در این گونه بازارها به‌عنوان یک راهکار موثر پیشنهاد شده است. الگوریتم یادگیری تقویتی یکی از روش‌های قوی یادگیری عامل‌هاست که با کمترین اطلاعات ممکن می‌تواند به‌صورت تعاملی برای آموزش عامل، در راستای پیشنهاد قیمت به‌کار گرفته شود. چانه‌زنی یک مذاکره چالش برانگیز و پیچیده است که علت آن تنوع متغیرهای بسیار زیاد در روابط عرضه و تقاضا و دانش ناکافی شرکت‌کنندگان در بازار می‌باشد. در این مقاله نحوه به‌کارگیری یادگیری تقویتی در مساله چانه‌زنی در دو بازار مناقصه و مزایده در راستای بیشینه‌سازی افزایش سود عامل بیان می‌گردد. متغیرهای حالت، عمل و تابع یادگیری تقویتی برای مساله چانه‌زنی در بازار به کمک یک مساله یادگیری تقویتی نمونه فرمول‌بندی می‌شوند. با مقایسه روش ارائه‌شده و یک روش تجربی به این واقعیت خواهیم رسید که عامل آموزش‌دیده، سود به مراتب بیشتری را از یک عامل تجربی کسب می‌نماید.
کلیدواژه	بازار الکترونیکی، چانه‌زنی، یادگیری تقویتی
آدرس	دانشگاه کاشان, دانشکده مهندسی برق و کامپیوتر, ایران, دانشگاه یزد, دانشکده مهندسی برق و کامپیوتر, ایران, موسسه آموزش عالی جهاد دانشگاهی استان یزد, گروه مهندسی کامپیوتر, ایران
پست الکترونیکی	fatemehsaadatjoo@gmail.com

Intelligent Bargaining in Market Using Reinforcement Learning

Authors	Saadatjoo M. A. ,Derhami V.
Abstract	Using Information Technology techniques have been increased complication and dynamicity of supplyanddemand systems like auctions. In this paper, we introduce a novel method by applying Reinforcement Learning (RL) price offer as one of the robust methods of agent learning which can be used in interactive conditions with minimum level of information in auction and reverse auction. Negotiation as one of the challengeable and complicated behaviors is caused an agreement on price in auctions. The main aim of our method is maximizing seller’s and customer’s profits. We formulate seller and customer selection in form of two different RL problems. All of the RL parameters like states, actions, and reinforcement function are defined. Also, we describe an experimental method to compare with our proposed method for proving advantages of our method.
Keywords