ارائه الگوریتم یادگیری تقویتی عمیق در مسئله تعقیب و گریز قابل استفاده در پلیس هوشمند

Fa | Ar | En

ارائه الگوریتم یادگیری تقویتی عمیق در مسئله تعقیب و گریز قابل استفاده در پلیس هوشمند


نویسنده	امینی باغ علی ,مسگری محمدسعدی ,محمدی کزج پویا
منبع	فناوري اطلاعات و ارتباطات انتظامي - 1401 - دوره : 3 - شماره : 1 - صفحه:115 -132
چکیده	توسعه و استفاده از روش‌‌های مختلف هوش مصنوعی برای حل مسائل مختلف، یک زمینه تحقیقاتی وسیع و فعال در عصر جدید فنّاوری می‌باشد. مسئله‌‌ی تعقیب و گریز به‌‌عنوان یک مسئله‌‌ی نمونه در بسیاری از تحقیقات جدید مربوط به یادگیری ماشین و هوش مصنوعی استفاده شده است. در شکل خاصی از مسئله‌‌ی تعقیب و گریز که موردبررسی این تحقیق است، تعدادی عامل تعقیب کننده در تعقیب عامل‌‌های دیگر هستند. هدف این تحقیق، آموزش دو عامل هوشمند تعقیب کننده با استفاده از شبکه‌‌های یادگیری عمیق q است به نحوی که بتوانند در کمترین زمان ممکن، عامل فرارکننده را به موقعیت مشخصی برگردانند. در این تحقیق دو مدل با استفاده از الگوریتم مذکور در دو سناریوی مختلف برای یادگیری از تجربه‌‌های عامل‌‌های تعقیب کننده، ارائه‌شده و درنهایت عملکرد مدل‌های پیشنهادی از طریق مقایسه با الگوریتم دقیق جستجوی فراگیر مورد تست و ارزیابی قرار گرفتند. پس از آموزش عامل‌‌ها، مشاهده شد که در هر دو سناریو به تدریج میزان هزینه شبکه‌ها کاهش و میزان پاداش‌های دریافتی توسط تعقیب‌کننده‌ها در انتهای آموزش افزایش می‌یابند و به مقادیر مشخصی همگرا می‌شوند. در سناریوی اول عامل‌‌های تعقیب‌کننده در برگرداندن عامل فرارکننده به موقعیت مشخص، کاملاً موفق عمل می‌‌کنند و در سناریوی دوم نیز در بیش از 90 درصد محیط‌‌های تصادفی، این عمل را با موفقیت انجام می‌‌دهند.
کلیدواژه	هوش مصنوعی، مسئله‌‌ی تعقیب و گریز، پلیس هوشمند، یادگیری عمیق q، یادگیری ماشین
آدرس	دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشکده مهندسی نقشه برداری, گروه سیستم‌های اطلاعات جغرافیایی, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشکده مهندسی نقشه برداری, گروه سیستم‌های اطلاعات جغرافیایی, ایران, دانشگاه صنعتی خواجه نصیرالدین طوسی, دانشکده مهندسی نقشه برداری, گروه سیستم‌های اطلاعات جغرافیایی, ایران
پست الکترونیکی	p_mohammadi@email.kntu.ac.ir

Provide a deep reinforcement learning algorithm inpursue-evasion problem : a case study of smart police

Authors	Amini Bagh Ali ,Mesgari Mohammad Saadi ,Mohammadi Kazaj Pooya
Abstract	The development and use of artificial intelligence methods to solve different problems have been a vast and active research field for many years. The problem of pursuitevasion has been used as a testbed in much new research on machine learning and artificial intelligence. In this research, as a specific form of the pursuitevasion problem, some pursuer agents pursue a fugitive agent. The objective of the study is to train two intelligent pursuer agents using deep Q networks so that they can return the fugitive agent to a specific position in the shortest possible time. Two models were presented using the mentioned algorithm in two different scenarios to learn from the experiences of the pursuer agents and finally the performance of the proposed models was tested and evaluated by comparison with the exact brute force algorithm. After training the agents, it was observed that in both scenarios, the cost of the networks gradually decreased and the amount of rewards received by the pursuer agents at the end of the training increased and converged to certain values. It was observed that the pursuer agents are completely successful in returning the fugitive agent to the specific position and in the second scenario, in more than 90% of random environments, they perform this operation successfully.
Keywords