ارائه الگوریتمی جهت تسریع روش تکرار سیاست در راستی آزمایی فرآیندهای تصمیم مارکوف با استفاده از یادگیری ماشین
|
|
|
|
|
نویسنده
|
محققی محمد صادق
|
منبع
|
محاسبات نرم - 1401 - دوره : 11 - شماره : 2 - صفحه:134 -148
|
چکیده
|
فرآیندهای تصمیم مارکوف در هوش مصنوعی و راستی آزمایی رسمی برای مدل سازی سیستم های کامپیوتری که دارای رفتارهای تصادفی و غیرقطعی هستند، استفاده میشوند. دو دسته مهم از ویژگیهایی که در وارسی مدل احتمالاتی استفاده میشوند شامل احتمال بهینه رسیدن به حالت هدف و پاداش انباشته شده مورد انتظار هستند. تکرار مقدار و تکرار سیاست دو روش عددی تکراری شناخته شده برای تقریب مقادیر بهینه هستند. چالش اصلی این روشها زمان اجرایی بالای آنها است. در این مقاله روشی جدید برای تسریع همگرایی به سیاست بهینه ارائه میشود که زمان اجرایی روش تکرار سیاست را کاهش میدهد. این روش بر پایه استفاده از یادگیری ماشین برای تخمین یک سیاست نزدیک به بهینه است. برای هر کلاس از مدلهای فرآیند تصمیم مارکوف، تعدادی مدل کوچک را برای مرحله آموزش و ساخت دستهبند در نظر میگیریم. دستهبند ساخته شده در فرآیند یادگیری، برای پیشبینی کنش بهینه هر حالت فرآیند تصمیم مارکوف داده شده به کار میرود. این دستهبند همچنین برای پیشنهاد یک سیاست نزدیک به بهینه برای فرآیندهای تصمیم مارکوف بزرگ از همان دسته مدلها، استفاده میشود تا زمان مصرفی کل را کاهش دهد. پیادهسازی روش ارائه شده در وارسیگر مدل prism نشان میدهد زمان اجرا به طور میانگین 50 درصد کاهش مییابد.
|
کلیدواژه
|
راستی آزمایی صوری، وارسی مدل احتمالاتی، فرآیندهای تصمیم مارکوف، تکرار سیاست، دسترس پذیری بهینه، یادگیری ماشین
|
آدرس
|
دانشگاه ولیعصر رفسنجان, دانشکده علوم ریاضی, گروه علوم کامپیوتر, ایران
|
پست الکترونیکی
|
mohagheghi@vru.ac.ir
|
|
|
|
|