>
Fa   |   Ar   |   En
   ارائه الگوریتمی جهت تسریع روش تکرار سیاست در راستی‌ آزمایی فرآیندهای تصمیم مارکوف با استفاده از یادگیری ماشین  
   
نویسنده محققی محمد صادق
منبع محاسبات نرم - 1401 - دوره : 11 - شماره : 2 - صفحه:134 -148
چکیده    فرآیندهای تصمیم مارکوف در هوش مصنوعی و راستی‌ آزمایی رسمی برای مدل‌ سازی سیستم ‌های کامپیوتری که دارای رفتارهای تصادفی و غیرقطعی هستند، استفاده می‌شوند. دو دسته مهم از ویژگی‌هایی که در وارسی مدل احتمالاتی استفاده می‌شوند شامل احتمال بهینه رسیدن به حالت هدف و پاداش انباشته شده مورد انتظار هستند. تکرار مقدار و تکرار سیاست دو روش عددی تکراری شناخته شده برای تقریب مقادیر بهینه هستند. چالش اصلی این روش‌ها زمان اجرایی بالای آنها است. در این مقاله روشی جدید برای تسریع همگرایی به سیاست بهینه ارائه می‌شود که زمان اجرایی روش تکرار سیاست را کاهش می‌دهد. این روش بر پایه استفاده از یادگیری ماشین برای تخمین یک سیاست نزدیک به بهینه است. برای هر کلاس از مدل‌های فرآیند تصمیم مارکوف، تعدادی مدل کوچک را برای مرحله آموزش و ساخت دسته‌بند در نظر می‌گیریم. دسته‌بند ساخته شده در فرآیند یادگیری، برای پیش‌بینی کنش بهینه هر حالت فرآیند تصمیم مارکوف داده شده به کار می‌رود. این دسته‌بند همچنین برای پیشنهاد یک سیاست نزدیک به بهینه برای فرآیندهای تصمیم مارکوف بزرگ از همان دسته مدل‌ها، استفاده می‌شود تا زمان مصرفی کل را کاهش دهد. پیاده‌سازی روش ارائه شده در وارسی‌گر مدل prism نشان می‌دهد زمان اجرا به طور میانگین 50 درصد کاهش می‌یابد.
کلیدواژه راستی آزمایی صوری، وارسی مدل احتمالاتی، فرآیندهای تصمیم مارکوف، تکرار سیاست، دسترس پذیری بهینه، یادگیری ماشین
آدرس دانشگاه ولیعصر رفسنجان, دانشکده علوم ریاضی, گروه علوم کامپیوتر, ایران
پست الکترونیکی mohagheghi@vru.ac.ir
 
     
   
Authors
  
 
 

Copyright 2023
Islamic World Science Citation Center
All Rights Reserved