کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
7109671 1460652 2016 5 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Sleeping experts and bandits approach to constrained Markov decision processes
ترجمه فارسی عنوان
کارشناسان خواب و راهزنان رویکرد به محدودیت فرآیندهای تصمیم مارکوف را درک می کنند
کلمات کلیدی
فرایندهای تصمیم گیری مارکوف، کارشناسان خواب و راهزنان، الگوریتم یادگیری، بهینه سازی محدود،
ترجمه چکیده
در این ارتباط، الگوریتم های مبتنی بر شبیه سازی ساده برای به دست آوردن یک سیاست تقریبی مطلوب در یک مجموعه محدود معین در فرآیند تصمیم گیری محدود محدود محدود مارکوف ارائه شده است. الگوریتم ها از استراتژی های بازی برای کارشناسان خواب و بانتیک ها اقتباس شده اند؟ مشکل و پیچیدگی های محاسباتی آنها مستقل از اندازه های فضای حالت و عمل هستند، اگر مجموعه سیاست های داده شده نسبتا کوچک باشد. ما همگرا عملکرد مورد انتظار خود را به ارزش یک نرخ بهینه سیاست و همگرایی، و همچنین تقریبا مطمئن همگرایی به یک سیاست مطلوب با نرخ نمایش برای الگوریتم اقتباس در متن کارشناسان خواب، ایجاد می کنیم.
موضوعات مرتبط
مهندسی و علوم پایه سایر رشته های مهندسی کنترل و سیستم های مهندسی
چکیده انگلیسی
This communique presents simple simulation-based algorithms for obtaining an approximately optimal policy in a given finite set in large finite constrained Markov decision processes. The algorithms are adapted from playing strategies for “sleeping experts and bandits” problem and their computational complexities are independent of state and action space sizes if the given policy set is relatively small. We establish convergence of their expected performances to the value of an optimal policy and convergence rates, and also almost-sure convergence to an optimal policy with an exponential rate for the algorithm adapted within the context of sleeping experts.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Automatica - Volume 63, January 2016, Pages 182-186
نویسندگان
,