دانلود رایگان مقاله: کارشناسان خواب و راهزنان رویکرد به محدودیت فرآیندهای تصمیم مارکوف را درک می کنند

کد مقاله	کد نشریه	سال انتشار	مقاله انگلیسی	نسخه تمام متن
7109671	1460652	2016	5 صفحه PDF	دانلود رایگان

عنوان انگلیسی مقاله ISI

Sleeping experts and bandits approach to constrained Markov decision processes

ترجمه فارسی عنوان

کارشناسان خواب و راهزنان رویکرد به محدودیت فرآیندهای تصمیم مارکوف را درک می کنند

دانلود مقاله + سفارش ترجمه

دانلود مقاله ISI انگلیسی

رایگان برای ایرانیان

کلمات کلیدی

فرایندهای تصمیم گیری مارکوف، کارشناسان خواب و راهزنان، الگوریتم یادگیری، بهینه سازی محدود،

Learning algorithm - الگوریتم یادگیری Constrained optimization - بهینه سازی محدود Markov decision processes - پروسه تصمیم گیری مارکوف

ترجمه چکیده

در این ارتباط، الگوریتم های مبتنی بر شبیه سازی ساده برای به دست آوردن یک سیاست تقریبی مطلوب در یک مجموعه محدود معین در فرآیند تصمیم گیری محدود محدود محدود مارکوف ارائه شده است. الگوریتم ها از استراتژی های بازی برای کارشناسان خواب و بانتیک ها اقتباس شده اند؟ مشکل و پیچیدگی های محاسباتی آنها مستقل از اندازه های فضای حالت و عمل هستند، اگر مجموعه سیاست های داده شده نسبتا کوچک باشد. ما همگرا عملکرد مورد انتظار خود را به ارزش یک نرخ بهینه سیاست و همگرایی، و همچنین تقریبا مطمئن همگرایی به یک سیاست مطلوب با نرخ نمایش برای الگوریتم اقتباس در متن کارشناسان خواب، ایجاد می کنیم.

موضوعات مرتبط

مهندسی و علوم پایه سایر رشته های مهندسی کنترل و سیستم های مهندسی

پیش نمایش مقاله

کارشناسان خواب و راهزنان رویکرد به محدودیت فرآیندهای تصمیم مارکوف را درک می کنند

چکیده انگلیسی

This communique presents simple simulation-based algorithms for obtaining an approximately optimal policy in a given finite set in large finite constrained Markov decision processes. The algorithms are adapted from playing strategies for “sleeping experts and bandits” problem and their computational complexities are independent of state and action space sizes if the given policy set is relatively small. We establish convergence of their expected performances to the value of an optimal policy and convergence rates, and also almost-sure convergence to an optimal policy with an exponential rate for the algorithm adapted within the context of sleeping experts.

ناشر

Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Automatica - Volume 63, January 2016, Pages 182-186

نویسندگان

Hyeong Soo Chang,

علوم انسانی و هنر

فنی، مهندسی و علوم پایه

پزشکی و سلامت

بیو تکنولوژی

پذیرش سفارش ترجمه

دانلود رایگان مقاله ISI : کارشناسان خواب و راهزنان رویکرد به محدودیت فرآیندهای تصمیم مارکوف را درک می کنند

دسترسی سریع

ارتباط

English Website