کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
710470 892110 2016 6 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Policy Derivation Methods for Critic-Only Reinforcement Learning in Continuous Action Spaces
ترجمه فارسی عنوان
روش های تشخیص خط مشی برای یادگیری تقویتی انتقادی در فضاهای عملی مستمر
کلمات کلیدی
تقویت یادگیری، اقدامات مداوم، سیستم های چند متغیره، کنترل بهینه، مفهوم سیاست
موضوعات مرتبط
مهندسی و علوم پایه سایر رشته های مهندسی مکانیک محاسباتی
چکیده انگلیسی

State-of-the-art critic-only reinforcement learning methods can deal with a small discrete action space. The most common approach to real-world problems with continuous actions is to discretize the action space. In this paper a method is proposed to derive a continuous-action policy based on a value function that has been computed for discrete actions by using any known algorithm such as value iteration. Several variants of the policy-derivation algorithm are introduced and compared on two continuous state-action benchmarks: double pendulum swing-up and 3D mountain car.

ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: IFAC-PapersOnLine - Volume 49, Issue 5, 2016, Pages 285–290
نویسندگان
, , ,