کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
405820 678035 2016 12 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Temporally extended features in model-based reinforcement learning with partial observability
ترجمه فارسی عنوان
به طور موقت ویژگی های تمدید در یادگیری تقویت مبتنی بر مدل با مشاهدات جزئی
کلمات کلیدی
تقویت یادگیری، یادگیری مدل، یادگیری ویژگی مشاهده قابل مشاهده بودن جزئی فرآیند تصمیم گیری مارکوف به طور جزئی قابل مشاهده است. فرایند تصمیم گیری غیر مارکوف
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی

Partial observability poses a major challenge for a reinforcement learning agent since the complete history of observations may be relevant for predicting and acting optimally. This is especially true in the general case where the underlying state space and dynamics are unknown. Existing approaches either try to learn a latent state representation or use decision trees based on the history of observations. In this paper we present a method for explicitly identifying relevant features of the observation history. These temporally extended features can be discovered using our Pulse algorithm and used to learn a compact model of the environment. Temporally extended features reveal the temporal structure of the environment while empirically outperforming other history-based approaches.

ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 192, 5 June 2016, Pages 49–60
نویسندگان
, ,