کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4942114 1436985 2017 31 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Scalable transfer learning in heterogeneous, dynamic environments
ترجمه فارسی عنوان
یادگیری مقیاس پذیر در محیط های ناهمگن و پویا
کلمات کلیدی
ترجمه چکیده
یادگیری تقویت یک مبنای نظری قابل اعتماد برای توسعه خودآموزی، عوامل مستقل یا روبات هایی است که می توانند به طور موثر نمایانگر دینامیک جهان باشند و به طور موثر ویژگی های مشکل را برای انجام وظایف مختلف در محیط های مختلف یاد بگیرند. با این حال، هزینه های محاسباتی و پیچیدگی ها اغلب برای برنامه های کاربردی در دنیای واقعی غلبه می کنند. این مطالعه یک روش مقیاس پذیر برای یادگیری و انتقال دانش از مدل های انتقال (و پاداش) برای یادگیری تقویت مبتنی بر مدل در یک جهان پیچیده معرفی می کند. ما یک فرمول تصمیم گیری از فرایندهای تصمیم گیری مارکوف را پیشنهاد می کنیم که از آموزش کارآمد آنلاین از ویژگی های مربوط به مشکل برای تقریب دینامیک جهان پشتیبانی می کند. ما تکنیک های تقریبی جدید انتخاب و پویایی را در یادگیری انتقال ناهمگن اعمال می کنیم، جایی که عامل به طور خودکار چندین نمایندگی از جهان را برای مقابله با محیط های مختلفی که در طول عمر خود با آن روبرو هستند، حفظ و سازگار می کند. معیارهای پشیمانی را برای رویکرد ما ثابت می کنیم و تجربی نشان می دهد که توانایی آن در سرعت همگرایی به یک سیاست نزدیک به مطلوب در محیط های واقعی و شبیه سازی شده است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Reinforcement learning is a plausible theoretical basis for developing self-learning, autonomous agents or robots that can effectively represent the world dynamics and efficiently learn the problem features to perform different tasks in different environments. The computational costs and complexities involved, however, are often prohibitive for real-world applications. This study introduces a scalable methodology to learn and transfer knowledge of the transition (and reward) models for model-based reinforcement learning in a complex world. We propose a variant formulation of Markov decision processes that supports efficient online-learning of the relevant problem features to approximate the world dynamics. We apply the new feature selection and dynamics approximation techniques in heterogeneous transfer learning, where the agent automatically maintains and adapts multiple representations of the world to cope with the different environments it encounters during its lifetime. We prove regret bounds for our approach, and empirically demonstrate its capability to quickly converge to a near optimal policy in both real and simulated environments.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Artificial Intelligence - Volume 247, June 2017, Pages 70-94
نویسندگان
, , , ,