کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4947635 1439589 2017 15 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Data-driven adaptive dynamic programming for continuous-time fully cooperative games with partially constrained inputs
ترجمه فارسی عنوان
برنامه ریزی پویا تطبیقی ​​مبتنی بر داده ها برای بازی های مداوم و کامل همکاری با ورودی های محدود است
کلمات کلیدی
برنامه ریزی پویا سازگار، کنترل بهینه، شبکه عصبی، بازی کاملا تعاونی هدایت داده، ورودی محدود
ترجمه چکیده
در این مقاله، بازی به طور کامل مشارکتی با ورودی های محدود محدود در محیط پردازش تصمیم گیری مارکوف پیوسته با استفاده از یک روش برنامه ریزی پویای سازگار با داده های جدید، مورد بررسی قرار می گیرد. اول، الگوریتم تکرار سیاست مبتنی بر مدل با یک حلقه تکرار پیشنهاد شده است، که در آن دانش پویایی سیستم مورد نیاز است. سپس ثابت می شود که توالی تکراری توابع ارزش و سیاست های کنترل می توانند به موارد بهینه همگرا شوند. به منظور تسهیل دانش دقیق پویایی سیستم، یک معادله تکراری بدون مدل بر اساس الگوریتم مبتنی بر مدل و یادگیری تقویت انتگرال مشتق شده است. علاوه بر این، یک برنامه ریزی پویا تطبیقی ​​مبتنی بر داده ها برای حل معادلات بدون مدل با استفاده از داده های سیستم تولید شده است. از تجزیه و تحلیل نظری، ما ثابت می کنیم که این معادله تکراری بدون مدل معادل معادلات تکرار شده مبتنی بر مدل است، به این معنی که الگوریتم داده محور می تواند به تابع ارزش مطلوب و سیاست های کنترل نزدیک شود. برای اهداف پیاده سازی، سه شبکه عصبی ساخته شده اند تا تقریبی راه حل معادلات تکراری بدون مدل با استفاده از برنامه یادگیری خارج از سیاست پس از اینکه داده های سیستم موجود در مرحله اندازه گیری آنلاین جمع آوری می شوند. در نهایت، دو مثال برای نشان دادن اثربخشی طرح پیشنهادی ارائه شده است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
In this paper, the fully cooperative game with partially constrained inputs in the continuous-time Markov decision process environment is investigated using a novel data-driven adaptive dynamic programming method. First, the model-based policy iteration algorithm with one iteration loop is proposed, where the knowledge of system dynamics is required. Then, it is proved that the iteration sequences of value functions and control policies can converge to the optimal ones. In order to relax the exact knowledge of the system dynamics, a model-free iterative equation is derived based on the model-based algorithm and the integral reinforcement learning. Furthermore, a data-driven adaptive dynamic programming is developed to solve the model-free equation using generated system data. From the theoretical analysis, we prove that this model-free iterative equation is equivalent to the model-based iterative equations, which means that the data-driven algorithm can approach the optimal value function and control policies. For the implementation purpose, three neural networks are constructed to approximate the solution of the model-free iteration equation using the off-policy learning scheme after the available system data is collected in the online measurement phase. Finally, two examples are provided to demonstrate the effectiveness of the proposed scheme.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 238, 17 May 2017, Pages 377-386
نویسندگان
, , ,