کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6865470 679032 2016 8 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Online finite-horizon optimal learning algorithm for nonzero-sum games with partially unknown dynamics and constrained inputs
ترجمه فارسی عنوان
الگوریتم بهینه یادگیری آنلاین برای افق های نهایی برای بازی های غیر صفر با پویایی ناشناخته و ورودی محدود
کلمات کلیدی
افق محدود بازی های غیر رقابتی، شبکه عصبی، برنامه ریزی پویا سازگار،
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
In this paper, an online optimal learning algorithm based on adaptive dynamic programming (ADP) approach is designed to solve the finite-horizon optimal control for multi-player nonzero-sum games with partially unknown dynamics and constrained control inputs. Firstly, it is proved that the online policy iteration (PI) algorithm is equivalent to Newton׳s iteration. Secondly, the single neural networks (NNs) with time-varying activation functions for each player are used to approximate the time-varying solution to the coupled Hamilton-Jacobi-Bellman (HJB) equations in an online and forward-in-time manner. Control constraints are handled through non-quadratic functions. The convergence of NN-based online optimal learning algorithm for the multi-player nonzero-sum games is also proved. Finally, a simulation example illustrates the effectiveness of the proposed algorithm.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 185, 12 April 2016, Pages 37-44
نویسندگان
, , , ,