کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6863722 1439520 2018 25 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Iterative adaptive dynamic programming methods with neural network implementation for multi-player zero-sum games
ترجمه فارسی عنوان
روش های برنامه ریزی پویا تطبیقی ​​با استفاده از شبکه عصبی برای بازی های چندجملهای صفر
ترجمه چکیده
این مقاله روش های تکراری یادگیری جدید همراه با اجرای شبکه عصبی برای بازی های چند نفره ای را ارائه می دهد. حل بازی های صفر به راه حل معادلات همیلتون-یعقوبی-ایساکس بستگی دارد که معادلات دیفرانسیل نسبی غیر خطی هستند. این راه حل ها عموما مشکل یا حتی غیرممکن است که به صورت تحلیلی به دست آید. برای غلبه بر این مشکل، الگوریتم های برنامه ریزی پویا تکراری تکراری استفاده می شود. در تحقیقات مربوطه، معماری سه شبکه، یعنی ساختار اختلال منتقد و بازیگر، برای تقریب تابع ارزش، سیاست های کنترل و سیاست های اختلال استفاده می شود. متفاوت از آثار قبلی، این مقاله معماری تک شبکه ای، یعنی ساختار منتقد تنها را برای اجرای الگوریتم های پیشنهادی استفاده می کند که باعث کاهش بار محاسبات و پیچیدگی روش طراحی می شود. در نهایت، دو مثال شبیه سازی برای نشان دادن اثربخشی روش های پیشنهادی ارائه شده است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
This paper presents novel iterative learning methods along with the neural network implementation for multi-player zero-sum games. Solving zero-sum games depends on the solutions of Hamilton-Jacobi-Isaacs equations, which are nonlinear partial differential equations. These solutions are generally difficult or even impossible to be obtained analytically. To overcome this difficulty, iterative adaptive dynamic programming algorithms are utilized. In the related research works, three-network architecture, i.e., critic-actor-disturbance structure, is used to approximate the value function, control policies and disturbance policies. Different from the previous works, this paper employs single-network architecture, i.e., critic-only structure, to implement the proposed algorithms, which reduces the computation burden and the complexity of design procedure. Finally, two simulation examples are provided to illustrate the effectiveness of our proposed methods.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 307, 13 September 2018, Pages 54-60
نویسندگان
, , , ,