کد مقاله | کد نشریه | سال انتشار | مقاله انگلیسی | نسخه تمام متن |
---|---|---|---|---|
6863722 | 1439520 | 2018 | 25 صفحه PDF | دانلود رایگان |
عنوان انگلیسی مقاله ISI
Iterative adaptive dynamic programming methods with neural network implementation for multi-player zero-sum games
ترجمه فارسی عنوان
روش های برنامه ریزی پویا تطبیقی با استفاده از شبکه عصبی برای بازی های چندجملهای صفر
دانلود مقاله + سفارش ترجمه
دانلود مقاله ISI انگلیسی
رایگان برای ایرانیان
کلمات کلیدی
ترجمه چکیده
این مقاله روش های تکراری یادگیری جدید همراه با اجرای شبکه عصبی برای بازی های چند نفره ای را ارائه می دهد. حل بازی های صفر به راه حل معادلات همیلتون-یعقوبی-ایساکس بستگی دارد که معادلات دیفرانسیل نسبی غیر خطی هستند. این راه حل ها عموما مشکل یا حتی غیرممکن است که به صورت تحلیلی به دست آید. برای غلبه بر این مشکل، الگوریتم های برنامه ریزی پویا تکراری تکراری استفاده می شود. در تحقیقات مربوطه، معماری سه شبکه، یعنی ساختار اختلال منتقد و بازیگر، برای تقریب تابع ارزش، سیاست های کنترل و سیاست های اختلال استفاده می شود. متفاوت از آثار قبلی، این مقاله معماری تک شبکه ای، یعنی ساختار منتقد تنها را برای اجرای الگوریتم های پیشنهادی استفاده می کند که باعث کاهش بار محاسبات و پیچیدگی روش طراحی می شود. در نهایت، دو مثال شبیه سازی برای نشان دادن اثربخشی روش های پیشنهادی ارائه شده است.
موضوعات مرتبط
مهندسی و علوم پایه
مهندسی کامپیوتر
هوش مصنوعی
چکیده انگلیسی
This paper presents novel iterative learning methods along with the neural network implementation for multi-player zero-sum games. Solving zero-sum games depends on the solutions of Hamilton-Jacobi-Isaacs equations, which are nonlinear partial differential equations. These solutions are generally difficult or even impossible to be obtained analytically. To overcome this difficulty, iterative adaptive dynamic programming algorithms are utilized. In the related research works, three-network architecture, i.e., critic-actor-disturbance structure, is used to approximate the value function, control policies and disturbance policies. Different from the previous works, this paper employs single-network architecture, i.e., critic-only structure, to implement the proposed algorithms, which reduces the computation burden and the complexity of design procedure. Finally, two simulation examples are provided to illustrate the effectiveness of our proposed methods.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 307, 13 September 2018, Pages 54-60
Journal: Neurocomputing - Volume 307, 13 September 2018, Pages 54-60
نویسندگان
He Jiang, Huaguang Zhang, Ji Han, Kun Zhang,