کد مقاله | کد نشریه | سال انتشار | مقاله انگلیسی | نسخه تمام متن |
---|---|---|---|---|
8965187 | 1646702 | 2018 | 26 صفحه PDF | دانلود رایگان |
عنوان انگلیسی مقاله ISI
Training a robust reinforcement learning controller for the uncertain system based on policy gradient method
ترجمه فارسی عنوان
آموزش یک کنترل کننده تقویت قوی برای سیستم نامشخص براساس روش شیب خطی
دانلود مقاله + سفارش ترجمه
دانلود مقاله ISI انگلیسی
رایگان برای ایرانیان
کلمات کلیدی
کنترل دقیق، تقویت یادگیری، گرادیان سیاست،
ترجمه چکیده
هدف از این مقاله، طراحی یک کنترل کننده قوی بدون مدل برای سیستم های نامشخص است. عدم اطمینان سیستم کنترل به طور عمده شامل عدم قطعیت مدل و اختلال خارجی است که به طور گسترده ای در استفاده عملی وجود دارد. این عدم اطمینان منفی بر عملکرد سیستم تاثیر می گذارد و این باعث می شود که ما یک کنترلر آزاد مدل را برای حل این مشکل آموزش دهیم. یادگیری تقویت کننده یک شاخه مهم یادگیری ماشین است و قادر است با بهینه سازی یک سیاست بدون دانش مدل ریاضی گیاه به خوبی نتایج کنترل را به دست آورد. در این مقاله، ما یک ماژول تابع پاداش را برای توصیف محیط خاص سیستم مورد نظر، با توجه به عدم قطعیت در نظر می گیریم. سپس با استفاده از یک روش شبیه سازی جدید سیاست برای بهینه سازی خط مشی و اجرای این الگوریتم با شبکه های شبکه ساختاری بازیگر منتقد. این دو شبکه کنترل کننده های تقویت کننده ما هستند. در نهایت، کاربرد و کارایی روش پیشنهادی را با استفاده از آن در یک مدل پلت فرم هلی کوپتر تجربی، که شامل عدم اطمینان مدل و اختلالات خارجی است، نشان می دهد.
موضوعات مرتبط
مهندسی و علوم پایه
مهندسی کامپیوتر
هوش مصنوعی
چکیده انگلیسی
The target of this paper is to design a model-free robust controller for uncertain systems. The uncertainties of the control system mainly consists of model uncertainty and external disturbance, which widely exist in the practical utilization. These uncertainties will negatively influence the system performance and this motivates us to train a model-free controller to solve this problem. Reinforcement learning is an important branch of machine learning and is able to achieve well performed control results by optimizing a policy without the knowledge of mathematical plant model. In this paper, we construct a reward function module to describe the specific environment of the concerned system, taking uncertainties into account. Then we utilize a new policy gradient method to optimize the policy and implement this algorithm with the actor-critic structure neuro networks. These two networks are our reinforcement learning controllers. Finally, we illustrate the applicability and efficiency of the proposed method by applying it on an experimental helicopter platform model, which includes model uncertainties and external disturbances.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 316, 17 November 2018, Pages 313-321
Journal: Neurocomputing - Volume 316, 17 November 2018, Pages 313-321
نویسندگان
Zhan Li, Shengri Xue, Weiyang Lin, Mingsi Tong,