کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4948718 1439850 2017 17 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Benchmarking model-free and model-based optimal control
ترجمه فارسی عنوان
کنترل مطلوب مبتنی بر مدل و کنترل مدل
کلمات کلیدی
تقویت یادگیری، کنترل بهینه، کنترل پیش بینی نشده غیر خطی، عدم قطعیت پارامتریک، عدم قطعیت ساختاری،
ترجمه چکیده
یادگیری تقویت نشده مدل و کنترل پیش بینی کننده مدل غیر خطی دو روش متفاوت برای کنترل یک سیستم پویا به روش مطلوب با توجه به یک تابع هزینه پیشنهادی است. یادگیری تقویت می کند یک سیاست کنترل را از طریق تعامل اکتشافی با سیستم به دست می آورد، در حالی که کنترل پیش بینی شده مدل غیر خطی از یک مدل ریاضی صریح داده شده از سیستم استفاده می کند. در این مقاله، ما یک مقایسه جامع از عملکرد یادگیری تقویت و کنترل پیش بینی کننده مدل غیر خطی برای یک سیستم ایده آل و همچنین برای یک سیستم با عدم قطعیت پارامتری و ساختاری ارائه می کنیم. مقایسه بر اساس دو معیار متفاوت، یعنی شباهت تراپها و پاداشهای حاصل شده است. ارزیابی هر دو روش بر روی یک معیار معیار استاندارد انجام می شود: یک چرخش پاندول و یک کار تعادل. ابتدا فرمول بندی های مناسب ریاضی را پیدا می کنیم و در مورد تاثیر تفاوت در فرمولاسیون مشکالت بحث خواهیم کرد. سپس، استحکام یادگیری تقویت کننده و کنترل پیش بینی کننده مدل غیر خطی بر روی عدم قطعیت را مورد بررسی قرار می دهیم. نتایج نشان می دهد که کنترل پیش بینی شده مدل غیر خطی دارای مزایایی نسبت به یادگیری تقویتی است، اگر عدم اطمینان را می توان از طریق شناسایی پارامترهای سیستم حذف کرد. در غیر این صورت، یک نقطه شکستن وجود دارد پس از آن، یادگیری تقویت بدون مدل، بهتر از مدل پیش بینی نشده مدل غیر خطی با مدل نادرست انجام می شود. این یافته ها نشان می دهد که مزایا را می توان با ترکیب این روش ها برای سیستم های واقعی که چنین نااطمینانی را تحت پوشش قرار می دهند، بدست آورد. در آینده ما قصد داریم یک کنترل کننده هیبریدی را توسعه دهیم و عملکرد آن را در یک ربات واقعی هفت درجه آزادانه رانندگی ارزیابی کنیم.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Model-free reinforcement learning and nonlinear model predictive control are two different approaches for controlling a dynamic system in an optimal way according to a prescribed cost function. Reinforcement learning acquires a control policy through exploratory interaction with the system, while nonlinear model predictive control exploits an explicitly given mathematical model of the system. In this article, we provide a comprehensive comparison of the performance of reinforcement learning and nonlinear model predictive control for an ideal system as well as for a system with parametric and structural uncertainties. The comparison is based on two different criteria, namely the similarity of trajectories and the resulting rewards. The evaluation of both methods is performed on a standard benchmark problem: a cart-pendulum swing-up and balance task. We first find suitable mathematical formulations and discuss the effect of the differences in the problem formulations. Then, we investigate the robustness of reinforcement learning and nonlinear model predictive control against uncertainties. The results demonstrate that nonlinear model predictive control has advantages over reinforcement learning if uncertainties can be eliminated through identification of the system parameters. Otherwise, there exists a break-even point after which model-free reinforcement learning performs better than nonlinear model predictive control with an inaccurate model. These findings suggest that benefits can be obtained by combining these methods for real systems being subject to such uncertainties. In the future, we plan to develop a hybrid controller and evaluate its performance on a real seven-degree-of-freedom walking robot.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Robotics and Autonomous Systems - Volume 92, June 2017, Pages 81-90
نویسندگان
, , , , , , , ,