کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4942123 1436985 2017 18 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Relational reinforcement learning with guided demonstrations
ترجمه فارسی عنوان
یادگیری تقویت ارتباطی با تظاهرات های هدایت شده
کلمات کلیدی
یادگیری فعال، راهنمایی تحصیلی، برنامه ریزی بهانه، تقویت یادگیری، یادگیری ربات، تظاهرات معلم، راهنمایی معلم،
ترجمه چکیده
یادگیری تقویت مبتنی بر مدل یک پارادایم قدرتمند برای یادگیری وظایف در رباتیک است. با این حال، عمق کاوش معمولا مورد نیاز است و اقدامات باید پیش از آن شناخته شوند. بنابراین، ما یک الگوریتم جدید ارائه می دهیم که گزینه ای را برای درخواست تظاهرات معلمان برای یادگیری حوزه های جدید با اعدام های کمتری اعمال می کند و هیچ دانش قبلی ایفا نمی کند. تظاهرات به اعمال جدید می توانند یاد بگیرند و مقدار اکتشافی مورد نیاز را کاهش می دهند، اما آنها فقط زمانی درخواست می شود که انتظار می رود که بهبود قابل ملاحظه ای داشته باشند، زیرا زمان معلم ارزشمند تر از زمان ربات است. علاوه بر این، انتخاب اقدام مناسب برای نشان دادن کار ساده ای نیست و در نتیجه بعضی از راهنمایی ها به معلم ارائه می شود. مدل مبتنی بر قاعده برای تعیین بخش هایی از وضعیت که ممکن است ناقص باشد، تجزیه و تحلیل می شود و معلم را با مجموعه ای از مشکلات احتمالی که برای تظاهرات مورد نیاز است فراهم می کند. تجزیه و تحلیل قانون نیز برای پیدا کردن مدل های جایگزین بهتر و تکمیل زیر اهداف قبل از درخواست کمک استفاده می شود، در نتیجه به حداقل رساندن تعداد تظاهرات مورد درخواست. این پیشرفت ها در مجموعه ای از آزمایشات نشان داده شد که شامل دامنه های رقابت برنامه ریزی بین المللی و یک کار رباتیک بود. افزودن تظاهرات معلمان و تجزیه و تحلیل قوانین، میزان اکتشاف مورد نیاز در 60٪ در برخی از حوزه ها را کاهش داد و نسبت موفقیت در 35٪ در سایر زمینه ها را بهبود بخشید.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Model-based reinforcement learning is a powerful paradigm for learning tasks in robotics. However, in-depth exploration is usually required and the actions have to be known in advance. Thus, we propose a novel algorithm that integrates the option of requesting teacher demonstrations to learn new domains with fewer action executions and no previous knowledge. Demonstrations allow new actions to be learned and they greatly reduce the amount of exploration required, but they are only requested when they are expected to yield a significant improvement because the teacher's time is considered to be more valuable than the robot's time. Moreover, selecting the appropriate action to demonstrate is not an easy task, and thus some guidance is provided to the teacher. The rule-based model is analyzed to determine the parts of the state that may be incomplete, and to provide the teacher with a set of possible problems for which a demonstration is needed. Rule analysis is also used to find better alternative models and to complete subgoals before requesting help, thereby minimizing the number of requested demonstrations. These improvements were demonstrated in a set of experiments, which included domains from the international planning competition and a robotic task. Adding teacher demonstrations and rule analysis reduced the amount of exploration required by up to 60% in some domains, and improved the success ratio by 35% in other domains.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Artificial Intelligence - Volume 247, June 2017, Pages 295-312
نویسندگان
, , ,