دانلود رایگان مقاله: بر اساس مدل مبتنی بر محتوا، برای بهینه سازی داده ها از مهارت های ربات جستجو می شود

کد مقاله	کد نشریه	سال انتشار	مقاله انگلیسی	نسخه تمام متن
4942129	1436985	2017	25 صفحه PDF	دانلود رایگان

عنوان انگلیسی مقاله ISI

Model-based contextual policy search for data-efficient generalization of robot skills

ترجمه فارسی عنوان

بر اساس مدل مبتنی بر محتوا، برای بهینه سازی داده ها از مهارت های ربات جستجو می شود

دانلود مقاله + سفارش ترجمه

دانلود مقاله ISI انگلیسی

رایگان برای ایرانیان

کلمات کلیدی

روباتیک، تقویت یادگیری، جستجوی سیاست محتوا، جستجوی مبتنی بر مدل، تعمیم مهارت ربات، فرآیندهای گاوسی، ابتکارات حرکت ربات تنیس روی میز، هاکی روبات،

Movement primitives - ابتکارات حرکت Robotics - رباتیک Gaussian processes - فرآیندهای گاوسی Reinforcement learning - یادگیری تقویتی

ترجمه چکیده

در روباتیک، کنترل کننده های سطح پایین به طور معمول برای ساختن ربات یک کار خاص را در یک زمینه ثابت مورد استفاده قرار می دهند. به عنوان مثال، کنترل کننده سطح پایین می تواند یک حرکت ضربه را رمزگذاری کند در حالی که متن تعیین مختصات هدف برای ضربه زدن است. با این حال، در بسیاری از مشکلات یادگیری ممکن است زمینه بین اعدام های کار تغییر کند. برای انطباق سیاست با یک زمینه جدید، از یک روش سلسله مراتبی استفاده می کنیم با یادگیری یک سطح بالاتری که عموم کننده کنترل کننده های سطح پایین به زمینه های جدید است. یک رویکرد رایج برای یادگیری چنین سیاست های سطح بالا، استفاده از جستجو در سیاست است. با این حال، اکثر روش های کنونی جستجوی سیاست های متداول بدون مدل هستند و نیاز به تعداد زیادی از تعاملات با ربات و محیط آن است. روش های مبتنی بر مدل شناخته شده است که به طور قابل توجهی کاهش مقدار آزمایش های ربات، با این حال، تکنیک های مبتنی بر مدل مبتنی بر فعلی را نمی توان به طور مستقیم به مشکل یادگیری سیاست های سطح بالا سطح متناوب. آنها بر پارامترهای خاص سیاست و تابع پاداش تکیه می کنند، که اغلب در فرمولبندی جستجوی خط مشی متداول غیر واقعی هستند. در این مقاله، الگوریتم جستجو بر اساس سیاست مبتنی بر مدل مبتنی بر مدل ارائه می شود که می تواند کلیدهای کنترل کننده های سطح پایین را داشته باشد و کارآیی داده ها است. رویکرد ما بر مبنای مدل های پیش بینی شده احتمالات آمیخته شده و جستجوی سیاست نظری اطلاعات استوار است. بر خلاف الگوریتم های فعلی، روش ما نیازی به فرض بر روی پارامیسازی سیاست یا عملکرد پاداش ندارد. ما بر روی وظایف رباتیک پیچیده شبیه سازی شده و در یک آزمایش واقعی ربات نشان می دهد که چارچوب یادگیری پیشنهادی سرعت پردازش یادگیری را تا دو مرتبه افزایش می دهد در حالی که در مقایسه با روش های موجود، در حال یادگیری سیاست های با کیفیت بالا است.

موضوعات مرتبط

مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی

پیش نمایش مقاله

بر اساس مدل مبتنی بر محتوا، برای بهینه سازی داده ها از مهارت های ربات جستجو می شود

چکیده انگلیسی

In robotics, lower-level controllers are typically used to make the robot solve a specific task in a fixed context. For example, the lower-level controller can encode a hitting movement while the context defines the target coordinates to hit. However, in many learning problems the context may change between task executions. To adapt the policy to a new context, we utilize a hierarchical approach by learning an upper-level policy that generalizes the lower-level controllers to new contexts. A common approach to learn such upper-level policies is to use policy search. However, the majority of current contextual policy search approaches are model-free and require a high number of interactions with the robot and its environment. Model-based approaches are known to significantly reduce the amount of robot experiments, however, current model-based techniques cannot be applied straightforwardly to the problem of learning contextual upper-level policies. They rely on specific parametrizations of the policy and the reward function, which are often unrealistic in the contextual policy search formulation. In this paper, we propose a novel model-based contextual policy search algorithm that is able to generalize lower-level controllers, and is data-efficient. Our approach is based on learned probabilistic forward models and information theoretic policy search. Unlike current algorithms, our method does not require any assumption on the parametrization of the policy or the reward function. We show on complex simulated robotic tasks and in a real robot experiment that the proposed learning framework speeds up the learning process by up to two orders of magnitude in comparison to existing methods, while learning high quality policies.

ناشر

Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Artificial Intelligence - Volume 247, June 2017, Pages 415-439

نویسندگان

Andras Kupcsik, Marc Peter Deisenroth, Jan Peters, Loh Ai Poh, Prahlad Vadakkepat, Gerhard Neumann,

علوم انسانی و هنر

فنی، مهندسی و علوم پایه

پزشکی و سلامت

بیو تکنولوژی

پذیرش سفارش ترجمه

دانلود رایگان مقاله ISI : بر اساس مدل مبتنی بر محتوا، برای بهینه سازی داده ها از مهارت های ربات جستجو می شود

دسترسی سریع

ارتباط

English Website