کد مقاله | کد نشریه | سال انتشار | مقاله انگلیسی | نسخه تمام متن |
---|---|---|---|---|
4969624 | 1449975 | 2017 | 34 صفحه PDF | دانلود رایگان |
عنوان انگلیسی مقاله ISI
Scalable lifelong reinforcement learning
ترجمه فارسی عنوان
یادگیری تقویت مادام العمر قابل ملاحظه
دانلود مقاله + سفارش ترجمه
دانلود مقاله ISI انگلیسی
رایگان برای ایرانیان
کلمات کلیدی
تقویت یادگیری، یادگیری مادام العمر، بهینه سازی توزیع، انتقال یادگیری،
ترجمه چکیده
یادگیری تقویت طول عمر یک چارچوب موفق برای عاملان برای یادگیری چندین وظیفه متوالی را به صورت متوالی فراهم می کند. با این حال، روش های فعلی، از مسائل مقیاس پذیری رنج می برند، هنگامی که عامل باید تعداد زیادی از وظایف را حل کند. در این مقاله، نقاط ضعف بالا را رفع می کنیم و یک تکنیک مقیاس پذیر جدید برای یادگیری تقویت مادام العمر ارائه می دهیم. ما یک الگوریتم را به دست می آوریم که در دسترس بودن واحدهای پردازش چندگانه قرار می گیرد و مخازن مشترک و سکوهای محلی را با استفاده از تنها تبادل اطلاعات محلی محاسبه می کند. ما پس از آن نشان می دهد بهبود برای رسیدن به یک میزان همگرا خطی در مقایسه با روش های جستجوی سیاست های فعلی در حال حاضر. در نهایت، تکنیک ما را در مجموعه ای از سیستم های دینامیکی معیار ارزیابی می کنیم و نشان می دهد سرعت یادگیری و کاهش زمان اجرا.
موضوعات مرتبط
مهندسی و علوم پایه
مهندسی کامپیوتر
چشم انداز کامپیوتر و تشخیص الگو
چکیده انگلیسی
Lifelong reinforcement learning provides a successful framework for agents to learn multiple consecutive tasks sequentially. Current methods, however, suffer from scalability issues when the agent has to solve a large number of tasks. In this paper, we remedy the above drawbacks and propose a novel scalable technique for lifelong reinforcement learning. We derive an algorithm which assumes the availability of multiple processing units and computes shared repositories and local policies using only local information exchange. We then show an improvement to reach a linear convergence rate compared to current lifelong policy search methods. Finally, we evaluate our technique on a set of benchmark dynamical systems and demonstrate learning speed-ups and reduced running times.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Pattern Recognition - Volume 72, December 2017, Pages 407-418
Journal: Pattern Recognition - Volume 72, December 2017, Pages 407-418
نویسندگان
Yusen Zhan, Haitham Bou Ammar, Matthew E. Taylor,