دانلود رایگان مقاله: جستجوی سیاست چند منظوره مبتنی بر مانیفولد با استفاده مجدد از نمونه

کد مقاله	کد نشریه	سال انتشار	مقاله انگلیسی	نسخه تمام متن
4947078	1439564	2017	12 صفحه PDF	دانلود رایگان

عنوان انگلیسی مقاله ISI

Manifold-based multi-objective policy search with sample reuse

ترجمه فارسی عنوان

جستجوی سیاست چند منظوره مبتنی بر مانیفولد با استفاده مجدد از نمونه

دانلود مقاله + سفارش ترجمه

دانلود مقاله ISI انگلیسی

رایگان برای ایرانیان

کلمات کلیدی

چند هدفه، تقویت یادگیری، جستجوی سیاست بهینه سازی جعبه سیاه، نمونه گیری اهمیت،

Black-box optimization - بهینه سازی جعبه سیاه Importance sampling - نمونه گیری نقاط مهم Multi-objective - چند هدفه Reinforcement learning - یادگیری تقویتی

ترجمه چکیده

بسیاری از برنامه های دنیای واقعی با اهداف متعدد متضاد مشخص می شوند. در چنین شرایطی، بهینه سازی جایگزین بهینه سازی پارتو می شود و هدف این است که مرز پارتو را پیدا کند، مجموعه ای از راه حل هایی که سازش های مختلف را در میان اهداف نشان می دهد. با وجود پیشرفت های اخیر در بهینه سازی چند هدفه، دستیابی به نمای دقیق مرز پارتو هنوز یک چالش مهم است. با تکیه بر پیشرفت های اخیر در یادگیری تقویت و جستجوی سیاست چند هدفه، ما دو الگوریتم جدید مبتنی بر چند منظوره برای حل چند منظوره تصمیم گیری مارکوف ارائه می دهیم. این الگوریتم ها استراتژی های اکتشافی اپیزودیک و نمونه گیری اهمیت را به طور موثر در یک فضای پارامترهای سیاست ایفا می کنند به طوری که تصویر آن در فضای هدف دقیقا مرز پارتو را تقریبا تقریبا نزدیک می کند. ما نشان می دهیم که رویکردهای مبتنی بر اپیزود و نمونه گیری اهمیت می تواند منجر به نتایج قابل توجهی در زمینه یادگیری تقویت چند منظوره شود. بر اساس سه مسئله چند هدفه، الگوریتم های ما از روش های پیشرفته تر هر دو از لحاظ کیفیت مرز پارتو و بازده نمونه استفاده می کنند.

موضوعات مرتبط

مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی

پیش نمایش مقاله

جستجوی سیاست چند منظوره مبتنی بر مانیفولد با استفاده مجدد از نمونه

چکیده انگلیسی

Many real-world applications are characterized by multiple conflicting objectives. In such problems optimality is replaced by Pareto optimality and the goal is to find the Pareto frontier, a set of solutions representing different compromises among the objectives. Despite recent advances in multi-objective optimization, achieving an accurate representation of the Pareto frontier is still an important challenge. Building on recent advances in reinforcement learning and multi-objective policy search, we present two novel manifold-based algorithms to solve multi-objective Markov decision processes. These algorithms combine episodic exploration strategies and importance sampling to efficiently learn a manifold in the policy parameter space such that its image in the objective space accurately approximates the Pareto frontier. We show that episode-based approaches and importance sampling can lead to significantly better results in the context of multi-objective reinforcement learning. Evaluated on three multi-objective problems, our algorithms outperform state-of-the-art methods both in terms of quality of the learned Pareto frontier and sample efficiency.

ناشر

Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 263, 8 November 2017, Pages 3-14

نویسندگان

S. Parisi, M. Pirotta, J. Peters,

علوم انسانی و هنر

فنی، مهندسی و علوم پایه

پزشکی و سلامت

بیو تکنولوژی

پذیرش سفارش ترجمه

دانلود رایگان مقاله ISI : جستجوی سیاست چند منظوره مبتنی بر مانیفولد با استفاده مجدد از نمونه

دسترسی سریع

ارتباط

English Website