کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6854766 1437594 2018 11 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Combination of learning from non-optimal demonstrations and feedbacks using inverse reinforcement learning and Bayesian policy improvement
ترجمه فارسی عنوان
ترکیبی از یادگیری از تظاهرات غیر بهینه و بازخورد با استفاده از آموزش تقویت معکوس و بهبود سیاست بژ
کلمات کلیدی
آموزش توسط تظاهرات، یادگیری تقویت معکوس، یادگیری تعاملی، بازخورد ارزیابی انسانی،
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Expert Systems with Applications - Volume 112, 1 December 2018, Pages 331-341
نویسندگان
, , , ,