دانلود رایگان مقاله: برآورد پاداش برای بهینه سازی سیاست گفتمان

کد مقاله	کد نشریه	سال انتشار	مقاله انگلیسی	نسخه تمام متن
6951465	1451676	2018	20 صفحه PDF	دانلود رایگان

عنوان انگلیسی مقاله ISI

Reward estimation for dialogue policy optimisation

ترجمه فارسی عنوان

برآورد پاداش برای بهینه سازی سیاست گفتمان

دانلود مقاله + سفارش ترجمه

دانلود مقاله ISI انگلیسی

رایگان برای ایرانیان

کلمات کلیدی

سیستم های گفتگو، تقویت یادگیری، یادگیری عمیق، برآورد پاداش، روند گاوسی، یادگیری فعال،

Dialogue systems - سیستم های گفتگو Gaussian process - فرآیند گاوسی Reinforcement learning - یادگیری تقویتی Deep learning - یادگیری عمیق Active learning - یادگیری فعال

ترجمه چکیده

مشاهده مدیریت گفتمان به عنوان یک کار یادگیری تقویت، یک سیستم را قادر می سازد تا با به حداکثر رساندن یک تابع پاداش به بهترین نحو عمل کند. این تابع پاداش برای ایجاد رفتار سیستم مورد نیاز برای برنامه کاربردی هدف و برای برنامه های هدف گرا طراحی شده است، این معمولا به معنی دستیابی به هدف کاربر به عنوان موثر به عنوان امکان پذیر است. با این حال، در برنامه های کاربردی سیستم دیجیتال صحبت شده در دنیای واقعی، پاداش اندازه گیری سخت است، زیرا هدف کاربر اغلب فقط به کاربر شناخته شده است. البته، سیستم می تواند از کاربر بخواهد که آیا هدف راضی شده است یا خیر، اما این می تواند مزاحم باشد. علاوه بر این، در عمل، دقت پاسخ کاربر بسیار متغیر است. این مقاله دو روش برای حل این مشکل را ارائه می دهد. اولا، یک شبکه عصبی مکرر به عنوان یک پیش بینی کننده موفقیت در کار استفاده می شود که از اطلاعات خارج از خط قبل از آموزش برای برآورد موفقیت در موفقیت در یادگیری خط مشی های دیالوگ در خط می باشد. در مرحله دوم، یک چارچوب یادگیری آنلاین در نظر گرفته شده است که به موجب آن یک سیاست دیالوگ به طور مشترک در کنار یک تابع پاداش که به عنوان فرآیند گاوسی با یادگیری فعال طراحی شده است، آموزش دیده است. این فرآیند گاوس بر روی تعبیه ی ثابت ثابت عمل می کند که کدام هر گفتار طولی متفاوت است. این تعامل گفتمان در هر دو حالت ناظر و بدون نظارت با استفاده از انواع مختلف یک شبکه عصبی مکرر ایجاد می شود. نتایج تجربی اثربخشی روش های غیر خطی و خطی را نشان می دهد. این روش ها آموزش عملی خطمشی را در زمینه برنامه های گفتگو در برنامه های کاربردی دنیای واقعی را امکان پذیر می سازد.

موضوعات مرتبط

مهندسی و علوم پایه مهندسی کامپیوتر پردازش سیگنال

پیش نمایش مقاله

برآورد پاداش برای بهینه سازی سیاست گفتمان

چکیده انگلیسی

Viewing dialogue management as a reinforcement learning task enables a system to learn to act optimally by maximising a reward function. This reward function is designed to induce the system behaviour required for the target application and for goal-oriented applications, this usually means fulfilling the user's goal as efficiently as possible. However, in real-world spoken dialogue system applications, the reward is hard to measure because the user's goal is frequently known only to the user. Of course, the system can ask the user if the goal has been satisfied but this can be intrusive. Furthermore, in practice, the accuracy of the user's response has been found to be highly variable. This paper presents two approaches to tackling this problem. Firstly, a recurrent neural network is utilised as a task success predictor which is pre-trained from off-line data to estimate task success during subsequent on-line dialogue policy learning. Secondly, an on-line learning framework is described whereby a dialogue policy is jointly trained alongside a reward function modelled as a Gaussian process with active learning. This Gaussian process operates on a fixed dimension embedding which encodes each varying length dialogue. This dialogue embedding is generated in both a supervised and unsupervised fashion using different variants of a recurrent neural network. The experimental results demonstrate the effectiveness of both off-line and on-line methods. These methods enable practical on-line training of dialogue policies in real-world applications.

ناشر

Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computer Speech & Language - Volume 51, September 2018, Pages 24-43

نویسندگان

Pei-Hao Su, Milica GaÅ¡iÄ, Steve Young,

علوم انسانی و هنر

فنی، مهندسی و علوم پایه

پزشکی و سلامت

بیو تکنولوژی

پذیرش سفارش ترجمه

دانلود رایگان مقاله ISI : برآورد پاداش برای بهینه سازی سیاست گفتمان

دسترسی سریع

ارتباط

English Website