کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6951515 1451686 2017 25 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
A simple generative model of incremental reference resolution for situated dialogue
ترجمه فارسی عنوان
یک مدل نسل ساده ای از وضوح مرجع افزایشی برای گفتگوی واقع شده
کلمات کلیدی
ترجمه چکیده
اشاره به اشیا بصری قابل تشخیص یک رخداد بسیار رایج در استفاده از زبان روزمره است. برای تولید عباراتی که اشاره می کنند، بلندگو باید بتواند خواص بصری را که شی اشاره شده را انتخاب می کند را انتخاب کند و کلمات را به نام آن خواص تعریف کند، به طوری که بیان می تواند توجه شنونده را به جسم مورد نظر هدایت کند. سخنران می تواند به شنونده با نگاه کردن به جهت جسم و ارائه یک ژست اشاره به آن نشان می دهد. برای رفع مرجع، شنونده کار سختی انجام می دهد: به طور همزمان از تمام اطلاعات زبانی و غیر زبان شناسی استفاده می کند؛ کلمات عبارت ارجاع که مشخصه خواص شی، مانند رنگ یا شکل آن هستند، باید قبلا شناخته شوند، و جهت نگرش غیر زبان شناختی و حرکت اشاره گر بلندگو باید شامل شود. مهمتر از آن، شنونده قبل از اینکه شروع به حل کند، صبر کند تا پایان عبارت ارجاع نشود. در عوض، او آن را به عنوان آن را آشکار است. یک مدل که عبارات ارجاع را حل می کند به عنوان شنونده باید بتواند تمام این موارد را انجام دهد. در این مقاله، ما یک مدل نسبی از وضوح مرجع ارائه می دهیم. ما مدل ما را توضیح می دهیم و به صورت تجربی از طریق یک سری آزمایش ها نشان می دهیم که مدل می تواند به صورت قدم به قدم (یعنی کلمه برای کلمه) به عنوان عبارات ارجاع بازتولید شود، می تواند اطلاعات چندجمله ای مانند چشم انداز و حرکات اشاره را به دو صورت ترکیب کند: کلمات در عبارت ارجاع می توانند اطلاعات متنی (یعنی اطلاعات) را در بر بگیرند و از ورودی پر سر و صدا مانند رونویسی های تشخیص خودکار گفتار و عدم اطمینان در نمایندگی اشیاء کاندید استفاده می کنند.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر پردازش سیگنال
چکیده انگلیسی
Referring to visually perceivable objects is a very common occurrence in everyday language use. In order to produce expressions that refer, the speaker needs to be able to pick out visual properties that the referred object has and determine the words that name those properties, such that the expression can direct a listener's attention to the intended object. The speaker can aid the listener by looking in the direction of the object and by providing a pointing gesture to indicate it. In order to resolve the reference, the listener has a difficult job to do: simultaneously use all of the linguistic and non-linguistic information; the words of the referring expression that denote properties of the object, such as its colour or shape, need to already be known, and the non-linguistic gaze direction and pointing gesture of the speaker need to be incorporated. Crucially, the listener does not wait until the end of the referring expression before she begins to resolve it; rather, she is interpreting it as it unfolds. A model that resolves referring expressions as the listener must be able to do all of these things. In this paper, we present such a generative model of reference resolution. We explain our model and show empirically through a series of experiments that the model can work incrementally (i.e., word for word) as referring expressions unfold, can incorporate multimodal information such as gaze and pointing gestures in two ways, can learn a grounded meaning of words in the referring expression, can incorporate contextual (i.e., saliency) information, and is robust to noisy input such as automatic speech recognition transcriptions, as well as uncertainty in the representation of the candidate objects.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computer Speech & Language - Volume 41, January 2017, Pages 43-67
نویسندگان
, ,