کد مقاله | کد نشریه | سال انتشار | مقاله انگلیسی | نسخه تمام متن |
---|---|---|---|---|
4947202 | 1439568 | 2017 | 34 صفحه PDF | دانلود رایگان |
عنوان انگلیسی مقاله ISI
Toward an audiovisual attention model for multimodal video content
ترجمه فارسی عنوان
به سوی یک مدل توجه به سمعی و بصری برای محتوای ویدئویی چندجمله ای
دانلود مقاله + سفارش ترجمه
دانلود مقاله ISI انگلیسی
رایگان برای ایرانیان
کلمات کلیدی
معیار صدا و سیما، چهره های صحبت کردن توجه ویژهای، ردیابی چشم، صوتی و تصویری هماهنگ، استراتژی های فیوژن،
ترجمه چکیده
مدل سازی چشم انداز یک زمینه تحقیق بسیار فعال است و چندین مدل توجه و توجه تصویری در دهه گذشته ارائه شده است. با این حال، به رغم نتایجی که از مطالعات مختلف در مورد تأثیر دیدگاه های انسانی توسط حضور صدای گرفته شده است، بیشتر مدل های توجه کلاسیک ویدیو توجه چند ماهه ویدئویی (نشانه های بصری و شنوایی) را نمی پذیرند. در این مقاله، ما یک مدل معرفتی سمعی و بصری با هدف پیش بینی نقشه های دیدگاه انسانی در هنگام جستجوی محتوای ویدئویی پیشنهاد می کنیم. این مدل که برای ویدئو کنفرانس طراحی شده است، براساس تلفیق نقشه های فضایی، زمانی و شنوایی است. براساس رویکرد محلی سازی بلندگوهای سمعی و بصری، نقشه شنیداری پیشنهاد شده بسته به ماهیت چهره های ویدئویی، یعنی سخنران یا حسابرس، مدوله می شود. برای مقایسه مقادیر پیش بینی شده با حقیقت زمین ردیابی چشم انداز، از معیارهای عملکرد پیشرفته ای استفاده شده است. نتایج به دست آمده نشان می دهد عملکرد بسیار خوبی از مدل پیشنهادی و بهبود قابل توجهی نسبت به مدل های غیر صوتی.
موضوعات مرتبط
مهندسی و علوم پایه
مهندسی کامپیوتر
هوش مصنوعی
چکیده انگلیسی
Visual attention modeling is a very active research field and several image and video attention models have been proposed during the last decade. However, despite the conclusions drawn from various studies about the influence of human gazes by the presence of sound, most of the classical video attention models do not account for the multimodal nature of video (visual and auditory cues). In this paper, we propose an audiovisual saliency model with the aim to predict human gaze maps when exploring video content. The model, intended for videoconferencing, is based on the fusion of spatial, temporal and auditory attentional maps. Based on a real-time audiovisual speaker localization approach, the proposed auditory map is modulated depending of the nature of faces in the video, i.e. speaker or auditor. State-of-the-art performance measures have been used to compare the predicted saliency maps with the eye-tracking ground truth. The obtained results show the very good performance of the proposed model and a significant improvement compared to non-audio models.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 259, 11 October 2017, Pages 94-111
Journal: Neurocomputing - Volume 259, 11 October 2017, Pages 94-111
نویسندگان
Naty Sidaty, Mohamed-Chaker Larabi, Abdelhakim Saadane,