کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6864366 1439540 2018 21 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
A deep-learning based feature hybrid framework for spatiotemporal saliency detection inside videos
ترجمه فارسی عنوان
یک چارچوب هیبریدی مبتنی بر یادگیری عمیق برای کشف حساسیت فضایی و زمانی در داخل فیلم
کلمات کلیدی
تشخیص حساسیت اسپکتروموتورال، نگاه انسانی، شبکه های عصبی انعقادی، پراکندگی بصری، استخراج برجسته فیلم،
ترجمه چکیده
اگر چه تحقیقات در زمینه تشخیص حساسیت و توجه بصری در طول سالهای اخیر فعال بوده است، بیشتر کارهای موجود بر روی تصویر ثابت به جای تصویربرداری مبتنی بر ویدیو متمرکز شده است. در این مقاله، یک چارچوب استخراج چارچوب استخراج از لحاظ آماری مبتنی بر یادگیری عمیق مبتنی بر کشف ویژگی برای فیلم های ویدئویی پیشنهاد شده است. مدل یادگیری عمیق برای استخراج ویژگی های سطح بالا از داده های ویدئوی خام استفاده می شود و سپس با دیگر ویژگی های سطح بالا ادغام می شوند. شبکه یادگیری عمیق برای استخراج ویژگی های پنهان از روش متداول دستی استفاده شده است. اثربخشی استفاده از ویژگی های سطح بالا ترکیبی برای تشخیص حساسیت در ویدیو در این کار نشان داده شده است. به جای استفاده از یک تصویر استاتیک، مدل یادگیری عمیق پیشنهاد شده، چندین فریم متوالی را به عنوان ورودی می گیرد و هر دو از ویژگی های فضایی و زمانی در هنگام محاسبه نقشه های ثروت در نظر گرفته می شوند. کارایی چارچوب ویژگی هیبرید پیشنهادی توسط پنج پایگاه داده با صحنه پیچیده انسانی بررسی شده است. نتایج تجربی نشان می دهد که مدل پیشنهادی در مقایسه با پنج حالت دیگر، پیشرفته ترین روش شناسایی قابلیت های ویدئویی است. علاوه بر این، چارچوب پیشنهادی برای سایر برنامه های مبتنی بر ویدئو مانند ویدیو های برجسته مفید است. در نتیجه، یک مجموعه داده های کلیدی فیلم کلی همراه با برجسته های ویدئویی برچسب تولید می شود.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Although research on detection of saliency and visual attention has been active over recent years, most of the existing work focuses on still image rather than video based saliency. In this paper, a deep learning based hybrid spatiotemporal saliency feature extraction framework is proposed for saliency detection from video footages. The deep learning model is used for the extraction of high-level features from raw video data, and they are then integrated with other high-level features. The deep learning network has been found extremely effective for extracting hidden features than that of conventional handcrafted methodology. The effectiveness for using hybrid high-level features for saliency detection in video is demonstrated in this work. Rather than using only one static image, the proposed deep learning model take several consecutive frames as input and both the spatial and temporal characteristics are considered when computing saliency maps. The efficacy of the proposed hybrid feature framework is evaluated by five databases with human gaze complex scenes. Experimental results show that the proposed model outperforms five other state-of-the-art video saliency detection approaches. In addition, the proposed framework is found useful for other video content based applications such as video highlights. As a result, a large movie clip dataset together with labeled video highlights is generated.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 287, 26 April 2018, Pages 68-83
نویسندگان
, , , , ,