کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6856817 1437970 2018 13 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Attention driven multi-modal similarity learning
ترجمه فارسی عنوان
یادگیری شباهت چندبعدی به رهبری توجه شده است
کلمات کلیدی
شباهت چندبعدی، مکانیسم توجه، یادگیری نمایندگی، چندین نمایش شبکه عصبی،
ترجمه چکیده
برای یادگیری یک تابع برای اندازه گیری شباهت یا ارتباط بین اشیاء یک کار مهم یادگیری ماشین است که به عنوان یادگیری شباهت یاد می شود. روش های متعارف معمولا برای پردازش الگوهای پیچیده ای کافی نیستند، در حالی که روش های پیچیده تر نتایج حاصل از پارامترها و عملیات ریاضی را که برای تفسیر سخت است، تولید می کنند. برای بهبود هر دو مدل ثبات و تفسیرپذیری، ما یک الگوریتم چندبعدی با توجه به توجه جدید ارائه می دهیم که یک نمونۀ تقریبی توزیع را براساس روش های مختلف ارتباطی می آموزد و یک مکانیزم توجه توجه متقابل را ایجاد می کند تا به صورت انتخابی بر تکه های برجسته ای از اشیاء مورد علاقه تمرکز کند. شبکه های عصبی برای تولید مجموعه ای از بردارهای بازنویسی سطح بالا برای هر دو شیء و بخش های جداگانه آن استفاده می شود. ساختار همسایگی محلی چندین دیدگاه بین اشیاء در نمایندگی شیء سطح بالا توسط یک روش پیش آموزش بدون نظارت کد گذاری می شود. با راه اندازی مقادیر رابطه با مراکز خوشه شی، هر یک از روش های ارتباط می تواند منطقی به عنوان یک موضوع معنایی تفسیر شود. یک برنامه آموزش منطقی مبتنی بر مخلوطی از آموزش بدون نظارت و تحت نظارت برای بهبود تعمیم ارائه شده است. اثربخشی روش پیشنهادی و عملکرد برتر آن در مقایسه با الگوریتم های پیشرفته تر از طریق ارزیابی ها بر اساس وظایف بازیابی تصویر نمایش داده می شود.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
To learn a function for measuring similarity or relevance between objects is an important machine learning task, referred to as similarity learning. Conventional methods are usually insufficient for processing complex patterns, while more sophisticated methods produce results supported by parameters and mathematical operations that are hard to interpret. To improve both model robustness and interpretability, we propose a novel attention driven multi-modal algorithm, which learns a distributed similarity score over different relation modalities and develops an interaction-oriented dynamic attention mechanism to selectively focus on salient patches of objects of interest. Neural networks are used to generate a set of high-level representation vectors for both the entire object and its segmented patches. Multi-view local neighboring structures between objects are encoded in the high-level object representation through an unsupervised pre-training procedure. By initializing the relation embeddings with object cluster centers, each relation modality can be reasonably interpreted as a semantic topic. A layer-wise training scheme based on a mixture of unsupervised and supervised training is proposed to improve generalization. The effectiveness of the proposed method and its superior performance compared against state-of-the-art algorithms are demonstrated through evaluations based on different image retrieval tasks.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Sciences - Volume 432, March 2018, Pages 530-542
نویسندگان
, , , ,