کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6937492 1449739 2017 17 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Simple to complex cross-modal learning to rank
ترجمه فارسی عنوان
ساده به پیچیده یادگیری متقابل مودال به رتبه
کلمات کلیدی
بازیابی متقابل، یادگیری رتبه یادگیری خود بخشی، تنظیم تنوع
ترجمه چکیده
شکاف ناهمگنی میان روشهای مختلف، چالش مهمی در بازیابی اطلاعات چندرسانه ای است. در برخی از مطالعات، وظایف بازیابی متقابل مضر به عنوان یک مشکل رتبه بندی، رسم شده و فضای تعبیه چندجمله ای مشترک را برای اندازه گیری شباهت متقابل مورادی آموزش می دهد. با این حال، روش های قبلی اغلب فضای تعبیه مشترک را بر اساس توابع نقشه برداری خطی ایجاد می کنند که ممکن است به اندازه کافی پیچیده نباشند تا پیچیدگی های متقابل بین مودال را نشان دهند. علاوه بر این، مطالعات فعلی فرض می کنند که رتبه بندی از اهمیت یکسانی برخوردار است و بنابراین همه رتبه بندی ها به طور همزمان استفاده می شوند یا تعداد کمی از رتبه بندی ها به صورت تصادفی برای آموزش فضای تعبیه در هر تکرار انتخاب می شوند. با این حال، چنین استراتژی ها همیشه از ناهنجاری ها رنج می برند و همچنین توانایی تعمیم پذیری را کاهش می دهند به دلیل عدم درک روشنی از روش شناخت انسان. در این مقاله، ما تئوری یادگیری خود به خود را با در نظر گرفتن تنوع در یادگیری متقابل ملاحظه میکنیم تا بتوانیم فضای تعبیه چندبعدی بهینه را براساس توابع نقشه برداری غیر خطی معرفی کنیم. این استراتژی سبب تقویت استحکام مدل به ناپایداری ها و به دست آوردن تعمیم بهتر از طریق آموزش مدل به تدریج از رتبه بندی آسان توسط پرس و جو های متنوع به پیچیده تر می شود. یک الگوریتم جایگزین کارآمد برای حل مشکل پیشنهادی چالش برانگیز با همگرایی سریع در عمل استثنایی می شود. نتایج تجربی گسترده در چندین مجموعه داده های معیار نشان می دهد که روش پیشنهادی در این ادبیات پیشرفت قابل ملاحظه ای نسبت به حالت های پیشرفت دارد.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر چشم انداز کامپیوتر و تشخیص الگو
چکیده انگلیسی
The heterogeneity-gap between different modalities brings a significant challenge to multimedia information retrieval. Some studies formalize the cross-modal retrieval tasks as a ranking problem and learn a shared multi-modal embedding space to measure the cross-modality similarity. However, previous methods often establish the shared embedding space based on linear mapping functions which might not be sophisticated enough to reveal more complicated inter-modal correspondences. Additionally, current studies assume that the rankings are of equal importance, and thus all rankings are used simultaneously, or a small number of rankings are selected randomly to train the embedding space at each iteration. Such strategies, however, always suffer from outliers as well as reduced generalization capability due to their lack of insightful understanding of procedure of human cognition. In this paper, we involve the self-paced learning theory with diversity into the cross-modal learning to rank and learn an optimal multi-modal embedding space based on non-linear mapping functions. This strategy enhances the model's robustness to outliers and achieves better generalization via training the model gradually from easy rankings by diverse queries to more complex ones. An efficient alternative algorithm is exploited to solve the proposed challenging problem with fast convergence in practice. Extensive experimental results on several benchmark datasets indicate that the proposed method achieves significant improvements over the state-of-the-arts in this literature.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computer Vision and Image Understanding - Volume 163, October 2017, Pages 67-77
نویسندگان
, , , , , ,