کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4948311 1439614 2016 46 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Learning unified binary codes for cross-modal retrieval via latent semantic hashing
ترجمه فارسی عنوان
یادگیری کدهای دودویی متحد برای بازیابی متقابل از طریق هش کردن معنایی پنهان
کلمات کلیدی
بازیابی متقابل، هش نمایندگی دودویی، برنامه نویسی انعطاف پذیر، تقسیم ماتریس،
ترجمه چکیده
امروزه میزان داده های چندرسانه ای مانند تصاویر و متن در وب سایت های اجتماعی به طور نمادین افزایش می یابد و تقاضا برای بازیابی متقابل مؤثر و کارآمد را افزایش می دهد. روش های مبتنی بر هش کردن متقابل اخیرا توجه زیادی را جلب کرده اند زیرا می توانند کدهای دودویی کارآمد را برای داده های ناهمگن یاد بگیرند که امکان جستجو در شبکهای بزرگ را فراهم می کند. به طور کلی، برای ایجاد مؤلفه متقابل بین روش های مختلف، این روش ها تلاش می کنند فضایی انتزاعی مشترک را پیدا کنند که اطلاعات ناهمگن را می توان پیش بینی کرد. سپس یک قانون کوانتیزه برای تبدیل بیان انتزاع به کدهای باینری اعمال می شود. با این حال، این روش ها به طور موثر نمی تواند شکاف معناشناختی را از طریق فضای انتزاعی پنهان کند زیرا آنها نتوانستند اطلاعات پنهان بین داده های ناهمگن را ضبط کنند. علاوه بر این، اکثر این روش ها، ساده ترین طرح کوانتیزاسیون (یعنی تابع نشانه) را اعمال می کنند که ممکن است باعث از دست رفتن اطلاعات نمایندگی انتزاع شود و به کدهای باینری پایین تر منجر شود. برای مقابله با این چالش ها، در این مقاله، یک روش مبتنی بر هش کردن متقابل مورادی جدید ارائه می کنیم که کدهای دودویی متحد شده را با هم ترکیب می کند. به طور خاص، ابتدا ویژگی های معنایی را از روش های تصاویر و متن برای تزیین اطلاعات غریزی استخراج می کنیم. سپس این ویژگی های معنایی به یک فضای انتزاعی مشترک منتهی می شود. در نهایت، فضای انتزاعی چرخش می شود تا کدهای دودویی یکپارچه را با ضایعات کوانتیزه کمتری تولید کند، در حالی که ساختار محلی داده های پیش بینی شده را حفظ می کند. ما روش های یادگیری کد باینری را در بالا ادغام می کنیم تا یک الگوریتم تکراری برای راه حل های بهینه ارائه کنیم. علاوه بر این، ما بیشتر از اطلاعات برچسب کلاس کلاس مفید برای کاهش فاصله معنایی بین روشهای مختلف برای بهره گیری از یادگیری کد دودویی استفاده می کنیم. آزمایش های گسترده در چهار مجموعه داده های چند رسانه ای نشان می دهد که طرح های برنامه نویسی باینری پیشنهاد شده در چند سناریوی متقابل چندین روش دیگر از حالت پیشرفته را اجرا می کنند.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Nowadays the amount of multimedia data such as images and text is growing exponentially on social websites, arousing the demand of effective and efficient cross-modal retrieval. The cross-modal hashing based methods have attracted considerable attention recently as they can learn efficient binary codes for heterogeneous data, which enables large-scale similarity search. Generally, to effectively construct the cross-correlation between different modalities, these methods try to find a joint abstraction space where the heterogeneous data can be projected. Then a quantization rule is applied to convert the abstraction representation to binary codes. However, these methods may not effectively bridge the semantic gap through the latent abstraction space because they fail to capture latent information between heterogeneous data. In addition, most of these methods apply the simplest quantization scheme (i.e. sign function) which may cause information loss of the abstraction representation and result in inferior binary codes. To address these challenges, in this paper, we present a novel cross-modal hashing based method that generates unified binary codes combining different modalities. Specifically, we first extract semantic features from the modalities of images and text to capture latent information. Then these semantic features are projected to a joint abstraction space. Finally, the abstraction space is rotated to produce better unified binary codes with much less quantization loss, while preserving the locality structure of projected data. We integrate the binary code learning procedures above to develop an iterative algorithm for optimal solutions. Moreover, we further exploit the useful class label information to reduce the semantic gap between different modalities to benefit the binary code learning. Extensive experiments on four multimedia datasets show that the proposed binary coding schemes outperform several other state-of-the-art methods under cross-modal scenarios.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 213, 12 November 2016, Pages 191-203
نویسندگان
, , , , ,