کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
11002848 1449921 2018 13 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Leveraging multi-modal fusion for graph-based image annotation
ترجمه فارسی عنوان
استفاده از تلفیقی چندبعدی برای حاشیه نویسی تصویر مبتنی بر گراف
ترجمه چکیده
با توجه به هر یک از ویژگی های بصری به عنوان یک روش در کارهای حاشیه نویسی تصویر، هماهنگی کارآمد از روش های مختلف در یادگیری مبتنی بر گرافیک ضروری است. روشهای متداول مبتنی بر گراف، یک گره را برای هر تصویر در نظر می گیرند و قبل از ساخت گراف، ویژگی های بصری آن را به یک توصیفگر متصل می کنند. در این مقاله، یک رویکرد ارائه می کنیم که یک زیرگراف برای هر نوع مدولا ایجاد می کند به طوری که لبه های زیرگراف با استفاده از یک رویکرد مبتنی بر جستجو که حل چالش عدم تعادل کلاس در مجموعه داده های حاشیه نویسی را تعیین می کند، تعیین می شود. سپس زیرگراف های چندگانه به یکدیگر متصل می شوند تا یک ابرگراف را داشته باشند. این به وسیله معرفی یک چارچوب یادگیری برای برداشتن تگ های تصاویر غیر مجاز بر روی سوپراگراف انجام می شود. رویکرد پیشنهادی به طور همزمان از مزایای یادگیری نیمه نظارت مبتنی بر گراف و نمایندگی چند مدال برخوردار است. ما عملکرد روش پیشنهادی را در مجموعه داده های مختلف ارزیابی می کنیم. نتایج نشان می دهد که رویکرد پیشنهادی دقت سیستم های حاشیه نویسی را بهبود می بخشد.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر چشم انداز کامپیوتر و تشخیص الگو
چکیده انگلیسی
Considering each of the visual features as one modality in image annotation task, efficient fusion of different modalities is essential in graph-based learning. Traditional graph-based methods consider one node for each image and combine its visual features into a single descriptor before constructing the graph. In this paper, we propose an approach that constructs a subgraph for each modality in such a way that edges of subgraph are determined using a search-based approach that handles class-imbalance challenge in the annotation datasets. Multiple subgraphs are then connected to each other to have a supergraph. This follows by introducing a learning framework to infer the tags of unannotated images on the supergraph. The proposed approach takes advantages of graph-based semi-supervised learning and multi-modal representation simultaneously. We evaluate the performance of the proposed approach on different datasets. The results reveal that the proposed approach improves the accuracy of annotation systems.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Journal of Visual Communication and Image Representation - Volume 55, August 2018, Pages 816-828
نویسندگان
, ,