کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4969605 1449975 2017 15 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Model-based co-clustering for the effective handling of sparse data
ترجمه فارسی عنوان
همکاری گروهی مبتنی بر مدل برای مدیریت موثر اطلاعات ناقص
ترجمه چکیده
با رشد چشمگیر اسناد متنی در وب، نیاز واقعی به تکنیک هایی وجود دارد که مرتبا اصطلاحات و اسناد را به خوشه های معنی دار سازماندهی می کنند و از این طریق مجموعه داده های بزرگ را برای رسیدگی و تفسیر آسان تر می کنند. چندین الگوریتم خوشه بندی مورب بلوک موفق به شناسایی خوشه های مشترک اسناد و کلمات شده اند. با این وجود، با وجود کارایی آنها، اکثر روش های موجود یک مدل پارامتر برای حل مشکل شناسایی قطر بلوک ارائه نمی دهند. در این مقاله، ما بر مدل های مخلوط، که پایه های نظری قوی و انعطاف پذیری قابل توجهی دارند، تکیه می کنیم. دقیق تر، ما یک مدل بلوک ناپیوسته بر اساس مخلوط توزیع پواسون را پیشنهاد می دهیم و برای داده هایی با ابعاد کم اطلاعات مانند ماتریس های مستند مدت طراحی شده است. برای به کار بردن پارامترهای مدل، دو الگوریتم همگام سازی مقیاس پذیر را براساس استنتاج واریانس بدست آوریم. نتایج تجربی حاصل از چندین دیتا متن در دنیای واقعی، مزایای مدل پیشنهادی و الگوریتم های مربوط به همکاری خوشه ای را برجسته می کنند.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر چشم انداز کامپیوتر و تشخیص الگو
چکیده انگلیسی
With the exponential growth of text documents on the web, there is a genuine need for techniques that organize terms and documents, simultaneously, into meaningful clusters, thereby making large datasets easier to handle and interpret. Several block diagonal clustering algorithms have proven successful in identifying co-clusters of documents and words. However, despite their effectiveness, most of the existing methods do not provide a parameterizable model for tackling the problem of block diagonal identification. In this paper, we rely on mixture models, which offer strong theoretical foundations and considerable flexibility. More precisely, we propose a parsimonious latent block model based on the mixture of Poisson distributions and tailored for sparse high dimensional data such as document-term matrices. In order to efficiently estimate the model parameters, we derive two scalable co-clustering algorithms based on variational inference. Empirical results obtained on several real-world text datasets highlight the advantages of the proposed model and the corresponding co-clustering algorithms.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Pattern Recognition - Volume 72, December 2017, Pages 108-122
نویسندگان
, , ,