کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6870296 681394 2014 27 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Model-based clustering of high-dimensional data: A review
ترجمه فارسی عنوان
خوشه بندی مبتنی بر مدل داده های با ابعاد بزرگ: بررسی
ترجمه چکیده
خوشه بندی مبتنی بر مدل یک ابزار محبوب است که برای بنیادهای احتمالی و انعطاف پذیری آن مشهور است. با این حال، اطلاعات با ابعاد بزرگ امروزه بیشتر و مکررتر و متاسفانه، تکنیکهای خوشه بندی مبتنی بر مدل کلاسیک، رفتار ناامید کننده ای در فضاهای با ابعاد بزرگ را نشان می دهند. این به طور عمده به دلیل این واقعیت است که روش های خوشه بندی مبتنی بر مدل در این مورد به طور قابل توجهی بیش از حد پارامتر شده است. با این حال، فضاهای با ابعاد بزرگ دارای خصوصیات خاصی هستند که برای خوشه بندی مفید هستند و تکنیک های اخیر از این خصوصیات استفاده می کنند. پس از یادآوری پایگاه های خوشه ای مبتنی بر مدل، روش های کاهش ابعاد، تکنیک های مبتنی بر تنظیم، مدل سازی پارسییمونی، روش های خوشه بندی زیر فضای و روش های خوشه بندی مبتنی بر انتخاب متغیر مورد بررسی قرار گرفته است. نرم افزارهای موجود برای خوشه بندی مبتنی بر مدل داده های با ابعاد بعدی نیز مورد بررسی قرار می گیرند و کاربرد عملی آنها بر روی مجموعه داده های واقعی واقع شده است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر نظریه محاسباتی و ریاضیات
چکیده انگلیسی
Model-based clustering is a popular tool which is renowned for its probabilistic foundations and its flexibility. However, high-dimensional data are nowadays more and more frequent and, unfortunately, classical model-based clustering techniques show a disappointing behavior in high-dimensional spaces. This is mainly due to the fact that model-based clustering methods are dramatically over-parametrized in this case. However, high-dimensional spaces have specific characteristics which are useful for clustering and recent techniques exploit those characteristics. After having recalled the bases of model-based clustering, dimension reduction approaches, regularization-based techniques, parsimonious modeling, subspace clustering methods and clustering methods based on variable selection are reviewed. Existing softwares for model-based clustering of high-dimensional data will be also reviewed and their practical use will be illustrated on real-world data sets.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Computational Statistics & Data Analysis - Volume 71, March 2014, Pages 52-78
نویسندگان
, ,