کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
6940014 869886 2016 29 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Soft subspace clustering of categorical data with probabilistic distance
ترجمه فارسی عنوان
خوشه بندی نرم افزاری نرم افزاری از داده های طبقه بندی شده با فاصله احتمالی
کلمات کلیدی
ترجمه چکیده
خوشه بندی داده های دسته ای موضوع مهم در شناخت الگو است. در حال حاضر خوشهبندی زیرمجموعههای اطلاعات قطعی به دلیل مشکلات موجود در برآورد جالب بودن ویژگیها با توجه به آمار دستهها در خوشهها، یک مشکل باز است. در این مقاله، یک الگوریتم جدید برای خوشه بندی داده های طبقه بندی شده با یک طرح جدید انتخاب ویژگی های نرم افزاری پیشنهاد شده است که هر کدام از ویژگی های قطعی به طور خودکار یک وزن را تعیین می کنند که با پراکندگی صاف دسته ها در یک خوشه مرتبط است. در الگوریتم پیشنهادی، عدم همبستگی بین اشیاء داده های طبقه بندی شده با استفاده از تابع فاصله ای احتمالاتی، بر اساس تخمین تراکم هسته برای ویژگی های قطعی اندازه گیری می شود. ما همچنین از فاصله احتمالی استفاده می کنیم تا تعریف یک شاخص اعتبار خوشه ای برای برآورد تعداد خوشه های دسته ای باشد. مناسب بودن این پیشنهاد در یک مطالعه تجربی با برخی از داده های به کار رفته در دنیای واقعی و مجموعه داده های مصنوعی انجام شده است، و نتایج نشان می دهد عملکرد برجسته آن است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر چشم انداز کامپیوتر و تشخیص الگو
چکیده انگلیسی
Categorical data clustering is an important subject in pattern recognition. Currently, subspace clustering of categorical data remains an open problem due to the difficulties in estimating attribute interestingness according to the statistics of categories in clusters. In this paper, a new algorithm is proposed for clustering categorical data with a novel soft feature-selection scheme, by which each categorical attribute is automatically assigned a weight that correlates with the smoothed dispersion of the categories in a cluster. In the proposed algorithm, dissimilarity between categorical data objects is measured using a probabilistic distance function, based on kernel density estimation for categorical attributes. We also make use of the probabilistic distances to define a cluster validity index for estimating the number of categorical clusters. The suitability of the proposal is demonstrated in an empirical study done with some widely used real-world data sets and synthetic data sets, and the results show its outstanding performance.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Pattern Recognition - Volume 51, March 2016, Pages 322-332
نویسندگان
, , , ,