کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
405110 677484 2014 15 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Incremental entropy-based clustering on categorical data streams with concept drift
ترجمه فارسی عنوان
خوشه بندی مبتنی بر آنتروپی افزایشی در جریان داده های دسته ای با راندگی مفهوم
کلمات کلیدی
جریان اطلاعات طبقه بندی شده، خوشه بندی برچسب زدن داده ها، شناسایی رانش مفهوم، تجزیه و تحلیل تکامل خوشه ای
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی

Clustering on categorical data streams is a relatively new field that has not received as much attention as static data and numerical data streams. One of the main difficulties in categorical data analysis is lacking in an appropriate way to define the similarity or dissimilarity measure on data. In this paper, we propose three dissimilarity measures: a point-cluster dissimilarity measure (based on incremental entropy), a cluster–cluster dissimilarity measure (based on incremental entropy) and a dissimilarity measure between two cluster distributions (based on sample standard deviation). We then propose an integrated framework for clustering categorical data streams with three algorithms: Minimal Dissimilarity Data Labeling (MDDL), Concept Drift Detection (CDD) and Cluster Evolving Analysis (CEA). We also make comparisons with other algorithms on several data streams synthesized from real data sets. Experiments show that the proposed algorithms are more effective in generating clustering results and detecting concept drift.

ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Knowledge-Based Systems - Volume 59, March 2014, Pages 33–47
نویسندگان
, , , ,