کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4947622 1439589 2017 11 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
An efficient data reduction method and its application to cluster analysis
ترجمه فارسی عنوان
یک روش کاهش داده کارآمد و کاربرد آن در تجزیه و تحلیل خوشه ای
کلمات کلیدی
کاهش اطلاعات، کاهش ابعاد، کاهش نمونه، اعتبار خوشه بندی
ترجمه چکیده
کاهش داده نقش بسیار مهمی در زمینه داده کاوی بازی می کند، اما روش های موجود قادر به شناسایی تمام ویژگی های اصلی که در مجموعه داده های بزرگ پنهان هستند شناسایی نمی شوند. در بعضی موارد، حتی باعث از بین رفتن ویژگی های اصلی اصلی می شوند. در این مقاله یک معیار کارآمد جدید برای کاهش یک مجموعه داده داده شده و کشف ویژگی های اصلی بوسیله ضرب تراکم مطلق تعریف شده با چگالی محلی تعریف شده هر داده توسعه داده شد. این دو نوع تراکم با استفاده از یک روش سریع بر اساس شبکه برآورد شده است. برای تست عملکرد آن در کاهش ویژگی و کاهش نمونه، گروهی از مجموعه داده های متفاوتی از ترکیبات مصنوعی و 24 مجموعه داده های معیار به عنوان مثال استفاده شد و دقت خوشه بندی، زمان اجرا و جداسازی در میان خوشه ها به عنوان اندازه گیری مورد استفاده قرار گرفت. نتایج به شدت ثابت کرد که روش پیشنهادی می تواند به سرعت یک مجموعه داده را کاهش داده و مهمترین ویژگی های کلیدی را شناسایی کند. علاوه بر این، این نیز می تواند به طور موثر تعیین تعداد مطلوب از خوشه ها با سرکوب داده های پر سر و صدا و افزایش جدایی بین خوشه.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Data reduction plays a very important role in the data mining field, but the existing methods have not been able to efficiently identify all major features which are hidden in the large datasets. On some occasions, they even cause the loss of the original key features. In this paper, a new efficient measure was developed to reduce a given dataset and to uncover the major features by multiplying the defined absolute density with the defined local density of any data. These two kinds of densities were estimated with a fast grid-based bisecting method. To test its performance on feature reduction and sample reduction, a group of feature-different synthetic datasets and 24 benchmark datasets were used as examples and the clustering accuracy, runtime and separability among clusters were used as measurements. The results strongly proved the proposed method could fast reduce a dataset and identify the most important key features. Additionally, it also can effectively determine the optimal number of clusters by suppressing the noisy data and enhancing the separation among clusters.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 238, 17 May 2017, Pages 234-244
نویسندگان
, , , ,