کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4946248 1439275 2017 15 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Self-adapted mixture distance measure for clustering uncertain data
ترجمه فارسی عنوان
اندازه گیری فاصله مخلوط خود سازگار برای خوشه بندی داده های نامشخص
کلمات کلیدی
خوشه بندی داده های نامعلوم، فاصله هسته منجر شده، جنسن شانون واگرا، اندازه گیری مخلوط خود سازگار،
ترجمه چکیده
اندازه گیری دور نقش مهمی در خوشه بندی داده های نامشخص بازی می کند. با این حال، اقدامات فاصله ای موجود برای خوشه بندی داده های نامشخص از برخی مسائل رنج می برند. اندازه گیری فاصله هندسی نمی تواند تفاوت بین اشیاء نامشخص با توزیع های مختلف که در مکان ها به شدت همپوشانی دارند شناسایی کند. فاصله فاصله توزیع احتمال، نمی تواند تفاوت بین جفت های مختلف اشیاء نامشخص کاملا جدا شده را تشخیص دهد. در این مقاله، ما یک اندازه گیری فاصله مخلوط خود سازگار برای خوشه بندی داده های نامشخص ارائه می دهیم که به صورت همزمان فاصله فاصله هندسی و فاصله توزیع احتمال را بررسی می کند، بنابراین مسائل مربوط به اندازه گیری های قبلی فاصله می گیرد. اندازه گیری فاصله پیشنهادی شامل سه بخش است: (1) فاصله هسته القا شده: می توان از آن برای اندازه گیری فاصله هندسی بین اشیاء نامشخص استفاده کرد. (2) انحراف یانسن-شانون: از آن می توان برای اندازه گیری فاصله توزیع احتمالی بین اشیاء نامشخص استفاده کرد. (3) پارامتر وزن خود سازگار: می توان آن را برای تنظیم درجه اهمیت از فاصله هسته القا شده و واگرایی جنسن-شانون با توجه به اطلاعات همپوشانی محل مجموعه داده استفاده می شود. اندازه گیری فاصله پیشنهادی متناوب، محدود و پارامتر سازگار است. علاوه بر این، ما اندازه گیری فاصله مخلوط خود سازگار را به الگوریتم های مبتنی بر پارتیشن و تراکم برای خوشه بندی داده های نامشخص تلفیق می کنیم. نتایج تجربی گسترده در مجموعه داده های مصنوعی، مجموعه داده های واقعی و مجموعه داده های نامشخص در دنیای واقعی نشان می دهد که اندازه گیری فاصله ما پیشنهاد ما از اقدامات فاصله ای موجود برای خوشه بندی داده های نامشخص بهتر است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Distance measure plays an important role in clustering uncertain data. However, existing distance measures for clustering uncertain data suffer from some issues. Geometric distance measure can not identify the difference between uncertain objects with different distributions heavily overlapping in locations. Probability distribution distance measure can not distinguish the difference between different pairs of completely separated uncertain objects. In this paper, we propose a self-adapted mixture distance measure for clustering uncertain data which considers the geometric distance and the probability distribution distance simultaneously, thus overcoming the issues in previous distance measures. The proposed distance measure consists of three parts: (1) The induced kernel distance: it can be used to measure the geometric distance between uncertain objects. (2) The Jensen-Shannon divergence: it can be used to measure the probability distribution distance between uncertain objects. (3) The self-adapted weight parameter: it can be used to adjust the importance degree of the induced kernel distance and the Jensen-Shannon divergence according to the location overlapping information of the dataset. The proposed distance measure is symmetric, finite and parameter adaptive. Furthermore, we integrate the self-adapted mixture distance measure into the partition-based and density-based algorithms for clustering uncertain data. Extensive experimental results on synthetic datasets, real benchmark datasets and real world uncertain datasets show that our proposed distance measure outperforms the existing distance measures for clustering uncertain data.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Knowledge-Based Systems - Volume 126, 15 June 2017, Pages 33-47
نویسندگان
, , , ,