کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4944600 1438006 2017 34 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
Fully online clustering of evolving data streams into arbitrarily shaped clusters
ترجمه فارسی عنوان
خوشه کاملا آنلاین جریانهای در حال تحول به خوشه های خوشه ای به شکل دلخواه
کلمات کلیدی
آنلاین، تکامل خوشه بندی میکروسکوزه، شکل دلخواه،
ترجمه چکیده
در زمان های اخیر افزایش در دسترس بودن داده ها در جریان های داده مداوم بوده است و خوشه بندی این داده ها دارای مزایای بسیاری در تحلیل داده ها است. اغلب این موارد است که این جریان داده ها ثابت نیستند، اما در طول زمان تکامل یافته اند و همچنین خوشه ها شکل های منظم نیستند اما شکل های دلخواه را در فضای داده شکل می دهند. تکنیک های قبلی برای خوشه بندی چنین جریانهای داده ها، روش های ترکیبی آنلاین / آفلاین، روش های آنلاین آفلاین یا یافتن خوشه های بیش از حد بیضوی هستند. در این مقاله یک تکنیک کاملا آنلاین برای خوشه بندی جریانهای داده ای در حال خواندن به خوشه های شکل دلخواه ارائه می کنیم. این تکنیک دو مرحله ای است که دقیق، قوی به نویز، محاسبات و حافظه کارآمد است، با یک مجازات زمانی کم به عنوان تعدادی از ابعاد داده افزایش می یابد. مرحله اول این تکنیک خوشه های میکرو را تولید می کند و مرحله دوم این خوشه های میکرو را به خوشه های ماکرو می برد. ثبات ابعاد و سرعت بالا از طریق حفظ محاسبات هر دو ساده و حداقل با استفاده از میکرو خوشه های بیش از حد کروی به دست می آید. با حفظ یک ساختار گراف، جایی که خوشه های میکرو گره هستند و لبه ها جفت های آن با خوشه های تقسیم می شوند، ما محاسبات مورد نیاز برای نگهداری کلستر ماکیموری را به حداقل می رسانیم. خوشه های میکرو خود را به طوری که هیچ محاسبه مورد نیاز برای مناطق هسته و پوسته وجود دارد و هیچ تعریف جداگانه ای از خوشه های بیرونی بیرونی لازم است. ما توانایی تکنیک پیشنهادی را برای پیوستن و جدا کردن خوشه های کلان نشان می دهیم، در حالی که آنها به شکل کاملا آنلاین در حال تکامل هستند. هیچ تکنیک آنلاین کاملا آنلاین وجود ندارد که نویسندگان از آن آگاهی داشته باشند و بنابراین ما با تکنیک های جایگزین ترکیبی آنلاین / آفلاین برای دقت، خلوص و سرعت مقایسه می کنیم. این روش سپس به جریان داده های واقعی علوم جوی اعمال می شود و برای کشف ریزش کوتاه مدت، بلند مدت و فصلی و اثرات آن بر تشخیص آنومالی استفاده می شود. همچنین با داشتن ویژگی های محاسباتی مطلوب، این تکنیک می تواند ارزش تحلیلی را بیش از روش های بیش از حد بیضوی با مشخص کردن شکل پرش از خوشه با استفاده از عوامل شکل اقلیدسی یا فراکتال اضافه کند. از آنجا که این تکنیک خوشه های ماکرو را به عنوان نمودار ها ثبت می کند، ارزش تحلیلی بیشتر از توصیف نظم، درجه و کامل بودن نمودار خوشه ای که با گذشت زمان در حال تکامل است، تکمیل می شود.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
In recent times there has been an increase in data availability in continuous data streams and clustering of this data has many advantages in data analysis. It is often the case that these data streams are not stationary, but evolve over time, and also that the clusters are not regular shapes but form arbitrary shapes in the data space. Previous techniques for clustering such data streams are either hybrid online / offline methods, windowed offline methods, or find only hyper-elliptical clusters. In this paper we present a fully online technique for clustering evolving data streams into arbitrary shaped clusters. It is a two stage technique that is accurate, robust to noise, computationally and memory efficient, with a low time penalty as the number of data dimensions increases. The first stage of the technique produces micro-clusters and the second stage combines these micro-clusters into macro-clusters. Dimensional stability and high speed is achieved through keeping the calculations both simple and minimal using hyper-spherical micro-clusters. By maintaining a graph structure, where the micro-clusters are the nodes and the edges are its pairs with intersecting micro-clusters, we minimise the calculations required for macro-cluster maintenance. The micro-clusters themselves are described in such a way that there is no calculation required for the core and shell regions and no separate definition of outer micro-clusters necessary. We demonstrate the ability of the proposed technique to join and separate macro-clusters as they evolve in a fully online manner. There are no other fully online techniques that the authors are aware of and so we compare the technique with popular online / offline hybrid alternatives for accuracy, purity and speed. The technique is then applied to real atmospheric science data streams and used to discover short term, long term and seasonal drift and their effects on anomaly detection. As well as having favourable computational characteristics, the technique can add analytic value over hyper-elliptical methods by characterising the cluster hyper-shape using Euclidean or fractal shape factors. Because the technique records macro-clusters as graphs, further analytic value accrues from characterising the order, degree, and completeness of the cluster-graphs as they evolve over time.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Sciences - Volumes 382–383, March 2017, Pages 96-114
نویسندگان
, , ,