کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4944646 1438007 2017 16 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
How to adjust an ensemble size in stream data mining?
ترجمه فارسی عنوان
چگونه می توان یک اندازه گروهی را در جریان داده کاوی تنظیم کرد؟
کلمات کلیدی
داده های جریان، داده کاوی، طبقه بندی، روش های گروهی،
ترجمه چکیده
در این مقاله، یک رویکرد جدید برای طراحی گروهی به منظور طبقه بندی داده ها ارائه می شود. رویکرد ما توسط دو قضیه پشتیبانی می شود که نشان می دهد چگونه تصمیم می گیریم که آیا یک مولفه جدید باید به گروه اضافه شود یا خیر، بر اساس این فرض که چنین اقدام باید دقت مجموعه را افزایش دهد نه فقط برای بخش فعلی مشاهدات بلکه برای جریان کامل (بی نهایت) داده. نتیجه گیری این قضیه با یک احتمال معقول (اعتماد) تعیین شده توسط کاربر صورت می گیرد. از طریق شبیه سازی کامپیوتری، در میان دیگران، ما نشان می دهد که کاهش اعتماد به نفس که تصمیم گیری بر اساس بخش محدود از جریان همان است که بر اساس کل (بی نهایت) جریان داده ها تنها کمی بهبود دقت در هزینه مصرف حافظه قابل توجه است. علاوه بر این، ما یک روش جدید را برای ارزیابی اجزای سازنده، یعنی درخت تصمیم گیری، با تعیین وزن برای هر برگ درخت معرفی خواهیم کرد. در رویکردهای قبلی وزن به کل مولفه گروه اختصاص داده شد. رویکرد جدید مبتنی بر مشاهدات است که احتمال نتیجه درست درخت در بخش های مختلف درخت متفاوت است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
In this paper we propose a new approach for designing an ensemble applied to stream data classification. Our approach is supported by two theorems showing how to decide whether a new component should be added to the ensemble or not, based on the assumption that such an action should increase the accuracy of the ensemble not only for the current portion of observations but also for the whole (infinite) data stream. The conclusions of these theorems hold with a certain probability (confidence) set by the user. Through computer simulations, among others, we show that decreasing the confidence that decision based on the finite portion of the stream is the same as based on the whole (infinite) data stream only slightly improves the accuracy at the expense of significant memory consumption. Moreover, we will introduce a novel procedure of weighting ensemble components, i.e. decision trees, by assigning a weight to each leaf of the tree. In previous approaches a weight was assigned to the whole ensemble component. The new approach is based on the observation that probability of the correct tree outcome is different in various tree sections.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Information Sciences - Volume 381, March 2017, Pages 46-54
نویسندگان
, , , ,