کد مقاله کد نشریه سال انتشار مقاله انگلیسی نسخه تمام متن
4947072 1439562 2017 15 صفحه PDF دانلود رایگان
عنوان انگلیسی مقاله ISI
On expressiveness and uncertainty awareness in rule-based classification for data streams
ترجمه فارسی عنوان
در مورد اشکال و عدم اطمینان در طبقه بندی مبتنی بر قاعده برای جریان داده ها
کلمات کلیدی
معادن جریان داده تجزیه و تحلیل داده بزرگ طبقه بندی، بیانگر عقب نشینی، الگوریتم طبقه بندی مدولار،
ترجمه چکیده
جریان داده های معدن یک عنصر اصلی تجزیه و تحلیل داده بزرگ است. این نشان دهنده سرعت مجموعه داده های بزرگ است که یکی از چهار جنبه ای از اطلاعات بزرگ است، سه نفر دیگر حجم، تنوع و حقیقت هستند. به عنوان جریان داده ها در، مدل ها با استفاده از تکنیک های داده کاوی متناسب با به روز رسانی مدل مداوم و سریع طراحی شده اند. نابرابری حاکم در میان رویکردهای موفقیت آمیز در نظریه یادگیری برای جریان داده ها بوده است. در این زمینه، معمولا برای ارائه یک حد آماری برای تعداد نمونه هایی که در هر مرحله از فرایند یادگیری افزایشی مورد نیاز است، استفاده می شود. این مسئله برای هر دو مسئله طبقه بندی و خوشه بندی اعمال شده است. علیرغم موفقیت طبقه بندی درخت هفتگداز و دیگر روش های داده کاوی جریان داده، چنین مدل هایی به توضیح اینکه چگونه نتایج آنها (یعنی طبقه بندی ها) به دست می آیند (بوکس سیاه). اکسپلویت مدل تصمیم گیری در جریان داده ها، محدوده ای از تحقیقات است که با وجود اهمیت عملی آن، کمتر توجه کرده است. در این مقاله، ما این موضوع را مورد توجه قرار می دهیم، تصویب نابرابری حوضه به عنوان قائم مقام برای ایجاد قوانین تصمیم گیری که می تواند به تصمیم گیرندگان با پیش بینی های آگاه (جعبه سفید) کمک کند. ما روش رمانتیستی خود را با استفاده از نابرابری حاکم در روش تعریف کردیم تا برآورد کنیم که آیا یک قاعده القایی از یک نمونه کوچکتر از یک قاعده منجر به یک نمونه بزرگتر از یک کیفیت مشابه خواهد بود یا خیر. روش جدید به تعدادی از مشارکت های جدیدی از جمله دست زدن به عدم اطمینان از طریق مخالفت، برخورد با داده های مداوم از طریق مدل سازی آماری گاوس و الگوریتم سریع آزمایش شده ثابت شده است. ما یک مطالعه آزمایشی کامل با استفاده از مجموعه داده های معیاری انجام دادیم، که نشان دهنده کارآیی و ظرافت روش پیشنهاد شده در مقایسه با حالت پیشرفته است.
موضوعات مرتبط
مهندسی و علوم پایه مهندسی کامپیوتر هوش مصنوعی
چکیده انگلیسی
Mining data streams is a core element of Big Data Analytics. It represents the velocity of large datasets, which is one of the four aspects of Big Data, the other three being volume, variety and veracity. As data streams in, models are constructed using data mining techniques tailored towards continuous and fast model update. The Hoeffding Inequality has been among the most successful approaches in learning theory for data streams. In this context, it is typically used to provide a statistical bound for the number of examples needed in each step of an incremental learning process. It has been applied to both classification and clustering problems. Despite the success of the Hoeffding Tree classifier and other data stream mining methods, such models fall short of explaining how their results (i.e., classifications) are reached (black boxing). The expressiveness of decision models in data streams is an area of research that has attracted less attention, despite its paramount of practical importance. In this paper, we address this issue, adopting Hoeffding Inequality as an upper bound to build decision rules which can help decision makers with informed predictions (white boxing). We termed our novel method Hoeffding Rules with respect to the use of the Hoeffding Inequality in the method, for estimating whether an induced rule from a smaller sample would be of the same quality as a rule induced from a larger sample. The new method brings in a number of novel contributions including handling uncertainty through abstaining, dealing with continuous data through Gaussian statistical modelling, and an experimentally proven fast algorithm. We conducted a thorough experimental study using benchmark datasets, showing the efficiency and expressiveness of the proposed technique when compared with the state-of-the-art.
ناشر
Database: Elsevier - ScienceDirect (ساینس دایرکت)
Journal: Neurocomputing - Volume 265, 22 November 2017, Pages 127-141
نویسندگان
, , , , ,